作者patvessel (我觉得推文用句号的都AI)
看板AI_Art
标题[情报] Gemma 4 MTP投机解码模型发布
时间Wed May 6 00:34:58 2026
直接上连结
https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant
https://huggingface.co/google/gemma-4-E4B-it-assistant
https://huggingface.co/google/gemma-4-E2B-it-assistant
gemma 4之前就被挖出有MTP头
但是google说为了相容与稳定性没有启用
也让gemma4背着一点死权重
现在终於发布了投机解码模型
---
这是什麽?
---
简单的说 这是一个投机解码的模型 同时运用了MTP(多token平行预测技术)
在运行本体模型的同时 让一个小模型快速提前预测结果写成草稿
大模型就能对草稿大批平行验证 验证过了的部分直接放行 验证不过的位置接手推论
所以可以在保证精度和品质的前提下增加decode速度
缺点是 要额外的记忆体来容纳这个小模型的权重和KVCACHE
简单的说: 用记忆体空间来换解码速度 但收益因场景而异
GGUF可能还要再等等 llama.cpp的投机解码部分之前也有些相容性的问题
不知道什麽时候可以用到 不过原生支援似乎已经在BETA测试阶段
之後有可能可以直接压成一个档案 更省事 也能省一些记忆空间
另外根据测试报告
全系列模型都有最大1.5倍到3.1倍之间的速度提升
26BMOE 1.5倍
31B 3倍
无用闲聊:
E2B也有一个78M的可爱(?)草稿模型
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.229.28.82 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777998902.A.DD4.html
※ 编辑: patvessel (125.229.28.82 台湾), 05/06/2026 03:49:11