作者patvessel (我覺得推文用句號的都AI)
看板AI_Art
標題[情報] Gemma 4 MTP投機解碼模型發布
時間Wed May 6 00:34:58 2026
直接上連結
https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant
https://huggingface.co/google/gemma-4-E4B-it-assistant
https://huggingface.co/google/gemma-4-E2B-it-assistant
gemma 4之前就被挖出有MTP頭
但是google說為了相容與穩定性沒有啟用
也讓gemma4背著一點死權重
現在終於發布了投機解碼模型
---
這是什麼?
---
簡單的說 這是一個投機解碼的模型 同時運用了MTP(多token平行預測技術)
在運行本體模型的同時 讓一個小模型快速提前預測結果寫成草稿
大模型就能對草稿大批平行驗證 驗證過了的部分直接放行 驗證不過的位置接手推論
所以可以在保證精度和品質的前提下增加decode速度
缺點是 要額外的記憶體來容納這個小模型的權重和KVCACHE
簡單的說: 用記憶體空間來換解碼速度 但收益因場景而異
GGUF可能還要再等等 llama.cpp的投機解碼部分之前也有些相容性的問題
不知道什麼時候可以用到 不過原生支援似乎已經在BETA測試階段
之後有可能可以直接壓成一個檔案 更省事 也能省一些記憶空間
另外根據測試報告
全系列模型都有最大1.5倍到3.1倍之間的速度提升
26BMOE 1.5倍
31B 3倍
無用閒聊:
E2B也有一個78M的可愛(?)草稿模型
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1777998902.A.DD4.html
※ 編輯: patvessel (125.229.28.82 臺灣), 05/06/2026 03:49:11