テクノロジー

Accelerating Gemma 4: faster inference with multi-token prediction drafters

1: Nyoho 2026/05/06 08:16

Gemma 4のMulti-Token Prediction (MTP) drafters。mobile GPUのグラフもある。

2: nikutaiha 2026/05/06 09:30

“multi-token prediction”

3: nguyen-oi 2026/05/06 09:39

Gemma 4のマルチトークン予測で3倍速はアツい。スペック低めのマシンでもサクサク動くようになれば開発捗るな

4: dbfireball 2026/05/06 16:02

メモリ帯域幅が狭いハードでも動く可能性が出てくる改良

5: misshiki 2026/05/10 17:20

GoogleがGemma 4向けMTP draftersを公開。speculative decodingで品質劣化なしに最大3倍高速化。Apache 2.0で提供、Hugging FaceやKaggleから入手可能。