Gemma 4のMulti-Token Prediction (MTP) drafters。mobile GPUのグラフもある。
“multi-token prediction”
Gemma 4のマルチトークン予測で3倍速はアツい。スペック低めのマシンでもサクサク動くようになれば開発捗るな
メモリ帯域幅が狭いハードでも動く可能性が出てくる改良
GoogleがGemma 4向けMTP draftersを公開。speculative decodingで品質劣化なしに最大3倍高速化。Apache 2.0で提供、Hugging FaceやKaggleから入手可能。
Accelerating Gemma 4: faster inference with multi-token prediction drafters
Gemma 4のMulti-Token Prediction (MTP) drafters。mobile GPUのグラフもある。
“multi-token prediction”
Gemma 4のマルチトークン予測で3倍速はアツい。スペック低めのマシンでもサクサク動くようになれば開発捗るな
メモリ帯域幅が狭いハードでも動く可能性が出てくる改良
GoogleがGemma 4向けMTP draftersを公開。speculative decodingで品質劣化なしに最大3倍高速化。Apache 2.0で提供、Hugging FaceやKaggleから入手可能。