メモリーの使用量削減で「6倍」という表現が気になる(使用量が6分の1になった、だよね?)けど、それは脇において、なんか Google の底力を感じるなぁ。
ありがてえ。その機能も、この詳報も。
TurboQuant関連
Google TurboQuant入門 — KVキャッシュ3ビット圧縮でLLM推論を8倍高速化 - Qiita
メモリーの使用量削減で「6倍」という表現が気になる(使用量が6分の1になった、だよね?)けど、それは脇において、なんか Google の底力を感じるなぁ。
ありがてえ。その機能も、この詳報も。
TurboQuant関連