QATで事前圧縮を想定して学習させるの賢い。ローカルAIがさらに身近になるな
Locally AIに入れて使ってみてるけど、かなりレスポンス軽くていいかも
ある一定能力以下のAI(LLM)はいくら速くても害悪でしかないからなぁ。。。ノイズではなく、明確に利用する人間に不利益を与えてしまう。ユースケース限定でもいいのでそのラインを超えているかが最大の問題。
3んときもQATあったよな
GoogleがGemma 4のQAT対応チェックポイントを公開。Gemma 4 E2Bはモバイル向けで約1GB、テキスト専用なら1GB未満。Q4_0ではBF16比で約75%メモリ削減。
各社同じだけど、ローカルLLMをクラウドLLMに投げる前段階の下処理に利用しようとしている。匿名化、利用モデル判断、ノイズ除去。やれることは多い。自社の貴重なクラウド資源の節約としてユーザーに負荷分散させる
スマホで動くAI、Gemma 4が量子化対応で1GB未満に。Googleが軽量モデル公開 - すまほん!!
QATで事前圧縮を想定して学習させるの賢い。ローカルAIがさらに身近になるな
Locally AIに入れて使ってみてるけど、かなりレスポンス軽くていいかも
ある一定能力以下のAI(LLM)はいくら速くても害悪でしかないからなぁ。。。ノイズではなく、明確に利用する人間に不利益を与えてしまう。ユースケース限定でもいいのでそのラインを超えているかが最大の問題。
3んときもQATあったよな
GoogleがGemma 4のQAT対応チェックポイントを公開。Gemma 4 E2Bはモバイル向けで約1GB、テキスト専用なら1GB未満。Q4_0ではBF16比で約75%メモリ削減。
各社同じだけど、ローカルLLMをクラウドLLMに投げる前段階の下処理に利用しようとしている。匿名化、利用モデル判断、ノイズ除去。やれることは多い。自社の貴重なクラウド資源の節約としてユーザーに負荷分散させる