量子化モデルならVRAM8GBのGPUでギリ動くか、厳しいか
丁度いいサイズ感
VRAM16GBで動くのは夢があるな。ゲーミングノートの使い道がやっとマイニング以外に見つかりそう
新しいのが出る度に入れ替えているが、正直、頭が良くなっているのか、分からない。
ollamaは pre release版(0.30.4)が必要っぽい。対応待ち / LM Studioで動かしてみました https://nunocky.hatenablog.com/entry/2026/06/04/101355 / ollamaも更新された模様
claude codeとかcodexが従量課金になったらみんなこっちに流れてしまうのかな。そうならないためにも定額残しておいてほしいし、そのためにも頑張ってほしい
RTX4070(12GB)にgemma-4-12B-it-Q6_K.ggufを載せて、SillyTarvernでつなげて評価?中。E4Bや他の8Bクラスとの比較では良い感じ / Instantaleも先に進めたいのだが時間が……
我が家のM4Air32Gでも十分使えるようで助かる。複数台を繋いで役割分担が相応しいかも。
LM StudioだとRuntime最新にしてもロードに失敗するな・・・
16GBぐらいに乗るサイズ感はありがたい。どこかで試してみよ。
unsloth最新版でロード成功。日本語がちょっと苦手のようだ
「山口県について教えて」と質問するとそんな県は存在しないという回答を返すらしいhttps://nowokay.hatenablog.com/entry/2026/06/04/033047
LM Studio 自体をアップデートすれば LM Studio でも動いたよ(windows)コンテスト長20000で10.30G
“何がすごいって、VRAM16GBで動作するとされていること。ノートPC向けに設計されています。”
スマホに搭載できないとインパクトあんまり無くないか。良いグラボが必要だから業務PCだと動かないし中途半端だと思う
(すぐに試せてる人が結構いるんだな〜。)
Gemma 4 E2Bが既にスマホでも実用的に動くので12Bをわざわざスマホでも動くようにする必要はないですね
このグラボ高騰時代にVRAM16Gで設計されてもさぁ…。
試さなければ…
VRAM16GBかあ。足りないなあ。
MacBookAir M4 16GBでちょっと怪しいけどちゃんと動いた。ノートPCのローカルでこの性能が出るのはすごいよなあ。
Gemma 4 31Bが結構使えるモデルだった。Gemma 4 26B A4Bは試してないが31Bより下なので12Bはどんなもんだろう。->31Bの2倍速くらい。細かい検証はしてないけど会話は自然で31Bと区別が付かなかった。
gizmodeがくっそ読みづらくなってる。
E4Bはなんか名前が小さいから12B試したい
12GB の 4070Ti で使ってみたら、まず速い。 いつも試してる有名作品のあらすじを教えてもらうテストは、推論なしだと他のローカル LLM 同様に固有名詞が怪しいけど推論ありだとほぼ正しい内容が出た。
30B前後はかなり実用できるので期待 しかしollamaはあんま入れたくねえな...
結局opus4.7とかに慣れちゃってるからコーディングエージェントとして使う気には無れんのが問題よね。。。
ただただ時間が足りない。世界の時間を止めて俺に1年くれ。
「何がすごいって、VRAM16GBで動作するとされていること。ノートPC向けに設計されています。」ごめんなさい、貧乏人なのでVRAM16GBも持ってないです…低みの見物 GGUFならワンチャンかもだけどマトモに動く気がしない
最近のローカルモデル、回答の質の差があんま分からないのはそうなんだけど、さっそくこれを試してみたら、推論を無効にした時にかなり早く妥当な答えを返したので、スピードの面で良さそう。
WindowsのLM Studioでは lmstudio-community/gemma-4-12B-it-GGUF だといけたし Q4_K_M でも日本語良かった/google本家やunsloth版の出力が壊れていたのはバグらしく修正済/量子化されてるやつならVRAM 16GBもいりません、8GBあれば全部VRAMに入る
“VRAM16GBで動作するとされていること。ノートPC向けに設計されています。”そんなノートPC高くて買えない、、、
使わないけど、GPT、Claudeにプレッシャーをかけてくれるのは歓迎
ollamaで導入しようと思ったらエラーが出てしまった。アプデされてるのかな?もう一回やってみるか。16gのGPUなのでいい感じで動くといいが。
ミドルクラスのゲーミングPCでも動くちょうどいいサイズ。16GBでも画面出力別にしなくていい程度には余裕ありそう
3060tiだと厳しいよな。だれか試したやついないかな。グラボ費用回収できるならローカルで本番適用したいなぁ
6Bでもクレヨンみたいなのに、12Bなんてもはや粉では
MacのMLXで使ってると26B-A4Bが優秀なんだよな。VRAMの制限がないので(メインメモリをつかうから)アクティブが4Bなのが素直に効いてる。
一般人、ローカル動作を量子化モデルで使わない人はいないだろ
ヨシ、弊社の次回PC更新では皆5070Ti搭載マシンにするぞ! とはならないよな
凄いんだけど、欲しいのはGeminiの劣化版じゃなくてClaudeみたいな謙虚なLLMなんだよね。
"「無料Claude Code」的なこともできる、かなり推論性能が高いモデルです。" 無理だって
どんどん競争してどんどん安くて良いものになってくれ…
RadeonとArcは使えますか?
いいんだけど、gemma4 種類が多すぎて困る。
そろそろこの時代に。
“Gemma 4 12B” VRAM16GB民としては10~20B間で最新モデルが欲しかったのでこれはありがたい、実用するとなると量子化してもVRAM満タントークンカツカツは困る。
ローカルでちょっとしたエージェントにするのはいいけど、少しでも複雑なタスクだと解けないからね。仕事で使うなら課金してフロンティアモデル使うべきだよ。
3060 12GB自作PCでやってみよ。26Bは遅かったけどこれはどうかな。
低いリソースで動くのももちろん大事だけど、ローカルLLMでも純粋に高性能というものが欲しい。copilotもトークン従量制になってAPI利用は2025年が華だったとなりそうなので。
GoogleがGemma 4 12Bを発表。Gemma 4 26B A4Bに迫るベンチマークで、VRAM16GB動作・ノートPC向け設計。音声をエンコーダなしで処理し、遅延やメモリ使用量を低減。
まぁ、どこもクラウドLLMのトークン削減の手段としてローカルLLMを利用したいみたいだからクラウドに勝てなくてもいいのよ。
後で見る
日本語がかなり怪しいらしい
denseの12BとMOEの26Bが同程度の性能なのって驚くような話か?
Googleが「Gemma 4 12B」をリリース。ノートPCで動いて26B級の性能、またお化けローカルLLM | ギズモード・ジャパン
量子化モデルならVRAM8GBのGPUでギリ動くか、厳しいか
丁度いいサイズ感
VRAM16GBで動くのは夢があるな。ゲーミングノートの使い道がやっとマイニング以外に見つかりそう
新しいのが出る度に入れ替えているが、正直、頭が良くなっているのか、分からない。
ollamaは pre release版(0.30.4)が必要っぽい。対応待ち / LM Studioで動かしてみました https://nunocky.hatenablog.com/entry/2026/06/04/101355 / ollamaも更新された模様
claude codeとかcodexが従量課金になったらみんなこっちに流れてしまうのかな。そうならないためにも定額残しておいてほしいし、そのためにも頑張ってほしい
RTX4070(12GB)にgemma-4-12B-it-Q6_K.ggufを載せて、SillyTarvernでつなげて評価?中。E4Bや他の8Bクラスとの比較では良い感じ / Instantaleも先に進めたいのだが時間が……
我が家のM4Air32Gでも十分使えるようで助かる。複数台を繋いで役割分担が相応しいかも。
LM StudioだとRuntime最新にしてもロードに失敗するな・・・
16GBぐらいに乗るサイズ感はありがたい。どこかで試してみよ。
unsloth最新版でロード成功。日本語がちょっと苦手のようだ
「山口県について教えて」と質問するとそんな県は存在しないという回答を返すらしいhttps://nowokay.hatenablog.com/entry/2026/06/04/033047
LM Studio 自体をアップデートすれば LM Studio でも動いたよ(windows)コンテスト長20000で10.30G
“何がすごいって、VRAM16GBで動作するとされていること。ノートPC向けに設計されています。”
スマホに搭載できないとインパクトあんまり無くないか。良いグラボが必要だから業務PCだと動かないし中途半端だと思う
(すぐに試せてる人が結構いるんだな〜。)
Gemma 4 E2Bが既にスマホでも実用的に動くので12Bをわざわざスマホでも動くようにする必要はないですね
このグラボ高騰時代にVRAM16Gで設計されてもさぁ…。
試さなければ…
VRAM16GBかあ。足りないなあ。
MacBookAir M4 16GBでちょっと怪しいけどちゃんと動いた。ノートPCのローカルでこの性能が出るのはすごいよなあ。
Gemma 4 31Bが結構使えるモデルだった。Gemma 4 26B A4Bは試してないが31Bより下なので12Bはどんなもんだろう。->31Bの2倍速くらい。細かい検証はしてないけど会話は自然で31Bと区別が付かなかった。
gizmodeがくっそ読みづらくなってる。
E4Bはなんか名前が小さいから12B試したい
12GB の 4070Ti で使ってみたら、まず速い。 いつも試してる有名作品のあらすじを教えてもらうテストは、推論なしだと他のローカル LLM 同様に固有名詞が怪しいけど推論ありだとほぼ正しい内容が出た。
30B前後はかなり実用できるので期待 しかしollamaはあんま入れたくねえな...
結局opus4.7とかに慣れちゃってるからコーディングエージェントとして使う気には無れんのが問題よね。。。
ただただ時間が足りない。世界の時間を止めて俺に1年くれ。
「何がすごいって、VRAM16GBで動作するとされていること。ノートPC向けに設計されています。」ごめんなさい、貧乏人なのでVRAM16GBも持ってないです…低みの見物 GGUFならワンチャンかもだけどマトモに動く気がしない
最近のローカルモデル、回答の質の差があんま分からないのはそうなんだけど、さっそくこれを試してみたら、推論を無効にした時にかなり早く妥当な答えを返したので、スピードの面で良さそう。
WindowsのLM Studioでは lmstudio-community/gemma-4-12B-it-GGUF だといけたし Q4_K_M でも日本語良かった/google本家やunsloth版の出力が壊れていたのはバグらしく修正済/量子化されてるやつならVRAM 16GBもいりません、8GBあれば全部VRAMに入る
“VRAM16GBで動作するとされていること。ノートPC向けに設計されています。”そんなノートPC高くて買えない、、、
使わないけど、GPT、Claudeにプレッシャーをかけてくれるのは歓迎
ollamaで導入しようと思ったらエラーが出てしまった。アプデされてるのかな?もう一回やってみるか。16gのGPUなのでいい感じで動くといいが。
ミドルクラスのゲーミングPCでも動くちょうどいいサイズ。16GBでも画面出力別にしなくていい程度には余裕ありそう
3060tiだと厳しいよな。だれか試したやついないかな。グラボ費用回収できるならローカルで本番適用したいなぁ
6Bでもクレヨンみたいなのに、12Bなんてもはや粉では
MacのMLXで使ってると26B-A4Bが優秀なんだよな。VRAMの制限がないので(メインメモリをつかうから)アクティブが4Bなのが素直に効いてる。
一般人、ローカル動作を量子化モデルで使わない人はいないだろ
ヨシ、弊社の次回PC更新では皆5070Ti搭載マシンにするぞ! とはならないよな
凄いんだけど、欲しいのはGeminiの劣化版じゃなくてClaudeみたいな謙虚なLLMなんだよね。
"「無料Claude Code」的なこともできる、かなり推論性能が高いモデルです。" 無理だって
どんどん競争してどんどん安くて良いものになってくれ…
RadeonとArcは使えますか?
いいんだけど、gemma4 種類が多すぎて困る。
そろそろこの時代に。
“Gemma 4 12B” VRAM16GB民としては10~20B間で最新モデルが欲しかったのでこれはありがたい、実用するとなると量子化してもVRAM満タントークンカツカツは困る。
ローカルでちょっとしたエージェントにするのはいいけど、少しでも複雑なタスクだと解けないからね。仕事で使うなら課金してフロンティアモデル使うべきだよ。
3060 12GB自作PCでやってみよ。26Bは遅かったけどこれはどうかな。
低いリソースで動くのももちろん大事だけど、ローカルLLMでも純粋に高性能というものが欲しい。copilotもトークン従量制になってAPI利用は2025年が華だったとなりそうなので。
GoogleがGemma 4 12Bを発表。Gemma 4 26B A4Bに迫るベンチマークで、VRAM16GB動作・ノートPC向け設計。音声をエンコーダなしで処理し、遅延やメモリ使用量を低減。
まぁ、どこもクラウドLLMのトークン削減の手段としてローカルLLMを利用したいみたいだからクラウドに勝てなくてもいいのよ。
後で見る
日本語がかなり怪しいらしい
denseの12BとMOEの26Bが同程度の性能なのって驚くような話か?