テクノロジー

1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

1: sh19910711 2026/04/18 14:39

"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"

2: sotonohitokun 2026/04/19 04:34

GB10でQwen27BとBonsai×10で動かした。QW分解+RAG→Bonsai並列→QW取りまとめでフローが直列になるので体感は遅い上に微妙な結果(調整必須)俺の利用法では調整コストで断念/記事後段的利用ならGB10×2なら理論値Qw+65並列位迄

3: kyahi227 2026/04/19 05:47

どうせグラボ1枚なら8B 1bit x8のアンサンブルとdense 8B q4 x1の比較がないと意味ないだろ

4: kei_1010 2026/04/19 06:26

参考になる

5: otoan52 2026/04/19 08:03

重ねて効果がある閾値がありそうだよなー。より良い正解を選ぶなら効果あるけど、不正解から正解を選ぶ場合は不正解が足を引っ張るイメージがある

6: bluesura 2026/04/19 11:27

他の記事や論文でも結論出てたけど、同モデルだと同様のハルシネ悪化させるだけだし、テンプラいじっても統計的ブレさせるだけであんま意味ないし、学習データ・方法の違うモデル並列なら意味あるだろけどね…。