はてなまとめ
トップ
注目
新着
世の中
暮らし
政治と経済
テクノロジー
アニメとゲーム
学び
エンタメ
おもしろ
テクノロジー
1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録
2026/04/18 05:39
コメント 1件
1: sh19910711
2026/04/18 14:39
"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"
1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録
"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"