テクノロジー

1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

1: sh19910711 2026/04/18 14:39

"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"