"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"
GB10でQwen27BとBonsai×10で動かした。QW分解+RAG→Bonsai並列→QW取りまとめでフローが直列になるので体感は遅い上に微妙な結果(調整必須)俺の利用法では調整コストで断念/記事後段的利用ならGB10×2なら理論値Qw+65並列位迄
どうせグラボ1枚なら8B 1bit x8のアンサンブルとdense 8B q4 x1の比較がないと意味ないだろ
参考になる
重ねて効果がある閾値がありそうだよなー。より良い正解を選ぶなら効果あるけど、不正解から正解を選ぶ場合は不正解が足を引っ張るイメージがある
他の記事や論文でも結論出てたけど、同モデルだと同様のハルシネ悪化させるだけだし、テンプラいじっても統計的ブレさせるだけであんま意味ないし、学習データ・方法の違うモデル並列なら意味あるだろけどね…。
1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録
"c=1024, np=1 なら8台で14GBに収まり、約2GBの余裕 / 8台に同時リクエストを投げても、 1.3秒以内に全台が応答 / モデルの知識に起因するエラーは何台並べても解決しない"
GB10でQwen27BとBonsai×10で動かした。QW分解+RAG→Bonsai並列→QW取りまとめでフローが直列になるので体感は遅い上に微妙な結果(調整必須)俺の利用法では調整コストで断念/記事後段的利用ならGB10×2なら理論値Qw+65並列位迄
どうせグラボ1枚なら8B 1bit x8のアンサンブルとdense 8B q4 x1の比較がないと意味ないだろ
参考になる
重ねて効果がある閾値がありそうだよなー。より良い正解を選ぶなら効果あるけど、不正解から正解を選ぶ場合は不正解が足を引っ張るイメージがある
他の記事や論文でも結論出てたけど、同モデルだと同様のハルシネ悪化させるだけだし、テンプラいじっても統計的ブレさせるだけであんま意味ないし、学習データ・方法の違うモデル並列なら意味あるだろけどね…。