LLM-as-a-Judge(LLMを用いてLLMを評価する)が今後重要になると思う。RagasのほかにもG-EvalとかPrometheusといったフレームワークがあるらしい。
レイジズアゲンストザマシーン
「目視確認で消耗」はパワーワード。結局GPT-4のAPI代で別の消耗が始まりそうな予感しかしない
RAGの精度評価をRagasで自動化してみた 〜 いつまで「目視確認」で消耗してるの?
LLM-as-a-Judge(LLMを用いてLLMを評価する)が今後重要になると思う。RagasのほかにもG-EvalとかPrometheusといったフレームワークがあるらしい。
レイジズアゲンストザマシーン
「目視確認で消耗」はパワーワード。結局GPT-4のAPI代で別の消耗が始まりそうな予感しかしない