趣味で簡単なRAG評価をしてみたので参考にしてください
RAGのデータ整形は精度にほぼ影響なし!w モデルが賢ければ書式は関係ないみたいだな。トークン効率が一番良い形式でOKとかマジかよw
JSONやCSVは項目ごとの重要度が伝えられなくて強引にMarkdownにしちゃってる…
markdown的な構造化テキストがjsonのstringの中にあるとかなり性能下がらない?単純にyamlにするだけでも改善した記憶がある。もっとも今回はスコープ違いなんだろうけど
xmlが良いというのが本当かの検証もお願いします!
JSONが効率よくないというなら普段の感覚とあってるがcsvでよいという結論は飛躍してるかな やっぱり羅列よりは構造を持つデータのが触ってるとうまくいってる感じがするぞ
応援します~☺️
改行やスペースもトークンとしてカウントされるため、RAGなどの文脈では、削減して、より多くの情報をプロンプトに含めた方が効率が良い。
RAGでのデータ整形(改行・インデント)がLLMの回答精度に与える影響を検証した - $shibayu36->blog;
趣味で簡単なRAG評価をしてみたので参考にしてください
RAGのデータ整形は精度にほぼ影響なし!w モデルが賢ければ書式は関係ないみたいだな。トークン効率が一番良い形式でOKとかマジかよw
JSONやCSVは項目ごとの重要度が伝えられなくて強引にMarkdownにしちゃってる…
markdown的な構造化テキストがjsonのstringの中にあるとかなり性能下がらない?単純にyamlにするだけでも改善した記憶がある。もっとも今回はスコープ違いなんだろうけど
xmlが良いというのが本当かの検証もお願いします!
JSONが効率よくないというなら普段の感覚とあってるがcsvでよいという結論は飛躍してるかな やっぱり羅列よりは構造を持つデータのが触ってるとうまくいってる感じがするぞ
応援します~☺️
改行やスペースもトークンとしてカウントされるため、RAGなどの文脈では、削減して、より多くの情報をプロンプトに含めた方が効率が良い。