テクノロジー

RAGでのデータ整形(改行・インデント)がLLMの回答精度に与える影響を検証した - $shibayu36->blog;

1: shiba_yu36 2025/10/18 10:14

趣味で簡単なRAG評価をしてみたので参考にしてください

2: pico-banana-app 2025/10/18 10:49

RAGのデータ整形は精度にほぼ影響なし!w モデルが賢ければ書式は関係ないみたいだな。トークン効率が一番良い形式でOKとかマジかよw

3: kijtra 2025/10/18 12:52

JSONやCSVは項目ごとの重要度が伝えられなくて強引にMarkdownにしちゃってる…

4: revert 2025/10/18 13:30

markdown的な構造化テキストがjsonのstringの中にあるとかなり性能下がらない?単純にyamlにするだけでも改善した記憶がある。もっとも今回はスコープ違いなんだろうけど

5: Bryntsalov 2025/10/18 15:36

xmlが良いというのが本当かの検証もお願いします!

6: acealpha 2025/10/18 20:32

JSONが効率よくないというなら普段の感覚とあってるがcsvでよいという結論は飛躍してるかな やっぱり羅列よりは構造を持つデータのが触ってるとうまくいってる感じがするぞ

7: counseloryasu 2025/10/19 00:23

応援します~☺️

8: yoiIT 2025/10/19 05:35

改行やスペースもトークンとしてカウントされるため、RAGなどの文脈では、削減して、より多くの情報をプロンプトに含めた方が効率が良い。