はてなまとめ - OpenAI、LLMの「幻覚」についての論文公開　「評価方法の抜本的見直し」を提言

1: theatrical 2025/09/07 16:09

既存のベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている。追い込まれて嘘つく人間そのまんまな行動パターンだ

2: sea_side 2025/09/07 16:24

学校のテストでも解答欄は全部埋めろって言われるし(´・ω・`)

3: syou430 2025/09/07 17:18

ハルシネーションもシコパンシーも人間やるしなあ。

4: star_123 2025/09/07 17:32

なんかとっても人間くさい理由だった。「わからないけど私の推測では○○ではないかと思います」みたいな答え方ができるように育ててくれるといいんだけど（最近のLLMはたまにそういう回答してくれるけど

5: asamaru 2025/09/07 18:14

ハルシネーションはハルシネーションと書いたほうが良いと思う

6: fluoride 2025/09/07 18:31

“正解には1ポイント、間違った答えや「分かりません」という回答には0ポイントが与えられる「二値評価スキーム」が採用されている。…「分かりません」と答えるよりも推測を選ぶように最適化されてしまう。”

7: gpdwin 2025/09/07 18:44

GPT5みたいに頭が悪くなった、使えなくなったとユーザー側に判定されそう。（人間、本当でも断言させる人より嘘でも断言する人信用しがち）

OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言