既存のベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている。追い込まれて嘘つく人間そのまんまな行動パターンだ
学校のテストでも解答欄は全部埋めろって言われるし(´・ω・`)
ハルシネーションもシコパンシーも人間やるしなあ。
なんかとっても人間くさい理由だった。 「わからないけど私の推測では○○ではないかと思います」みたいな答え方ができるように育ててくれるといいんだけど(最近のLLMはたまにそういう回答してくれるけど
ハルシネーションはハルシネーションと書いたほうが良いと思う
“正解には1ポイント、間違った答えや「分かりません」という回答には0ポイントが与えられる「二値評価スキーム」が採用されている。…「分かりません」と答えるよりも推測を選ぶように最適化されてしまう。”
GPT5みたいに頭が悪くなった、使えなくなったとユーザー側に判定されそう。 (人間、本当でも断言させる人より嘘でも断言する人信用しがち)
OpenAI、LLMの「幻覚」についての論文公開 「評価方法の抜本的見直し」を提言
既存のベンチマークだと、わかりませんと言うと0点だけど、適当に言ってたまたま当たったらポイントもらえるので、適当に言う方が賢い選択になってしまっている。追い込まれて嘘つく人間そのまんまな行動パターンだ
学校のテストでも解答欄は全部埋めろって言われるし(´・ω・`)
ハルシネーションもシコパンシーも人間やるしなあ。
なんかとっても人間くさい理由だった。 「わからないけど私の推測では○○ではないかと思います」みたいな答え方ができるように育ててくれるといいんだけど(最近のLLMはたまにそういう回答してくれるけど
ハルシネーションはハルシネーションと書いたほうが良いと思う
“正解には1ポイント、間違った答えや「分かりません」という回答には0ポイントが与えられる「二値評価スキーム」が採用されている。…「分かりません」と答えるよりも推測を選ぶように最適化されてしまう。”
GPT5みたいに頭が悪くなった、使えなくなったとユーザー側に判定されそう。 (人間、本当でも断言させる人より嘘でも断言する人信用しがち)