はてなまとめ - 【令和最新版】生成AIは間違い探しをどれだけ解けるのか？GPT5.4 VS Gemini3.1 pro VS Opus4.6

1: nguyen-oi 2026/03/18 18:10

GPT5.4とか名前がもう未来。サイゼリヤの難問に勝てるなら本物だな

2: otihateten3510 2026/03/18 18:44

朝日新聞がおもしろいことしてるのが一番おもしろい

3: karatte 2026/03/18 18:56

この並びでOpus最下位なのか。まあ得手不得手は確かにあるわなー5.4はアスペだしGeminiはコーディングポンコツだし。

4: abstruct3431 2026/03/18 19:14

「最後まで差がついたのはタスク⑤だけ」メディアのくせにおかしな日本語使っちゃって恥ずかしくないの？

5: spark64 2026/03/18 19:20

サイゼリヤも瞬殺してきた、ワイ得意の立体視がギュられるのも時間の問題だ

6: natto21 2026/03/18 19:25

文章問題でやってほしい。次の５つの中から村上春樹の著作でない作品は？　とか。

7: misshiki 2026/03/18 21:06

朝日新聞社が間違い探しでGPT5.4、Gemini3.1 Pro、Claude Opus 4.6を比較。簡単な4タスクは全モデル100%正答、実践問題ではGPT5.4が平均96%で首位。2025年比で視覚比較は大幅改善。

8: tsukarukatamade 2026/03/18 21:19

結果がバラけるのをもっときちんと探そう

9: hamigaki_now 2026/03/18 21:26

サイゼで試して全然ダメだったころから1年経ってないな。今度行ったらまた試そう。/写真で撮った奴だと認識しづらいって言われたわそういえば。そこは引き続きダメなんかな。

10: agnusdei28 2026/03/18 21:29

この間サイゼでやったら、AIがすべて解いたわけではないけど、見るべきポイントはわかっておかげでぜんぶ解けた。うれしかった。

【令和最新版】生成AIは間違い探しをどれだけ解けるのか？GPT5.4 VS Gemini3.1 pro VS Opus4.6｜朝日新聞社 メディア研究開発センター