はてなまとめ - GPT-5が4oよりナーフされてることを証明してみた

1: secseek 2025/08/12 12:17

ぶっちゃけこういうやり方なら、負けさせたい方が負けるやり方を探してからやればどうとでも言えるので、なんの情報にもならないのでは

2: kojikoji75 2025/08/12 12:31

“もう一つの要因として、日本語・日本知識の性能低下…？も有り得るかもしれない”

3: mayumayu_nimolove 2025/08/12 12:34

こういうの必ず出るけど半年、下手すると明日には役に立たなくなる

4: gabill 2025/08/12 12:45

これは自分もちょっと感じた。チームとして対応するようになったけどひとりひとりの質は下がってる感。

5: Yagokoro 2025/08/12 12:58

thinkingに頼る割合が増えている感じはする

6: shoninja 2025/08/12 13:01

拙者は…"統計的に"に厳しいタイプの忍者。なにをかいわんやござる

7: ustam 2025/08/12 13:01

話の論理性というか組み立てが劣化したように感じている。

8: baby_y 2025/08/12 13:07

Transformerは自律思考せず、過去文脈と重みから次トークンを逐次生成するだけ。CoTも“推論”に見える文の連続生成に過ぎない。

9: lets_skeptic 2025/08/12 13:27

なんとなく蒸留してるんだろうな、蒸留過程で抜け落ちたものが予想外に意味があったのかも？という想像。パラメータ数を極端に増やさず高精度化するには、何かを捨てて精度をあげる必要があるので。

10: manatus 2025/08/12 13:31

一般人が検索の代わりに使う程度のAIは既に正確さより態度の世界に入っているのかもしれんと思うアプデだった

11: otologie 2025/08/12 13:35

感情表現よりも広範な意味でのフレーム問題はMCPも含めた規模になると思うけど。論理演算の実装としては圏論を使えばいいけどな。

12: kibitaki 2025/08/12 14:01

おもしろそうだから追試したけど"羊（未） → 8（八）"で安定してて30回で挫けた。ぜんぜんイケてた。

13: Helfard 2025/08/12 14:14

他のAIならどうなんだろう？

14: myr 2025/08/12 14:20

同じ問題を100回だとほぼ意味ないのでは。。。この辺の質問100回ずつ投げるに意味があると思えずhttps://note.com/xcloche/n/n55938e706986

15: nunulk 2025/08/12 14:34

Claude で試してみた（試行回数はいずれも 1）。Sonnet 4: 8, 酉（間違い）、Opus 4.1: 8, 未（正解）

16: kobak 2025/08/12 14:38

GPT-5がイマイチなのは否定しないんだけど、なんか書いてる人の頭の方が残念な記事がやたら多いね

17: ssssschang 2025/08/12 14:42

業界標準で使われているある程度考えられた質問セットがある中で「僕が考えた残酷な質問」できゃっきゃしてるのダサすぎる

18: hiroshima_pot 2025/08/12 14:43

「ナーフされている部分がある」ね。コスト削減を頑張っているからタスクによっては弱くなるものもあるだろう。

19: doko 2025/08/12 14:46

無印GPT5は「ちょっとだけThinking使うもの」としてリリースされてるのに、その部分引き剥がしたら、無印GPT5の評価にならんのでは

20: baseb 2025/08/12 14:51

はてブでは「サムアルトマンが間違ってるわけがない、一般人が理解できないだけだ、4oを求める民衆は軟弱だ」と擁護していたが、普通にGPT5が劣化してることが明らかになったな。

21: inazuma2073 2025/08/12 15:11

いつも「忖度なくレビューして」ってお願いしてたんだけど、5 Thinkingにやらせると泣いても許してくれなさそうなレビューが返ってくる。Geminiよりキツい。

22: takamocchi 2025/08/12 15:27

否定疑問文とか付加疑問文的な質問をしたときに、GPT５が説明してくれる内容と、質問に対する「はい」、「いいえ」が逆になってしまう事が増えた気がする。

23: mobile_neko 2025/08/12 15:30

ベンチマークというよりはアラ探しに近いな

GPT-5が4oよりナーフされてることを証明してみた｜まはー