ぶっちゃけこういうやり方なら、負けさせたい方が負けるやり方を探してからやればどうとでも言えるので、なんの情報にもならないのでは
“もう一つの要因として、日本語・日本知識の性能低下…?も有り得るかもしれない”
こういうの必ず出るけど半年、下手すると明日には役に立たなくなる
これは自分もちょっと感じた。チームとして対応するようになったけどひとりひとりの質は下がってる感。
thinkingに頼る割合が増えている感じはする
拙者は…"統計的に"に厳しいタイプの忍者。なにをかいわんやござる
話の論理性というか組み立てが劣化したように感じている。
Transformerは自律思考せず、過去文脈と重みから次トークンを逐次生成するだけ。CoTも“推論”に見える文の連続生成に過ぎない。
なんとなく蒸留してるんだろうな、蒸留過程で抜け落ちたものが予想外に意味があったのかも?という想像。パラメータ数を極端に増やさず高精度化するには、何かを捨てて精度をあげる必要があるので。
一般人が検索の代わりに使う程度のAIは既に正確さより態度の世界に入っているのかもしれんと思うアプデだった
感情表現よりも広範な意味でのフレーム問題はMCPも含めた規模になると思うけど。論理演算の実装としては圏論を使えばいいけどな。
おもしろそうだから追試したけど"羊(未) → 8(八)"で安定してて30回で挫けた。ぜんぜんイケてた。
他のAIならどうなんだろう?
同じ問題を100回だとほぼ意味ないのでは。。。この辺の質問100回ずつ投げるに意味があると思えずhttps://note.com/xcloche/n/n55938e706986
Claude で試してみた(試行回数はいずれも 1)。Sonnet 4: 8, 酉(間違い)、Opus 4.1: 8, 未(正解)
GPT-5がイマイチなのは否定しないんだけど、なんか書いてる人の頭の方が残念な記事がやたら多いね
業界標準で使われているある程度考えられた質問セットがある中で「僕が考えた残酷な質問」できゃっきゃしてるのダサすぎる
「ナーフされている部分がある」ね。コスト削減を頑張っているからタスクによっては弱くなるものもあるだろう。
無印GPT5は「ちょっとだけThinking使うもの」としてリリースされてるのに、その部分引き剥がしたら、無印GPT5の評価にならんのでは
はてブでは「サムアルトマンが間違ってるわけがない、一般人が理解できないだけだ、4oを求める民衆は軟弱だ」と擁護していたが、普通にGPT5が劣化してることが明らかになったな。
いつも「忖度なくレビューして」ってお願いしてたんだけど、5 Thinkingにやらせると泣いても許してくれなさそうなレビューが返ってくる。Geminiよりキツい。
否定疑問文とか付加疑問文的な質問をしたときに、GPT5が説明してくれる内容と、質問に対する「はい」、「いいえ」が逆になってしまう事が増えた気がする。
ベンチマークというよりはアラ探しに近いな
GPT-5が4oよりナーフされてることを証明してみた|まはー
ぶっちゃけこういうやり方なら、負けさせたい方が負けるやり方を探してからやればどうとでも言えるので、なんの情報にもならないのでは
“もう一つの要因として、日本語・日本知識の性能低下…?も有り得るかもしれない”
こういうの必ず出るけど半年、下手すると明日には役に立たなくなる
これは自分もちょっと感じた。チームとして対応するようになったけどひとりひとりの質は下がってる感。
thinkingに頼る割合が増えている感じはする
拙者は…"統計的に"に厳しいタイプの忍者。なにをかいわんやござる
話の論理性というか組み立てが劣化したように感じている。
Transformerは自律思考せず、過去文脈と重みから次トークンを逐次生成するだけ。CoTも“推論”に見える文の連続生成に過ぎない。
なんとなく蒸留してるんだろうな、蒸留過程で抜け落ちたものが予想外に意味があったのかも?という想像。パラメータ数を極端に増やさず高精度化するには、何かを捨てて精度をあげる必要があるので。
一般人が検索の代わりに使う程度のAIは既に正確さより態度の世界に入っているのかもしれんと思うアプデだった
感情表現よりも広範な意味でのフレーム問題はMCPも含めた規模になると思うけど。論理演算の実装としては圏論を使えばいいけどな。
おもしろそうだから追試したけど"羊(未) → 8(八)"で安定してて30回で挫けた。ぜんぜんイケてた。
他のAIならどうなんだろう?
同じ問題を100回だとほぼ意味ないのでは。。。この辺の質問100回ずつ投げるに意味があると思えずhttps://note.com/xcloche/n/n55938e706986
Claude で試してみた(試行回数はいずれも 1)。Sonnet 4: 8, 酉(間違い)、Opus 4.1: 8, 未(正解)
GPT-5がイマイチなのは否定しないんだけど、なんか書いてる人の頭の方が残念な記事がやたら多いね
業界標準で使われているある程度考えられた質問セットがある中で「僕が考えた残酷な質問」できゃっきゃしてるのダサすぎる
「ナーフされている部分がある」ね。コスト削減を頑張っているからタスクによっては弱くなるものもあるだろう。
無印GPT5は「ちょっとだけThinking使うもの」としてリリースされてるのに、その部分引き剥がしたら、無印GPT5の評価にならんのでは
はてブでは「サムアルトマンが間違ってるわけがない、一般人が理解できないだけだ、4oを求める民衆は軟弱だ」と擁護していたが、普通にGPT5が劣化してることが明らかになったな。
いつも「忖度なくレビューして」ってお願いしてたんだけど、5 Thinkingにやらせると泣いても許してくれなさそうなレビューが返ってくる。Geminiよりキツい。
否定疑問文とか付加疑問文的な質問をしたときに、GPT5が説明してくれる内容と、質問に対する「はい」、「いいえ」が逆になってしまう事が増えた気がする。
ベンチマークというよりはアラ探しに近いな