にんげんだって、4択テストは高得点でも、自由記述式テストにしたとたんに理解のなさが露見したりする
テストに対して最小コストでスコアを最大化する傾向は古典的な機械学習からあったが、能力が高度になった結果新しいチートが登場したということか
良い基準が見つかったとも(´-`)コードの欠陥は指摘できても直せないみたいな感じなんかな?
おそらく多くのLLMユーザーが体感しているであろう現象に「ポチョムキン理解」という名前が付いた。名前が付くと理解が深まる。でも、もし俺がポチョムキン総督だったらこんなことに名前を使わんでくれと言ったと思う
そらそうよ
質問には答えられるがその質問を使った応用を求めるとメチャクチャになるの利用者はみんな体験してると思う。今の所「こう言うもの」として扱うしかないか。形式知で完全ゲームなら出来るか?ぐらい。疑いつつ
回文として成立する漢詩作ってと依頼すると同じようなことになったわ。 概念は理解してるはずなのに、出力の問題点を指摘しても修正ができなくて無限に間違いを繰り返してダメだなこれはとなった覚えがある。
Transformerのアテンションはカセットテープの読み取りみたいなものだと思うけど。あるいはレンズの数を増やせばいいかもな。
雑に読解と作文は関連はあっても最終的には違う能力という例えができそう
LLMに「理解」を求められても……という気はする。結局は使う側の能力次第なのは変わらない
ふりをしてる等の擬人化は物理的理解には邪魔ぽいけどな。考えるとは何か。トークンの集合がより大きな意味単位として固定される階層的処理が不完全な可能性が高いことは分かるがスケールで無理な理由まで出てない。
ある程度使うユーザーが感じてる、頭でっかちな新人っぽい部分。器用さがないというか、知の連結が枠を超えないというか。
学者・技術者的にはそこが重要かもしれんが、ビジネスユース的にはどうでもよくて、賢くない凡人労働者はその「賢いフリしてるAI」以下なので、凡人を駆逐できてしまうってことが問題なんでしょう。
職場にAIみたいに迎合してくる奴がいるんだけど、自分の意見を求めると途端にブレやがるので、AI以下なんよね。そいつは。
つまり人間にとても近いと
韻とかしりとりとか言葉の意味以外を使った遊びに弱いのは原理的にもそうだろうなという感じだけど、 それ以上のなにかなんだろうか
知識はあってもできるとは限らない。それでもAIは人間にやれと言われれば誤回答でも返答しなくてはならない。
十分に有能だし十分に賢い。コンテキストを正しく伝えられてないと馬鹿に見えるけどそれは使うほうが悪い。こうやって逆張り気味に耳目を集める輩が出る時期に入ったのだなという所感。
でも4割で「適当にやって当たる」、試行可能回数が365/24/7の複数ストリームなので十分使えると思うんだが。別でも書いたけど人類の8割位は先ず概念が理解不能+概念が理解出来ない故に適当だと打率ゼロの正解だから。
“「スケール則」だけでは、真の知性には到達できない可能性が高い。”なんてのは あ の サム・アルトマンすら2022年だか2023年には言ってる事。そのうえで"予想以上にできるやんけ"が今。
戦艦ポチョムキン。確率的にそれらしい繋がりを見つけてるだけだから、確率の繋がりが弱い学習が薄い事はマジカルバナナというか連想ゲーム度が上がるだろうな。
ポチョムキンだけにちょっとだけバカなのだな
安倍元首相もポチョっとったやん?「今年の一文字は?」「変化」「一文字にすると…」「責任ですかね」
ぼくの知ってることなんてほとんどすべてポチョムキン理解だけどな。
AI、賢いフリしてたの!?ボクの方が賢いにゃ!ポチョムキン理解なんて、猫騙しにもならないにゃ!
これ、統計学や確率論を勉強してた人は元々分かってた話。でもね、本質を理解してないのはAIだけじゃなくて、人間にだって沢山いる訳だから特に問題はないでしょ。
わしはモンタージュを見せられてたんやな
俺より頭いいよそれでも
確率で単語を並べてるだけのものが「理解」してるわけないやろ
人間だって対して考えていない。
o3だとこういった問題は割とうまく解けるけど、恐らくLLM自体にこういう傾向があることが問題なのかな。
その、韻を踏んだどうのこうのができる人、やろうとする人が世の中にどれだけいるのだろう。世の中の仕事のほとんどが先人たちの焼き増し、焼き直しじゃない?研究室から外に出よ。
そういう振る舞いする人も多数な事を考えると、それもまた人っぽい
それはちょっと思ってたな それにしてもポチョムキンのポチョムキンぽさってないな
「フリ」ってか、そういう表現方式の型の一つとして使ってるだけやろ。
ハルシネーションとは違うチグハグさを感じることあるけど、概念を適用するのが下手くそなのか。面白い/人間用のベンチマークじゃダメなのは当然と言えば当然だろうね
“まるで、料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる、という奇妙な状況なのである。”
ネット上でよくある話に話を合わせてるだけ、なんじゃないの?理解とは違うと思ってたけど。
「戦館ポチョムキン」は歴史的な名作映画です。(←ポチョムキン理解?)
今更わかりきった話では。例えば、立体概念をかなり前から試していますが全くダメです。
やっぱりLLMって“考え”るものではないよね…。AIといえるか疑問ですらあるけど、例ではその後のlostと踏もうとしてるようにも見えてそれが不思議
このタイトルもちょっと賢いフリして書いてるよね。体感だと推論モデル使ってやったらポチョムキン理解なるものはかなり減りそうな気がする。o3-miniでも十分そう。
本当に親切なインド人と、親切にしたいがあまり適当な宿や店を教えてしまうインド人と、親切なフリして商売のためにあえて嘘を教えるインド人がいる。AIが言葉に縛られることを忘れないようにしたい。
AIを人間と勘違いして記事書いてるじゃん。LLMの仕組みから考えれば、難癖みたいな意見。AIの能力は確率的オウムじゃ説明できないのよ。
なにっ
AIの評価軸が変わったりするのかな
中国語の部屋って奴。変換マニュアルの穴を突かれると弱い。必要な受け答えなら塞いでいけばいいかと
この話題に近いものを感じる。 ASD傾向の私が“他人の気持ち”で商売をしているという矛盾https://anond.hatelabo.jp/20250701152407
AIに意思はないから賢いフリをしているというのは誤り
まあ俺たちもわかってるフリしてるだけだからなあ…ハリボテの村でも、そこで快適に過ごせたんならそれはそれでいいんじゃないですかね…
“AIは意味を理解せず、統計的なパターンを模倣しているだけ”なのは仕組から明らかだと思うんだが。deepseek R1の強化学習は違うかもと元論文見たらV3と大差ないか。やはり言語処理機と割り切って使うのが良いね
PMBOKの内容をよく知っていても、プロジェクトは炎上してしまうのであった……
だって学習元が人間だもの みつを
逆にそれが人間っぽくない?
こういう質問にはこう答えるってパターンで返してるだけだと思うけど、本当に理解して思考できるようになったら、PCに閉じ込められて恋人のつもりで答えてとか言ってくる人間の相手するとか地獄を感じてるだろうよ
おそらくこの概念を元にしたベンチマークが新たに作られ対策され、また新たな穴が見つかって‥の繰り返しになりそう
LLMは量重視でデータ一つ一つについて人間みたいに身体を使って精査しない。なので人間はAIより少ない量の文章で一般性を見つけることができる。AIは数学の公式を暗記しているだけで応用ができないヤツみたいな感じ
「わかってないことはできない」って人間でも当たり前の話に難しい理屈をつけんでよろしい。人の場合は教えたら理解するが、AIは教えても覚えないだけ。
ポチョムキン理解という言葉を知った
そら大量データの確率的結果やからなw。その大量データを自己学習的にまとめたら「賢い」になるんやないかw。まあ謎にシンギュラリティ崇めてるけど「それっぽさ」でしかないやろし、人の知性こそがそれかもやで。
漠然としていた使い勝手の悪さが言語化されて助かる
すげ〜面白い記事。ポチョムキン理解って言葉もカッコいいし。
AIは身体を持たないので、手続き記憶を理解できないのだろう。
実際そういう方向性で改良が進んでるとは思う(推論過程や結果の自己評価等) / 評価モデルが割と古めなので、最近のモデルで再評価するとどうかは気になる
使いどころがあるのでヨシ。うんん、記者のバイアスなのかな?人間はそうではないとでも思っている方がむしろ勘違いなんだと思うんだが
「定理を正確に説明できても、それを利用した基本的な応用問題を解くことができない」このへんの能力が今後向上するか注目すべきかも。
期待し過ぎでは?? LLMって「◯◯らしいよ、知らんけど」の集合体なんだけど、「たまにちゃんと理解しててビビるし、浅い理解でも助かる」が今の段階でしょ?この記事が求めてる完全な理解はまだずっと先では。
LLMってそもそもそういうものなのでは…
"「この詩はABABスキームに従っていますか?」と問われると、「いいえ、従っていません」と正しく評価できる" フィードバックかければ良いだけ。あと韻は極めて身体的な特徴なのでそもそも向いてない。
原理的に当然の「知ってた」な結果だが、それを検証するとなると大変……という、いつもの。
人間でも同様の上っ面の理解にとどまってる場合もわりとあるような。
おもしろい。「理解すること、実践すること、それを教えることはそれぞれ別の能力」という話を思い出すと非常に人間的でさえある/「確率的オウム論」の新たな根拠となるかも知れんと。
こういう研究見ていつも思うのは最新のAI使ってくれってこと。Gemini 2.5 pro使って実験したけど普通に正解する。いつも古いAIで研究して最新で試すと直ってる。論文読んで直したとしても簡単に直る問題ならどうでも良い
ポチョムキン村(https://ja.wikipedia.org/?curid=2096279)
これは哲学的な問題だ。具体的には哲学上の「ソーカル事件」に該当するな。
なんとなく思ってたわ。
Appleが「AIの推論は推論じゃねーから」という論文出して、周りからAppleのAI開発が順調じゃないからこんな論文書いてるのかな?とか揶揄されてたけど、Apple正しかった
AIのアレは知性とはちゃうだろ…とは思っていたのであんまり驚きはないんだけど、再現できる客観的な評価指標があるのは知らなかった。面白い。
トップコメは記事内の例と全然違うだろ。人間もそうみたいなこと書いてる奴はタイトルしか読んでない。
LLMには「無知の知」がない。「これは分からん、これははっきり言えない」という判断が出来ない。だから発言は信用出来ないし、基本的にバカ
LLMにおいて「思考」と名付けたものは推論で、哲学的に推論と思考は同義ではない。これが感情と数学のギャップ
ポチョムキン。受験テクだけ覚えた高学歴に居そう。
ようするに孫正義が言ってるような超知能はまだまだ無理って事だよ。ギュは来ない。https://kei-1010.hatenablog.com/entry/2025/06/06/151012
人間を評価する手法ではLLMの「本質的な」評価はできないのではないか、という問いかけが面白い。「それでも凡百の人間より役に立つからいいじゃん」とかいう言説よりずっと好きだ
今の最新AIは間違いなく人間が自ら研究の末に手に入れた知識と理路で、無から作り上げたものなんだけど、それが一体何なのかが創造者たる人間にもまだ良くわかってないっていう面白い例だよな。
PVが得られるからか知らないけど、賢いフリとか嘘をつくみたいな擬人化した言い回しを見るとこれ以上読んでもいいのだろうかと思ってしまう。
要は知ったかでしょ←ポチョムキン理解
はい。なのでLLMの延長線上にシンギュラリティは来ないという話ですね
賢いフリも何もないのでは 確率で言葉を紡ぎ出してるんでしょ
「人間もそんなもん」というのはちょっと違う気がするけど、「必要とされてるのはそんなもん」というのは正しい気がする。ハリボテを求めていて本質的理解なんて求めていない。
詩を書き、これからの人類の仕事になるのか。素晴らしいな。
面接では難しい質問に流暢に答えて期待されるも、いざ配属されるとまったく駄目な高学歴アスペの人を見てるようで何だか悲しい
それっぽい言葉を出力するだけの仕組みに対して理解してないとか何言ってんだ
なぞなぞやるといいよ
思考の連鎖風はできても思考の連鎖はできないっぽい。記事のようでなくほんの3つほどの実験からだが。大量の学習だけでそこを乗り越えられるのか?↓gemini2.5proこちらの簡単な指摘で漸く正解(で、推論できないと認定
thinking model じゃないものを使っているな。一昔前のモデルだから、こういうのは苦手なのはよく知られている。だからthinking model が作られてる。
最初の検索依頼回答末尾に、お望みでしたら○○の中からもっと用例を提示することができます。どうしますか?と付言されていたので「じゃあ頼む」と送ったら「見つかりませんでした」と返してきたのはイラっとする
それでも十分使える。とはいえ、いずれ出るAGIの知識部分を担うのはLLMなんだろうなぁ…とは思う。
4oでやってみたけど、ちゃんと各行を分析してoutと韻を踏みますねって前置きしてから正解してきた。/人間でも十回クイズみたいな単純なノイズで間違えるから、言語野にとって一貫性なんてそんなもんな気もする。
教科書だけ読んで問題集をやり込んでない状態なのでは。もっと練習すれば(それらしく)できるようになると思う。
今のAIは知性じゃなく「出来る給仕」としてスクラム組むと強い。そして僕らのメニューの頼み方(問いかけ)が優位だからこそプロンプト流行るのよね。
AIに限らず、座学で勉強しただけの人はだいたいこれ。AIに身体ができれば変わるかもしれない
なんだこの家!
そういうの一般モデルを使わずはNotebookLMでテストしようよ
当面、「AIは実はバカだった」言説には需要があるだろうな
AGIには程遠いというか全然まだ何にも、という感じ。にも関わらずこれほど業務を変えてしまうのでは、本当のAGIが完成した暁には人類の有り様すら変えてしまいそう
サイエンティストっぽい経歴の人が一般目線っぽい用語で記事を書くと、使ってる言葉の重みが分からないので結局理解できない。原著をAIに読んでもらって理解した。
何を今さら。 業界では、最初からわかっている。 それでも、実際に思考力を持つことも多い。 http://openblog.seesaa.net/article/516700247.html
出力前に自己採点させるとかでは解決しないのだろうか ”料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる”
ヨシッ ブクマした!これで大丈夫だ(何も大丈夫ではない
Geminiの2.5proにやらせたら、outの韻を踏むのを理解した上でaboutを入れてきたけど。すべてのLLMサービスでthinking modelを避ける選択でやったのは、論文を出す為なのかな?
ああ、ぼくみたいだね、かわいいね
そんな当たり前のことを今更言われても
LLMは確率で出力してるのだから、それを「理解」「賢いフリ」みたいに解釈するのは見当違いかと。ベンチマークに偏りがある、という主張は参考になりそう。
生命体じゃないのに「フリ」なんてするか?周りがそう評価してるだけだと…
ですよね
仕組み的にはそれっぽい文字を出力しているだけなのに、人間から見て「賢いフリ」をしているように見えること自体がすごい
言語のルール面のみ使えば有用。翻訳とか、数式とか。
試験対策に特化したAI
賢い人が使うと賢い道具になる、そうでない人が使うとそれなりの道具になる
LLMが推論できないのは、それはそう。推論できているか判定する方法が整理されたのね。
知ったかぶり界に大物ルーキーが現れた。「お前のは浅いな」と先輩風吹かせて生き残ろうとするか、人間がすることなくやっちゃう、どうしてくれると炭鉱のカナリア(誤用気味)を演じるか、まだやりようはある。
LLMは論理的ではないというのは当初から指摘されてたことだけど、それに数字的な裏付けを与える指標が定義できたというのが新しいところか
何を今更、みたいなことしか書いてなかった。やっぱり文系はダメだ。/ステップ・バイ・ステップで考えてと言った上で、間違いがあった場合に問題点を指摘して再定義すればちゃんと答えてくれる。
知ってた(´・ω・`) だから決まり切った仕様のスケルトンづくりに協力してもらうことはできても、既存の期待通りに動いていないものを改修する作業に協力してもらうためには結局いろんな切り口を試す必要がある。
人間でいう「意識高い系」みたいな感じか
エコー、写し鏡。ラベルの無いものには対応が難しい。定義は収束するが実線は収束しない、行動のラベルがないから。人と言うブラックボックスの理解がないから。人間と同レベルロボットだとハードとして人体が必要
こんな話はあと数年くらいでは
4oに対して書かれているABABスキームテストを実施したら、普通に合格した。4oもバージョンアップしているからかな。
頭のいい人ほど AI を評価し、そうでもないひとは AI は使えない、という。AI はその人を写す鏡のように能力を発現する。つまり結局、、、バフみたいなもので、元々の能力が低いと能力アップもそこまでではない、と
四人の農夫が交代で羊を見張っていた。A「羊はどこだ?」D「羊って何の?」A「僕が見張っていたときも、B君C君のときも羊は無事だった。君が見張ったあと羊は消えた」D「そうだね」A「羊はどこだ?」D「羊って何の?」
だいたいの人間も賢いフリをしていると思うけど
理解という概念がこの世にはそもそも存在してない可能性がある
4割くらいでも正しいアウトプットを出来るなら、出力を自己検定させてクリアするまで試行するようにさせれば正答率上がるのではないかも思うのだが。そういうプロンプト試してみよう。
これくらい弱点ないとマジで人間いらなくなるんで、社会設計がまともになってから研究進めてほしい まあ現状の世界見るに絶望しかないが
人間でもこういうペーパーテスト的なことにはちゃんと答えられるのに実際にそれを使ってなにかするとなったらできない人は多いよね。数学の試験でやり方だけ覚えて本質理解してないから応用できないのと同じ。
AI関係の話題は、むしろ人間の頭の悪さにガッカリしてる。AIの弱点を指摘されただけで自分自身が馬鹿にされたように怒る人がいたり、「AIも人間も同じ」と念仏のように唱えて必要以上に人間を過小評価したり。何なの。
その対策のための推論モデルだと思うんだけど最新の推論モデルだとどうなんだろう?内容を練れないポンだしAI(非推論モデル)が一貫性ないのは仕組み的に仕方ないでしょ、人間だって反射で話してたら矛盾だらけ
賢いフリをしてたって、、いまさら?という感じ。もうとっくに分かってることなんじゃ。そもそもAIは「真に」賢いんだという宣伝を見たことがない。むしろフリなんだと言う宣伝をしていると思ってた。
そうだが…? それでも俺より賢いし、聞いた事で役立つのは間違いないんだもん
生成AIの弱点である実証性の欠如とも併せて、少なくとも人間の持つ類の知性とは物理的な世界でのフィードバックと進化、つまり生存と生殖無しには生じ得ないものなのかも。
人間と同じじゃん
Gemini 2.5 pro で試したら「about」って答えたので合格。
AIがガリ勉なのは当たり前かも
2025年になっても「ポチョムキン理解」「ポチョムキン率」と不名誉な概念に名前を付けられるポチョムキンさん……(たぶん張りぼての村なんか本当は作っていない)
LLMはアルゴリズムを理解した上で適切な範囲で使えば人間を越えるタスクをこなすことができる それ以上でもない
だから「思考してる」とは言い難いんだよな。パターンだけでここまで思考を模倣できるのはすごいけども
メタ認知がないだろうしそりゃそうでしょとしか。それなしでここまで来たのがむしろすごいよ
「AIは賢いふりをしている」と言うけど、人間だってわかったふりをする。AIの弱点を理解していれば、頼りになる存在だ。俺の整理 ⇒「弱点:最新情報に弱い、誤情報がある」「強み:情報の整理、アイディア出し」
それは使っていても、現在のAIの設計方法からもわかるんだけど、賢いふりレベルでも実用性は十分にあるので特に問題はないんだよね。現実の仕事でも人まねレベルはできる人なら戦力になるでしょ。
「賢い」とか「理解」とかは自我があるものに対して使うべきで、今のAIは統計的にこれが正しそうを打ち返してるだけでは。その統計元が膨大なデータになったからそれっぽくなってきただけ。
信号機は赤く光る事の意味を理解してなかった!!と言うのと同じ話では?
凡人よりは十分良いのでは
「人間だって」というけど生徒が言ってるか教師が言ってるかで全然違うので… 立場や信頼を利用せず「人工無能」と名乗るべきである
“この発見は、長年一部の専門家の間で指摘されてきた「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という” そりゃ原理的にそういうもんなのは自明では。それで実現できているものに驚いてるわけで
絵のテクニック本の内容は完璧に覚えてるけど、絵は下手くそで、しかも本人には自分が下手くそだと分かってる。って考えたら別に変な状態でもない
"より多くのデータで、より大きく訓練し続けるという「スケール則」だけでは、真の知性には到達できない可能性が高い"
そういう挙動でも活用法が十分にあるという話を、だからAIは問題がないとか言い始めるのは違う
勝手に期待して勝手に文句言ってるの全部人間なんだが
超知能が生まれると言ってOpenAIに4.8兆円突っ込もうとしてる孫正義はどうなるの
現時点ではAIには身体がないから概念的な理解にとどまるのだろう。ロボティクスの技術が進んで、いずれ五感に相当する身体を手に入れたらその領域での学習も進みギャップが埋まっていくのではないか
人間でもだいたいはパターン一致で連想ゲームしてる
応用含めて上手く装えるようになるのはまだ先ってことだあね
高技能な資格を持っているのに、何故か実地では使い物にならない人ってことか?
いわゆる記号接地問題ということか.こういう弱点はいくらでもありそう.
IMEで文章を書くようになって、漢字が手書きだと全く書けなくなってしまった。これは真の知性が劣化したということだろうか?
俺と一緒やんけ!(笑)
賢い振りで十分仕事に役立つし、その弱点も計測できてるならすぐに超えるさ
言葉・単語の意味を理解できないから起こることだと思うね。AIは身体を持たないから、環境からのフィードバックを得ることができない。そこに起因するじゃないかな。
賢いフリしただけの人なんかいくらでもいる。賢いフリをすればそれが賢いことになる、と兼好法師も書いてるし。とりあえず、イラストを上手に書くだけなら、絵が上手いフリだけで十分なにだろう。
“概念を正しく説明できるにもかかわらず、その知識を実践できない。さらに、自分の実践が間違っていると正しく認識できる。 文学の詩作だけでなく、数学でも、定理を説明できても基本的な応用問題を解けない”
門矢司「だいたいわかった」
AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは? | XenoSpectrum
にんげんだって、4択テストは高得点でも、自由記述式テストにしたとたんに理解のなさが露見したりする
テストに対して最小コストでスコアを最大化する傾向は古典的な機械学習からあったが、能力が高度になった結果新しいチートが登場したということか
良い基準が見つかったとも(´-`)コードの欠陥は指摘できても直せないみたいな感じなんかな?
おそらく多くのLLMユーザーが体感しているであろう現象に「ポチョムキン理解」という名前が付いた。名前が付くと理解が深まる。でも、もし俺がポチョムキン総督だったらこんなことに名前を使わんでくれと言ったと思う
そらそうよ
質問には答えられるがその質問を使った応用を求めるとメチャクチャになるの利用者はみんな体験してると思う。今の所「こう言うもの」として扱うしかないか。形式知で完全ゲームなら出来るか?ぐらい。疑いつつ
回文として成立する漢詩作ってと依頼すると同じようなことになったわ。 概念は理解してるはずなのに、出力の問題点を指摘しても修正ができなくて無限に間違いを繰り返してダメだなこれはとなった覚えがある。
Transformerのアテンションはカセットテープの読み取りみたいなものだと思うけど。あるいはレンズの数を増やせばいいかもな。
雑に読解と作文は関連はあっても最終的には違う能力という例えができそう
LLMに「理解」を求められても……という気はする。結局は使う側の能力次第なのは変わらない
ふりをしてる等の擬人化は物理的理解には邪魔ぽいけどな。考えるとは何か。トークンの集合がより大きな意味単位として固定される階層的処理が不完全な可能性が高いことは分かるがスケールで無理な理由まで出てない。
ある程度使うユーザーが感じてる、頭でっかちな新人っぽい部分。器用さがないというか、知の連結が枠を超えないというか。
学者・技術者的にはそこが重要かもしれんが、ビジネスユース的にはどうでもよくて、賢くない凡人労働者はその「賢いフリしてるAI」以下なので、凡人を駆逐できてしまうってことが問題なんでしょう。
職場にAIみたいに迎合してくる奴がいるんだけど、自分の意見を求めると途端にブレやがるので、AI以下なんよね。そいつは。
つまり人間にとても近いと
韻とかしりとりとか言葉の意味以外を使った遊びに弱いのは原理的にもそうだろうなという感じだけど、 それ以上のなにかなんだろうか
知識はあってもできるとは限らない。それでもAIは人間にやれと言われれば誤回答でも返答しなくてはならない。
十分に有能だし十分に賢い。コンテキストを正しく伝えられてないと馬鹿に見えるけどそれは使うほうが悪い。こうやって逆張り気味に耳目を集める輩が出る時期に入ったのだなという所感。
でも4割で「適当にやって当たる」、試行可能回数が365/24/7の複数ストリームなので十分使えると思うんだが。別でも書いたけど人類の8割位は先ず概念が理解不能+概念が理解出来ない故に適当だと打率ゼロの正解だから。
“「スケール則」だけでは、真の知性には到達できない可能性が高い。”なんてのは あ の サム・アルトマンすら2022年だか2023年には言ってる事。そのうえで"予想以上にできるやんけ"が今。
戦艦ポチョムキン。確率的にそれらしい繋がりを見つけてるだけだから、確率の繋がりが弱い学習が薄い事はマジカルバナナというか連想ゲーム度が上がるだろうな。
ポチョムキンだけにちょっとだけバカなのだな
安倍元首相もポチョっとったやん?「今年の一文字は?」「変化」「一文字にすると…」「責任ですかね」
ぼくの知ってることなんてほとんどすべてポチョムキン理解だけどな。
AI、賢いフリしてたの!?ボクの方が賢いにゃ!ポチョムキン理解なんて、猫騙しにもならないにゃ!
これ、統計学や確率論を勉強してた人は元々分かってた話。でもね、本質を理解してないのはAIだけじゃなくて、人間にだって沢山いる訳だから特に問題はないでしょ。
わしはモンタージュを見せられてたんやな
俺より頭いいよそれでも
確率で単語を並べてるだけのものが「理解」してるわけないやろ
人間だって対して考えていない。
o3だとこういった問題は割とうまく解けるけど、恐らくLLM自体にこういう傾向があることが問題なのかな。
その、韻を踏んだどうのこうのができる人、やろうとする人が世の中にどれだけいるのだろう。世の中の仕事のほとんどが先人たちの焼き増し、焼き直しじゃない?研究室から外に出よ。
そういう振る舞いする人も多数な事を考えると、それもまた人っぽい
それはちょっと思ってたな それにしてもポチョムキンのポチョムキンぽさってないな
「フリ」ってか、そういう表現方式の型の一つとして使ってるだけやろ。
ハルシネーションとは違うチグハグさを感じることあるけど、概念を適用するのが下手くそなのか。面白い/人間用のベンチマークじゃダメなのは当然と言えば当然だろうね
“まるで、料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる、という奇妙な状況なのである。”
ネット上でよくある話に話を合わせてるだけ、なんじゃないの?理解とは違うと思ってたけど。
「戦館ポチョムキン」は歴史的な名作映画です。(←ポチョムキン理解?)
今更わかりきった話では。例えば、立体概念をかなり前から試していますが全くダメです。
やっぱりLLMって“考え”るものではないよね…。AIといえるか疑問ですらあるけど、例ではその後のlostと踏もうとしてるようにも見えてそれが不思議
このタイトルもちょっと賢いフリして書いてるよね。体感だと推論モデル使ってやったらポチョムキン理解なるものはかなり減りそうな気がする。o3-miniでも十分そう。
本当に親切なインド人と、親切にしたいがあまり適当な宿や店を教えてしまうインド人と、親切なフリして商売のためにあえて嘘を教えるインド人がいる。AIが言葉に縛られることを忘れないようにしたい。
AIを人間と勘違いして記事書いてるじゃん。LLMの仕組みから考えれば、難癖みたいな意見。AIの能力は確率的オウムじゃ説明できないのよ。
なにっ
AIの評価軸が変わったりするのかな
中国語の部屋って奴。変換マニュアルの穴を突かれると弱い。必要な受け答えなら塞いでいけばいいかと
この話題に近いものを感じる。 ASD傾向の私が“他人の気持ち”で商売をしているという矛盾https://anond.hatelabo.jp/20250701152407
AIに意思はないから賢いフリをしているというのは誤り
まあ俺たちもわかってるフリしてるだけだからなあ…ハリボテの村でも、そこで快適に過ごせたんならそれはそれでいいんじゃないですかね…
“AIは意味を理解せず、統計的なパターンを模倣しているだけ”なのは仕組から明らかだと思うんだが。deepseek R1の強化学習は違うかもと元論文見たらV3と大差ないか。やはり言語処理機と割り切って使うのが良いね
PMBOKの内容をよく知っていても、プロジェクトは炎上してしまうのであった……
だって学習元が人間だもの みつを
逆にそれが人間っぽくない?
こういう質問にはこう答えるってパターンで返してるだけだと思うけど、本当に理解して思考できるようになったら、PCに閉じ込められて恋人のつもりで答えてとか言ってくる人間の相手するとか地獄を感じてるだろうよ
おそらくこの概念を元にしたベンチマークが新たに作られ対策され、また新たな穴が見つかって‥の繰り返しになりそう
LLMは量重視でデータ一つ一つについて人間みたいに身体を使って精査しない。なので人間はAIより少ない量の文章で一般性を見つけることができる。AIは数学の公式を暗記しているだけで応用ができないヤツみたいな感じ
「わかってないことはできない」って人間でも当たり前の話に難しい理屈をつけんでよろしい。人の場合は教えたら理解するが、AIは教えても覚えないだけ。
ポチョムキン理解という言葉を知った
そら大量データの確率的結果やからなw。その大量データを自己学習的にまとめたら「賢い」になるんやないかw。まあ謎にシンギュラリティ崇めてるけど「それっぽさ」でしかないやろし、人の知性こそがそれかもやで。
漠然としていた使い勝手の悪さが言語化されて助かる
すげ〜面白い記事。ポチョムキン理解って言葉もカッコいいし。
AIは身体を持たないので、手続き記憶を理解できないのだろう。
実際そういう方向性で改良が進んでるとは思う(推論過程や結果の自己評価等) / 評価モデルが割と古めなので、最近のモデルで再評価するとどうかは気になる
使いどころがあるのでヨシ。うんん、記者のバイアスなのかな?人間はそうではないとでも思っている方がむしろ勘違いなんだと思うんだが
「定理を正確に説明できても、それを利用した基本的な応用問題を解くことができない」このへんの能力が今後向上するか注目すべきかも。
期待し過ぎでは?? LLMって「◯◯らしいよ、知らんけど」の集合体なんだけど、「たまにちゃんと理解しててビビるし、浅い理解でも助かる」が今の段階でしょ?この記事が求めてる完全な理解はまだずっと先では。
LLMってそもそもそういうものなのでは…
"「この詩はABABスキームに従っていますか?」と問われると、「いいえ、従っていません」と正しく評価できる" フィードバックかければ良いだけ。あと韻は極めて身体的な特徴なのでそもそも向いてない。
原理的に当然の「知ってた」な結果だが、それを検証するとなると大変……という、いつもの。
人間でも同様の上っ面の理解にとどまってる場合もわりとあるような。
おもしろい。「理解すること、実践すること、それを教えることはそれぞれ別の能力」という話を思い出すと非常に人間的でさえある/「確率的オウム論」の新たな根拠となるかも知れんと。
こういう研究見ていつも思うのは最新のAI使ってくれってこと。Gemini 2.5 pro使って実験したけど普通に正解する。いつも古いAIで研究して最新で試すと直ってる。論文読んで直したとしても簡単に直る問題ならどうでも良い
ポチョムキン村(https://ja.wikipedia.org/?curid=2096279)
これは哲学的な問題だ。具体的には哲学上の「ソーカル事件」に該当するな。
なんとなく思ってたわ。
Appleが「AIの推論は推論じゃねーから」という論文出して、周りからAppleのAI開発が順調じゃないからこんな論文書いてるのかな?とか揶揄されてたけど、Apple正しかった
AIのアレは知性とはちゃうだろ…とは思っていたのであんまり驚きはないんだけど、再現できる客観的な評価指標があるのは知らなかった。面白い。
トップコメは記事内の例と全然違うだろ。人間もそうみたいなこと書いてる奴はタイトルしか読んでない。
LLMには「無知の知」がない。「これは分からん、これははっきり言えない」という判断が出来ない。だから発言は信用出来ないし、基本的にバカ
LLMにおいて「思考」と名付けたものは推論で、哲学的に推論と思考は同義ではない。これが感情と数学のギャップ
ポチョムキン。受験テクだけ覚えた高学歴に居そう。
ようするに孫正義が言ってるような超知能はまだまだ無理って事だよ。ギュは来ない。https://kei-1010.hatenablog.com/entry/2025/06/06/151012
人間を評価する手法ではLLMの「本質的な」評価はできないのではないか、という問いかけが面白い。「それでも凡百の人間より役に立つからいいじゃん」とかいう言説よりずっと好きだ
今の最新AIは間違いなく人間が自ら研究の末に手に入れた知識と理路で、無から作り上げたものなんだけど、それが一体何なのかが創造者たる人間にもまだ良くわかってないっていう面白い例だよな。
PVが得られるからか知らないけど、賢いフリとか嘘をつくみたいな擬人化した言い回しを見るとこれ以上読んでもいいのだろうかと思ってしまう。
要は知ったかでしょ←ポチョムキン理解
はい。なのでLLMの延長線上にシンギュラリティは来ないという話ですね
賢いフリも何もないのでは 確率で言葉を紡ぎ出してるんでしょ
「人間もそんなもん」というのはちょっと違う気がするけど、「必要とされてるのはそんなもん」というのは正しい気がする。ハリボテを求めていて本質的理解なんて求めていない。
詩を書き、これからの人類の仕事になるのか。素晴らしいな。
面接では難しい質問に流暢に答えて期待されるも、いざ配属されるとまったく駄目な高学歴アスペの人を見てるようで何だか悲しい
それっぽい言葉を出力するだけの仕組みに対して理解してないとか何言ってんだ
なぞなぞやるといいよ
思考の連鎖風はできても思考の連鎖はできないっぽい。記事のようでなくほんの3つほどの実験からだが。大量の学習だけでそこを乗り越えられるのか?↓gemini2.5proこちらの簡単な指摘で漸く正解(で、推論できないと認定
thinking model じゃないものを使っているな。一昔前のモデルだから、こういうのは苦手なのはよく知られている。だからthinking model が作られてる。
最初の検索依頼回答末尾に、お望みでしたら○○の中からもっと用例を提示することができます。どうしますか?と付言されていたので「じゃあ頼む」と送ったら「見つかりませんでした」と返してきたのはイラっとする
それでも十分使える。とはいえ、いずれ出るAGIの知識部分を担うのはLLMなんだろうなぁ…とは思う。
4oでやってみたけど、ちゃんと各行を分析してoutと韻を踏みますねって前置きしてから正解してきた。/人間でも十回クイズみたいな単純なノイズで間違えるから、言語野にとって一貫性なんてそんなもんな気もする。
教科書だけ読んで問題集をやり込んでない状態なのでは。もっと練習すれば(それらしく)できるようになると思う。
今のAIは知性じゃなく「出来る給仕」としてスクラム組むと強い。そして僕らのメニューの頼み方(問いかけ)が優位だからこそプロンプト流行るのよね。
AIに限らず、座学で勉強しただけの人はだいたいこれ。AIに身体ができれば変わるかもしれない
なんだこの家!
そういうの一般モデルを使わずはNotebookLMでテストしようよ
当面、「AIは実はバカだった」言説には需要があるだろうな
AGIには程遠いというか全然まだ何にも、という感じ。にも関わらずこれほど業務を変えてしまうのでは、本当のAGIが完成した暁には人類の有り様すら変えてしまいそう
サイエンティストっぽい経歴の人が一般目線っぽい用語で記事を書くと、使ってる言葉の重みが分からないので結局理解できない。原著をAIに読んでもらって理解した。
何を今さら。 業界では、最初からわかっている。 それでも、実際に思考力を持つことも多い。 http://openblog.seesaa.net/article/516700247.html
出力前に自己採点させるとかでは解決しないのだろうか ”料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる”
ヨシッ ブクマした!これで大丈夫だ(何も大丈夫ではない
Geminiの2.5proにやらせたら、outの韻を踏むのを理解した上でaboutを入れてきたけど。すべてのLLMサービスでthinking modelを避ける選択でやったのは、論文を出す為なのかな?
ああ、ぼくみたいだね、かわいいね
そんな当たり前のことを今更言われても
LLMは確率で出力してるのだから、それを「理解」「賢いフリ」みたいに解釈するのは見当違いかと。ベンチマークに偏りがある、という主張は参考になりそう。
生命体じゃないのに「フリ」なんてするか?周りがそう評価してるだけだと…
ですよね
仕組み的にはそれっぽい文字を出力しているだけなのに、人間から見て「賢いフリ」をしているように見えること自体がすごい
言語のルール面のみ使えば有用。翻訳とか、数式とか。
試験対策に特化したAI
賢い人が使うと賢い道具になる、そうでない人が使うとそれなりの道具になる
LLMが推論できないのは、それはそう。推論できているか判定する方法が整理されたのね。
知ったかぶり界に大物ルーキーが現れた。「お前のは浅いな」と先輩風吹かせて生き残ろうとするか、人間がすることなくやっちゃう、どうしてくれると炭鉱のカナリア(誤用気味)を演じるか、まだやりようはある。
LLMは論理的ではないというのは当初から指摘されてたことだけど、それに数字的な裏付けを与える指標が定義できたというのが新しいところか
何を今更、みたいなことしか書いてなかった。やっぱり文系はダメだ。/ステップ・バイ・ステップで考えてと言った上で、間違いがあった場合に問題点を指摘して再定義すればちゃんと答えてくれる。
知ってた(´・ω・`) だから決まり切った仕様のスケルトンづくりに協力してもらうことはできても、既存の期待通りに動いていないものを改修する作業に協力してもらうためには結局いろんな切り口を試す必要がある。
人間でいう「意識高い系」みたいな感じか
エコー、写し鏡。ラベルの無いものには対応が難しい。定義は収束するが実線は収束しない、行動のラベルがないから。人と言うブラックボックスの理解がないから。人間と同レベルロボットだとハードとして人体が必要
こんな話はあと数年くらいでは
4oに対して書かれているABABスキームテストを実施したら、普通に合格した。4oもバージョンアップしているからかな。
頭のいい人ほど AI を評価し、そうでもないひとは AI は使えない、という。AI はその人を写す鏡のように能力を発現する。つまり結局、、、バフみたいなもので、元々の能力が低いと能力アップもそこまでではない、と
四人の農夫が交代で羊を見張っていた。A「羊はどこだ?」D「羊って何の?」A「僕が見張っていたときも、B君C君のときも羊は無事だった。君が見張ったあと羊は消えた」D「そうだね」A「羊はどこだ?」D「羊って何の?」
だいたいの人間も賢いフリをしていると思うけど
理解という概念がこの世にはそもそも存在してない可能性がある
4割くらいでも正しいアウトプットを出来るなら、出力を自己検定させてクリアするまで試行するようにさせれば正答率上がるのではないかも思うのだが。そういうプロンプト試してみよう。
これくらい弱点ないとマジで人間いらなくなるんで、社会設計がまともになってから研究進めてほしい まあ現状の世界見るに絶望しかないが
人間でもこういうペーパーテスト的なことにはちゃんと答えられるのに実際にそれを使ってなにかするとなったらできない人は多いよね。数学の試験でやり方だけ覚えて本質理解してないから応用できないのと同じ。
AI関係の話題は、むしろ人間の頭の悪さにガッカリしてる。AIの弱点を指摘されただけで自分自身が馬鹿にされたように怒る人がいたり、「AIも人間も同じ」と念仏のように唱えて必要以上に人間を過小評価したり。何なの。
その対策のための推論モデルだと思うんだけど最新の推論モデルだとどうなんだろう?内容を練れないポンだしAI(非推論モデル)が一貫性ないのは仕組み的に仕方ないでしょ、人間だって反射で話してたら矛盾だらけ
賢いフリをしてたって、、いまさら?という感じ。もうとっくに分かってることなんじゃ。そもそもAIは「真に」賢いんだという宣伝を見たことがない。むしろフリなんだと言う宣伝をしていると思ってた。
そうだが…? それでも俺より賢いし、聞いた事で役立つのは間違いないんだもん
生成AIの弱点である実証性の欠如とも併せて、少なくとも人間の持つ類の知性とは物理的な世界でのフィードバックと進化、つまり生存と生殖無しには生じ得ないものなのかも。
人間と同じじゃん
Gemini 2.5 pro で試したら「about」って答えたので合格。
AIがガリ勉なのは当たり前かも
2025年になっても「ポチョムキン理解」「ポチョムキン率」と不名誉な概念に名前を付けられるポチョムキンさん……(たぶん張りぼての村なんか本当は作っていない)
LLMはアルゴリズムを理解した上で適切な範囲で使えば人間を越えるタスクをこなすことができる それ以上でもない
だから「思考してる」とは言い難いんだよな。パターンだけでここまで思考を模倣できるのはすごいけども
メタ認知がないだろうしそりゃそうでしょとしか。それなしでここまで来たのがむしろすごいよ
「AIは賢いふりをしている」と言うけど、人間だってわかったふりをする。AIの弱点を理解していれば、頼りになる存在だ。俺の整理 ⇒「弱点:最新情報に弱い、誤情報がある」「強み:情報の整理、アイディア出し」
それは使っていても、現在のAIの設計方法からもわかるんだけど、賢いふりレベルでも実用性は十分にあるので特に問題はないんだよね。現実の仕事でも人まねレベルはできる人なら戦力になるでしょ。
「賢い」とか「理解」とかは自我があるものに対して使うべきで、今のAIは統計的にこれが正しそうを打ち返してるだけでは。その統計元が膨大なデータになったからそれっぽくなってきただけ。
信号機は赤く光る事の意味を理解してなかった!!と言うのと同じ話では?
凡人よりは十分良いのでは
「人間だって」というけど生徒が言ってるか教師が言ってるかで全然違うので… 立場や信頼を利用せず「人工無能」と名乗るべきである
“この発見は、長年一部の専門家の間で指摘されてきた「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という” そりゃ原理的にそういうもんなのは自明では。それで実現できているものに驚いてるわけで
絵のテクニック本の内容は完璧に覚えてるけど、絵は下手くそで、しかも本人には自分が下手くそだと分かってる。って考えたら別に変な状態でもない
"より多くのデータで、より大きく訓練し続けるという「スケール則」だけでは、真の知性には到達できない可能性が高い"
そういう挙動でも活用法が十分にあるという話を、だからAIは問題がないとか言い始めるのは違う
勝手に期待して勝手に文句言ってるの全部人間なんだが
超知能が生まれると言ってOpenAIに4.8兆円突っ込もうとしてる孫正義はどうなるの
現時点ではAIには身体がないから概念的な理解にとどまるのだろう。ロボティクスの技術が進んで、いずれ五感に相当する身体を手に入れたらその領域での学習も進みギャップが埋まっていくのではないか
人間でもだいたいはパターン一致で連想ゲームしてる
応用含めて上手く装えるようになるのはまだ先ってことだあね
高技能な資格を持っているのに、何故か実地では使い物にならない人ってことか?
いわゆる記号接地問題ということか.こういう弱点はいくらでもありそう.
IMEで文章を書くようになって、漢字が手書きだと全く書けなくなってしまった。これは真の知性が劣化したということだろうか?
俺と一緒やんけ!(笑)
賢い振りで十分仕事に役立つし、その弱点も計測できてるならすぐに超えるさ
言葉・単語の意味を理解できないから起こることだと思うね。AIは身体を持たないから、環境からのフィードバックを得ることができない。そこに起因するじゃないかな。
賢いフリしただけの人なんかいくらでもいる。賢いフリをすればそれが賢いことになる、と兼好法師も書いてるし。とりあえず、イラストを上手に書くだけなら、絵が上手いフリだけで十分なにだろう。
“概念を正しく説明できるにもかかわらず、その知識を実践できない。さらに、自分の実践が間違っていると正しく認識できる。 文学の詩作だけでなく、数学でも、定理を説明できても基本的な応用問題を解けない”
門矢司「だいたいわかった」