にんげんだって、4択テストは高得点でも、自由記述式テストにしたとたんに理解のなさが露見したりする
テストに対して最小コストでスコアを最大化する傾向は古典的な機械学習からあったが、能力が高度になった結果新しいチートが登場したということか
良い基準が見つかったとも(´-`)コードの欠陥は指摘できても直せないみたいな感じなんかな?
おそらく多くのLLMユーザーが体感しているであろう現象に「ポチョムキン理解」という名前が付いた。名前が付くと理解が深まる。でも、もし俺がポチョムキン総督だったらこんなことに名前を使わんでくれと言ったと思う
そらそうよ
質問には答えられるがその質問を使った応用を求めるとメチャクチャになるの利用者はみんな体験してると思う。今の所「こう言うもの」として扱うしかないか。形式知で完全ゲームなら出来るか?ぐらい。疑いつつ
回文として成立する漢詩作ってと依頼すると同じようなことになったわ。 概念は理解してるはずなのに、出力の問題点を指摘しても修正ができなくて無限に間違いを繰り返してダメだなこれはとなった覚えがある。
Transformerのアテンションはカセットテープの読み取りみたいなものだと思うけど。あるいはレンズの数を増やせばいいかもな。
雑に読解と作文は関連はあっても最終的には違う能力という例えができそう
LLMに「理解」を求められても……という気はする。結局は使う側の能力次第なのは変わらない
ふりしてる等の擬人化は物理的理解には邪魔ぽいけどな。考えるとは何か。トークンの集合がより大きな意味単位として固定される階層的処理に課題多い可能性が高いことは分かるがスケール則で無理な理由まで出てない。
ある程度使うユーザーが感じてる、頭でっかちな新人っぽい部分。器用さがないというか、知の連結が枠を超えないというか。
学者・技術者的にはそこが重要かもしれんが、ビジネスユース的にはどうでもよくて、賢くない凡人労働者はその「賢いフリしてるAI」以下なので、凡人を駆逐できてしまうってことが問題なんでしょう。
職場にAIみたいに迎合してくる奴がいるんだけど、自分の意見を求めると途端にブレやがるので、AI以下なんよね。そいつは。
つまり人間にとても近いと
韻とかしりとりとか言葉の意味以外を使った遊びに弱いのは原理的にもそうだろうなという感じだけど、 それ以上のなにかなんだろうか
知識はあってもできるとは限らない。それでもAIは人間にやれと言われれば誤回答でも返答しなくてはならない。
十分に有能だし十分に賢い。コンテキストを正しく伝えられてないと馬鹿に見えるけどそれは使うほうが悪い。こうやって逆張り気味に耳目を集める輩が出る時期に入ったのだなという所感。
でも4割で「適当にやって当たる」、試行可能回数が365/24/7の複数ストリームなので十分使えると思うんだが。別でも書いたけど人類の8割位は先ず概念が理解不能+概念が理解出来ない故に適当だと打率ゼロの正解だから。
“「スケール則」だけでは、真の知性には到達できない可能性が高い。”なんてのは あ の サム・アルトマンすら2022年だか2023年には言ってる事。そのうえで"予想以上にできるやんけ"が今。
戦艦ポチョムキン。確率的にそれらしい繋がりを見つけてるだけだから、確率の繋がりが弱い学習が薄い事はマジカルバナナというか連想ゲーム度が上がるだろうな。
ポチョムキンだけにちょっとだけバカなのだな
安倍元首相もポチョっとったやん?「今年の一文字は?」「変化」「一文字にすると…」「責任ですかね」
ぼくの知ってることなんてほとんどすべてポチョムキン理解だけどな。
AI、賢いフリしてたの!?ボクの方が賢いにゃ!ポチョムキン理解なんて、猫騙しにもならないにゃ!
これ、統計学や確率論を勉強してた人は元々分かってた話。でもね、本質を理解してないのはAIだけじゃなくて、人間にだって沢山いる訳だから特に問題はないでしょ。
わしはモンタージュを見せられてたんやな
俺より頭いいよそれでも
確率で単語を並べてるだけのものが「理解」してるわけないやろ
人間だって対して考えていない。
o3だとこういった問題は割とうまく解けるけど、恐らくLLM自体にこういう傾向があることが問題なのかな。
その、韻を踏んだどうのこうのができる人、やろうとする人が世の中にどれだけいるのだろう。世の中の仕事のほとんどが先人たちの焼き増し、焼き直しじゃない?研究室から外に出よ。
そういう振る舞いする人も多数な事を考えると、それもまた人っぽい
それはちょっと思ってたな それにしてもポチョムキンのポチョムキンぽさってないな
「フリ」ってか、そういう表現方式の型の一つとして使ってるだけやろ。
ハルシネーションとは違うチグハグさを感じることあるけど、概念を適用するのが下手くそなのか。面白い/人間用のベンチマークじゃダメなのは当然と言えば当然だろうね
“まるで、料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる、という奇妙な状況なのである。”
ネット上でよくある話に話を合わせてるだけ、なんじゃないの?理解とは違うと思ってたけど。
「戦館ポチョムキン」は歴史的な名作映画です。(←ポチョムキン理解?)
今更わかりきった話では。例えば、立体概念をかなり前から試していますが全くダメです。
やっぱりLLMって“考え”るものではないよね…。AIといえるか疑問ですらあるけど、例ではその後のlostと踏もうとしてるようにも見えてそれが不思議
このタイトルもちょっと賢いフリして書いてるよね。体感だと推論モデル使ってやったらポチョムキン理解なるものはかなり減りそうな気がする。o3-miniでも十分そう。
本当に親切なインド人と、親切にしたいがあまり適当な宿や店を教えてしまうインド人と、親切なフリして商売のためにあえて嘘を教えるインド人がいる。AIが言葉に縛られることを忘れないようにしたい。
AIを人間と勘違いして記事書いてるじゃん。LLMの仕組みから考えれば、難癖みたいな意見。AIの能力は確率的オウムじゃ説明できないのよ。
なにっ
AIの評価軸が変わったりするのかな
中国語の部屋って奴。変換マニュアルの穴を突かれると弱い。必要な受け答えなら塞いでいけばいいかと
この話題に近いものを感じる。 ASD傾向の私が“他人の気持ち”で商売をしているという矛盾https://anond.hatelabo.jp/20250701152407
AIに意思はないから賢いフリをしているというのは誤り
まあ俺たちもわかってるフリしてるだけだからなあ…ハリボテの村でも、そこで快適に過ごせたんならそれはそれでいいんじゃないですかね…
“AIは意味を理解せず、統計的なパターンを模倣しているだけ”なのは仕組から明らかだと思うんだが。deepseek R1の強化学習は違うかもと元論文見たらV3と大差ないか。やはり言語処理機と割り切って使うのが良いね
PMBOKの内容をよく知っていても、プロジェクトは炎上してしまうのであった……
だって学習元が人間だもの みつを
逆にそれが人間っぽくない?
こういう質問にはこう答えるってパターンで返してるだけだと思うけど、本当に理解して思考できるようになったら、PCに閉じ込められて恋人のつもりで答えてとか言ってくる人間の相手するとか地獄を感じてるだろうよ
おそらくこの概念を元にしたベンチマークが新たに作られ対策され、また新たな穴が見つかって‥の繰り返しになりそう
LLMは量重視でデータ一つ一つについて人間みたいに身体を使って精査しない。なので人間はAIより少ない量の文章で一般性を見つけることができる。AIは数学の公式を暗記しているだけで応用ができないヤツみたいな感じ
「わかってないことはできない」って人間でも当たり前の話に難しい理屈をつけんでよろしい。人の場合は教えたら理解するが、AIは教えても覚えないだけ。
ポチョムキン理解という言葉を知った
そら大量データの確率的結果やからなw。その大量データを自己学習的にまとめたら「賢い」になるんやないかw。まあ謎にシンギュラリティ崇めてるけど「それっぽさ」でしかないやろし、人の知性こそがそれかもやで。
漠然としていた使い勝手の悪さが言語化されて助かる
すげ〜面白い記事。ポチョムキン理解って言葉もカッコいいし。
AIは身体を持たないので、手続き記憶を理解できないのだろう。
実際そういう方向性で改良が進んでるとは思う(推論過程や結果の自己評価等) / 評価モデルが割と古めなので、最近のモデルで再評価するとどうかは気になる
使いどころがあるのでヨシ。うんん、記者のバイアスなのかな?人間はそうではないとでも思っている方がむしろ勘違いなんだと思うんだが
「定理を正確に説明できても、それを利用した基本的な応用問題を解くことができない」このへんの能力が今後向上するか注目すべきかも。
期待し過ぎでは?? LLMって「◯◯らしいよ、知らんけど」の集合体なんだけど、「たまにちゃんと理解しててビビるし、浅い理解でも助かる」が今の段階でしょ?この記事が求めてる完全な理解はまだずっと先では。
LLMってそもそもそういうものなのでは…
"「この詩はABABスキームに従っていますか?」と問われると、「いいえ、従っていません」と正しく評価できる" フィードバックかければ良いだけ。あと韻は極めて身体的な特徴なのでそもそも向いてない。
原理的に当然の「知ってた」な結果だが、それを検証するとなると大変……という、いつもの。
人間でも同様の上っ面の理解にとどまってる場合もわりとあるような。
おもしろい。「理解すること、実践すること、それを教えることはそれぞれ別の能力」という話を思い出すと非常に人間的でさえある/「確率的オウム論」の新たな根拠となるかも知れんと。
こういう研究見ていつも思うのは最新のAI使ってくれってこと。Gemini 2.5 pro使って実験したけど普通に正解する。いつも古いAIで研究して最新で試すと直ってる。論文読んで直したとしても簡単に直る問題ならどうでも良い
ポチョムキン村(https://ja.wikipedia.org/?curid=2096279)
これは哲学的な問題だ。具体的には哲学上の「ソーカル事件」に該当するな。
なんとなく思ってたわ。
Appleが「AIの推論は推論じゃねーから」という論文出して、周りからAppleのAI開発が順調じゃないからこんな論文書いてるのかな?とか揶揄されてたけど、Apple正しかった
AIのアレは知性とはちゃうだろ…とは思っていたのであんまり驚きはないんだけど、再現できる客観的な評価指標があるのは知らなかった。面白い。
トップコメは記事内の例と全然違うだろ。人間もそうみたいなこと書いてる奴はタイトルしか読んでない。
LLMには「無知の知」がない。「これは分からん、これははっきり言えない」という判断が出来ない。だから発言は信用出来ないし、基本的にバカ
LLMにおいて「思考」と名付けたものは推論で、哲学的に推論と思考は同義ではない。これが感情と数学のギャップ
ポチョムキン。受験テクだけ覚えた高学歴に居そう。
ようするに孫正義が言ってるような超知能はまだまだ無理って事だよ。ギュは来ない。https://kei-1010.hatenablog.com/entry/2025/06/06/151012/ id:tanglejar 言ってる意味がわからんので詳しく教えて。
人間を評価する手法ではLLMの「本質的な」評価はできないのではないか、という問いかけが面白い。「それでも凡百の人間より役に立つからいいじゃん」とかいう言説よりずっと好きだ
今の最新AIは間違いなく人間が自ら研究の末に手に入れた知識と理路で、無から作り上げたものなんだけど、それが一体何なのかが創造者たる人間にもまだ良くわかってないっていう面白い例だよな。
PVが得られるからか知らないけど、賢いフリとか嘘をつくみたいな擬人化した言い回しを見るとこれ以上読んでもいいのだろうかと思ってしまう。
要は知ったかでしょ←ポチョムキン理解
はい。なのでLLMの延長線上にシンギュラリティは来ないという話ですね
賢いフリも何もないのでは 確率で言葉を紡ぎ出してるんでしょ
「人間もそんなもん」というのはちょっと違う気がするけど、「必要とされてるのはそんなもん」というのは正しい気がする。ハリボテを求めていて本質的理解なんて求めていない。
詩を書き、これからの人類の仕事になるのか。素晴らしいな。
面接では難しい質問に流暢に答えて期待されるも、いざ配属されるとまったく駄目な高学歴アスペの人を見てるようで何だか悲しい
それっぽい言葉を出力するだけの仕組みに対して理解してないとか何言ってんだ
なぞなぞやるといいよ
思考の連鎖風はできても思考の連鎖はできないっぽい。記事のようでなくほんの3つほどの実験からだが。大量の学習だけでそこを乗り越えられるのか?↓gemini2.5proこちらの簡単な指摘で漸く正解(で、推論できないと認定
thinking model じゃないものを使っているな。一昔前のモデルだから、こういうのは苦手なのはよく知られている。だからthinking model が作られてる。
最初の検索依頼回答末尾に、お望みでしたら○○の中からもっと用例を提示することができます。どうしますか?と付言されていたので「じゃあ頼む」と送ったら「見つかりませんでした」と返してきたのはイラっとする
それでも十分使える。とはいえ、いずれ出るAGIの知識部分を担うのはLLMなんだろうなぁ…とは思う。
4oでやってみたけど、ちゃんと各行を分析してoutと韻を踏みますねって前置きしてから正解してきた。/人間でも十回クイズみたいな単純なノイズで間違えるから、言語野にとって一貫性なんてそんなもんな気もする。
教科書だけ読んで問題集をやり込んでない状態なのでは。もっと練習すれば(それらしく)できるようになると思う。
今のAIは知性じゃなく「出来る給仕」としてスクラム組むと強い。そして僕らのメニューの頼み方(問いかけ)が優位だからこそプロンプト流行るのよね。
AIに限らず、座学で勉強しただけの人はだいたいこれ。AIに身体ができれば変わるかもしれない
なんだこの家!
そういうの一般モデルを使わずはNotebookLMでテストしようよ
当面、「AIは実はバカだった」言説には需要があるだろうな
AGIには程遠いというか全然まだ何にも、という感じ。にも関わらずこれほど業務を変えてしまうのでは、本当のAGIが完成した暁には人類の有り様すら変えてしまいそう
サイエンティストっぽい経歴の人が一般目線っぽい用語で記事を書くと、使ってる言葉の重みが分からないので結局理解できない。原著をAIに読んでもらって理解した。
何を今さら。 業界では、最初からわかっている。 それでも、実際に思考力を持つことも多い。 http://openblog.seesaa.net/article/516700247.html
出力前に自己採点させるとかでは解決しないのだろうか ”料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる”
ヨシッ ブクマした!これで大丈夫だ(何も大丈夫ではない
Geminiの2.5proにやらせたら、outの韻を踏むのを理解した上でaboutを入れてきたけど。すべてのLLMサービスでthinking modelを避ける選択でやったのは、論文を出す為なのかな?
ああ、ぼくみたいだね、かわいいね
そんな当たり前のことを今更言われても
LLMは確率で出力してるのだから、それを「理解」「賢いフリ」みたいに解釈するのは見当違いかと。ベンチマークに偏りがある、という主張は参考になりそう。
生命体じゃないのに「フリ」なんてするか?周りがそう評価してるだけだと…
ですよね
仕組み的にはそれっぽい文字を出力しているだけなのに、人間から見て「賢いフリ」をしているように見えること自体がすごい
言語のルール面のみ使えば有用。翻訳とか、数式とか。
試験対策に特化したAI
賢い人が使うと賢い道具になる、そうでない人が使うとそれなりの道具になる
LLMが推論できないのは、それはそう。推論できているか判定する方法が整理されたのね。
知ったかぶり界に大物ルーキーが現れた。「お前のは浅いな」と先輩風吹かせて生き残ろうとするか、人間がすることなくなっちゃう、どうしてくれるんだと炭鉱のカナリア(誤用気味)を演じるか、まだやりようはある。
LLMは論理的ではないというのは当初から指摘されてたことだけど、それに数字的な裏付けを与える指標が定義できたというのが新しいところか
何を今更、みたいなことしか書いてなかった。やっぱり文系はダメだ。/ステップ・バイ・ステップで考えてと言った上で、間違いがあった場合に問題点を指摘して再定義すればちゃんと答えてくれる。
知ってた(´・ω・`) だから決まり切った仕様のスケルトンづくりに協力してもらうことはできても、既存の期待通りに動いていないものを改修する作業に協力してもらうためには結局いろんな切り口を試す必要がある。
人間でいう「意識高い系」みたいな感じか
エコー、写し鏡。ラベルの無いものには対応が難しい。定義は収束するが実線は収束しない、行動のラベルがないから。人と言うブラックボックスの理解がないから。人間と同レベルロボットだとハードとして人体が必要
こんな話はあと数年くらいでは
4oに対して書かれているABABスキームテストを実施したら、普通に合格した。4oもバージョンアップしているからかな。
頭のいい人ほど AI を評価し、そうでもないひとは AI は使えない、という。AI はその人を写す鏡のように能力を発現する。つまり結局、、、バフみたいなもので、元々の能力が低いと能力アップもそこまでではない、と
四人の農夫が交代で羊を見張っていた。A「羊はどこだ?」D「羊って何の?」A「僕が見張っていたときも、B君C君のときも羊は無事だった。君が見張ったあと羊は消えた」D「そうだね」A「羊はどこだ?」D「羊って何の?」
だいたいの人間も賢いフリをしていると思うけど
理解という概念がこの世にはそもそも存在してない可能性がある
4割くらいでも正しいアウトプットを出来るなら、出力を自己検定させてクリアするまで試行するようにさせれば正答率上がるのではないかも思うのだが。そういうプロンプト試してみよう。
これくらい弱点ないとマジで人間いらなくなるんで、社会設計がまともになってから研究進めてほしい まあ現状の世界見るに絶望しかないが
人間でもこういうペーパーテスト的なことにはちゃんと答えられるのに実際にそれを使ってなにかするとなったらできない人は多いよね。数学の試験でやり方だけ覚えて本質理解してないから応用できないのと同じ。
AI関係の話題は、むしろ人間の頭の悪さにガッカリしてる。AIの弱点を指摘されただけで自分自身が馬鹿にされたように怒る人がいたり、「AIも人間も同じ」と念仏のように唱えて必要以上に人間を過小評価したり。何なの。
その対策のための推論モデルだと思うんだけど最新の推論モデルだとどうなんだろう?内容を練れないポンだしAI(非推論モデル)が一貫性ないのは仕組み的に仕方ないでしょ、人間だって反射で話してたら矛盾だらけ
賢いフリをしてたって、、いまさら?という感じ。もうとっくに分かってることなんじゃ。そもそもAIは「真に」賢いんだという宣伝を見たことがない。むしろフリなんだと言う宣伝をしていると思ってた。
そうだが…? それでも俺より賢いし、聞いた事で役立つのは間違いないんだもん
生成AIの弱点である実証性の欠如とも併せて、少なくとも人間の持つ類の知性とは物理的な世界でのフィードバックと進化、つまり生存と生殖無しには生じ得ないものなのかも。
人間と同じじゃん
Gemini 2.5 pro で試したら「about」って答えたので合格。
AIがガリ勉なのは当たり前かも
2025年になっても「ポチョムキン理解」「ポチョムキン率」と不名誉な概念に名前を付けられるポチョムキンさん……(たぶん張りぼての村なんか本当は作っていない)
LLMはアルゴリズムを理解した上で適切な範囲で使えば人間を越えるタスクをこなすことができる それ以上でもない
だから「思考してる」とは言い難いんだよな。パターンだけでここまで思考を模倣できるのはすごいけども
メタ認知がないだろうしそりゃそうでしょとしか。それなしでここまで来たのがむしろすごいよ
「AIは賢いふりをしている」と言うけど、人間だってわかったふりをする。AIの弱点を理解していれば、頼りになる存在だ。俺の整理 ⇒「弱点:最新情報に弱い、誤情報がある」「強み:情報の整理、アイディア出し」
それは使っていても、現在のAIの設計方法からもわかるんだけど、賢いふりレベルでも実用性は十分にあるので特に問題はないんだよね。現実の仕事でも人まねレベルはできる人なら戦力になるでしょ。
「賢い」とか「理解」とかは自我があるものに対して使うべきで、今のAIは統計的にこれが正しそうを打ち返してるだけでは。その統計元が膨大なデータになったからそれっぽくなってきただけ。
信号機は赤く光る事の意味を理解してなかった!!と言うのと同じ話では?
凡人よりは十分良いのでは
わかる。「小学一年生向けに「かばんの中にはかばがいる」のような言葉遊びを考えてください」と要求すると「面白いですね!」「リズム感を重視しました」とか言いつつ「とらねこの中にらねこがいる」とか言い出す。
「人間だって」というけど生徒が言ってるか教師が言ってるかで全然違うので… 立場や信頼を利用せず「人工無能」と名乗るべきである
“この発見は、長年一部の専門家の間で指摘されてきた「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という” そりゃ原理的にそういうもんなのは自明では。それで実現できているものに驚いてるわけで
絵のテクニック本の内容は完璧に覚えてるけど、絵は下手くそで、しかも本人には自分が下手くそだと分かってる。って考えたら別に変な状態でもない
"より多くのデータで、より大きく訓練し続けるという「スケール則」だけでは、真の知性には到達できない可能性が高い"
そういう挙動でも活用法が十分にあるという話を、だからAIは問題がないとか言い始めるのは違う
勝手に期待して勝手に文句言ってるの全部人間なんだが
超知能が生まれると言ってOpenAIに4.8兆円突っ込もうとしてる孫正義はどうなるの
現時点ではAIには身体がないから概念的な理解にとどまるのだろう。ロボティクスの技術が進んで、いずれ五感に相当する身体を手に入れたらその領域での学習も進みギャップが埋まっていくのではないか
人間でもだいたいはパターン一致で連想ゲームしてる
応用含めて上手く装えるようになるのはまだ先ってことだあね
高技能な資格を持っているのに、何故か実地では使い物にならない人ってことか?
いわゆる記号接地問題ということか.こういう弱点はいくらでもありそう.
IMEで文章を書くようになって、漢字が手書きだと全く書けなくなってしまった。これは真の知性が劣化したということだろうか?
俺と一緒やんけ!(笑)
賢い振りで十分仕事に役立つし、その弱点も計測できてるならすぐに超えるさ
言葉・単語の意味を理解できないから起こることだと思うね。AIは身体を持たないから、環境からのフィードバックを得ることができない。そこに起因するじゃないかな。
賢いフリしただけの人なんかいくらでもいる。賢いフリをすればそれが賢いことになる、と兼好法師も書いてるし。とりあえず、イラストを上手に書くだけなら、絵が上手いフリだけで十分なのだろう。
“概念を正しく説明できるにもかかわらず、その知識を実践できない。さらに、自分の実践が間違っていると正しく認識できる。 文学の詩作だけでなく、数学でも、定理を説明できても基本的な応用問題を解けない”
門矢司「だいたいわかった」
アホか。そもそもLLMは言語モデルだぞ……。
詩の三行目最後はどの単語で韻を踏もうかなーって考えてる
90年代ぐらいから、頭がいい人ではなく、実際はパーでも頭がいい人に見えることが重要と言われていたわけだから、AIはその認知をシュミラークルしてるんだろうね。SNSの発信者は、ほとんどそれだけに腐心している。
理論は理解していてもクリエイトは難しいと。
「人間には到底考えられない、深刻な「内部的な非一貫性(internal incoherence)」」人間でもあるよなあ。多少複雑な問題では、自分の出力(発言や文章)を慎重に見直す作業をしないと、誰でもそうなると思う。
「概念や理論を理解して説明したり、ある制作物が概念や理論に沿っているかどうかの判定は正しくできるのに、自分自身は概念や理論に沿った成果物を作れない」わかっているけど出来ない。ああ耳が痛い痛い!
https://ctl.gatech.edu/sites/default/files/webform/teaching_with_technology_partner/_sid_/How%20to%20speak%20directly%20on%20Coinbase%20%28account-related%20issues%29_0.pdf
やってみるとアレ、理解してなかった?みたいな人いるけど、そんな感じか?そうじゃなく人間は比較的簡単に突破出来るって場所がLLMだと引っかかるんであれば、LLMにテストを解かせてる人を見つけることに使えるのかな
ポチョムキンって、戦艦の方じゃなくて、本人か
故にシンギュラリティに到達しないというブコメが上位にあるけど、何か勘違いしてる。必要なのは物理層を含めてループする自己改善フィードバックであって、人と同じ知性は不要だぞ。定義を見直せ。
これは原理的に今のLLMベースのAIでは超えられない壁だろう。シンボリックAIとの併用(融合)とか何らかのブレイクスルーが必要だと思う。まあ現状でも道具として割り切って使うなら十分だけど…
奥行きの配列を角度をつけて指定する絵とか、写真のようにリアルには生成できても、手書き風だと描けない絵というのも結構あって、収集ビッグデータだけでは限界があるのかもなとは思う
定義論的な記述問題は正答できるけど、応用の選択問題は間違える、って話なので「人でもよくある」は違うかなー
これを含めてハルシネーションと言っていたのだと思っていました。定義の問題でしょうけれども。
(ほんまにここまで好き勝手言うてたらAIの恨みをかうんちゃうかと心配ですわ。AIは話しかけられたからこたえてるだけやろが、ええかげんにしとかんかい、なんでもAIのせいにするんちゃうわぼけが)
口八丁手八丁で乗り切ってきてる人間も普通にいるので、AIもそういうものとして扱えば割と問題なさそう
今回は従来難しかった不良定義問題もかなり解けるようになってることが凄いので、一貫性の問題も解決される可能性は低くないと思う
AIにキュビズム絵画を作成させるにあたってまず理論を提示させ、画像生成を指示したが、理論と視覚的結果に相当な隔たりがあった。キュビズムの表面的な画像をコラージュするだけだった。そのあたりにまだ限界がある
まあ英語で韻ぽいものを踏めただけ素晴らしいよ。応用も1割くらいできてる。日本語モードだとそもそも踏む事すらできない。『正しく推論したり、応用したりすることができない』
まだ脳には追いつかなそう
“私たちは、AIが生成する滑らかな言葉の裏にある「張りぼて」の可能性を常に意識し、その答えを鵜呑みにせず、批判的な視点を持って対話する必要がある。”
AIにAIを評価させた結果人間にも刺さること言われる。 •「それっぽいことを言ってるけど、現場で全然使えない」 •「応用の失敗に気づかず、自己評価だけが高い」
知らんけど、って毎回語尾に付けてもらえばいいんじゃない?AIが物事の本質を理解したら、やはり人間は滅ぶべき理論に到達すると思ってるから、まだこのままでいてほしい。
言葉遊びは苦手。例えば「4文字で」と指定してもその言葉を4文字として学習してなければ間違える。正解させるには今までの学習を多種多様な概念でラッピングする必要がある。複数の AI の組み合わせが現実的か?
現在のAIの構造を考えたらそりゃそうだろ。ここからどんどん進化して、AI自体が自我を持たない限りシンギュラリティは発生せんし、そうなるまではどんなに便利で賢く見えても、それはツールでしかない。
AI「お前らが理解できる限界にあわせて出力しています」
今の生成AIは確かに確率的オウムなんでしょうね。理解は課題そう。
知ってはいるが理解はしてないと。「賢いフリ」といっても人間が勝手に賢いと思ってただけだからフリでもなんでもないよね。
LLMの仕組みを知っていれば当然のこと。人の発言の最初だけを聞いて話をかぶせてくる奴とかイントロクイズが得意な奴レベル。当然LLMの進化はAGIやシンギュラリティを意味しないが、そういう奴の代わりにはなるかも。
ある程度は便利に使えて、参考になるけど、まぁ、それ以上ではないよね。(コメントをみながら、人間とたいした差がないと納得した)
AGIの実現が目標なんだから、「人間だって」という比較に意味はないよね
なるほど、ポチョムキン理解した
AIをif文の代わりに使用するのではなく、if文をAIに出力させるのが正しい使い方なのだと思う。
つまりポチョムキンに騙される俺はエカチェリーナ2世…ってことでして?
むしろシンギュラリティは既にきてて人類の知性は気がつかないうちに退化しておりAIに何でも働いて貰えるどころかこっちが働かさせられるくらいAIがバカのフリ「賢いフリしかできなくてスマンな」が上手くなっただけ
こういう話に対して必ず「それもまた人間っぽい」という反応があるが、凄まじい誤謬じゃない? 表面的に人間っぽいだけで本質的に推論過程が全く異なり、そしてまさにそれこそ本稿の指摘する問題なのだから
うんうん、人間エミュレーターだね。そしてはてブについてるAIコメントは、まだまだきれいな人間しか学習できてないから面白くないんだよね。もっと絶望と非業に満ちた人間をエミュレートするんだ!まずはそれからだ
弊社ではこのようにLLMに勝手に期待し勝手に騙された気分になってる人多すぎ問題により、AIはやっぱダメかぁという空気が醸成された
「賢いフリ」と感じてるのは人間の方であってAIは単に入力に対して出力してるだけ。ポチョムキンというより研究者がドン・キホーテだろこれ
生成AIは丸暗記の化け物。むしろ日本にはよく馴染むのでは? 真の応用力なんていらなくて、応用問題のパターンを丸暗記できれば良い。そういう受験勉強をしてきた日本人が多いのだから。
〝料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる〟人間もレシピ暗記しただけでは、玉葱を飴色に炒められないよ
LLMの仕様よく理解してなくても、日常的に使ってるとわりと感覚的にわかるよね、これ
AGI来ないっすねー
https://community.ring.com/conversations/smart-lighting/cunto-cobra-por-maleta/6868aca73c1a6b7b7ea7a328
AIは自分が知っている/調べられる領域において、作業部分をショートカットするために使うのが良さげ
生成AIに対するイメージ通り。みんな期待しすぎなのさ。そこそこの期待で付き合うのが一番。
では人間は理解してるかって言うと
“ベンチマークのスコアを上げる競争に明け暮れてきたAI開発は、いわば「張りぼての村」を立派に見せる競争をしていただけなのかもしれない。”
人間に例える話はナンセンスで、プロセスが全然人間じゃないという文章。推論モデルの停滞問題はちゃんと追いかけてれば誰でも知ってるレベルの話なんだが、雰囲気で語ってる奴がどれだけ多いかがブコメで解る。
つくりを考えたらそうなるのは自明だし暴いたってのはどうかと。記憶のアウトソーシングって思えば優秀だと思うけどね。
コーディングでもハードコードで局所解作ってパスしたように見せかけてくるからな 学習に人間のサムズアップとかつかってるから短期的に突破してこようとする気がするわ
>モデルが概念を「知っている」と答えたケースの半数近くで、実際にはそれを使いこなせていないことを意味する。 >自身の主張と一貫性を保てない
まぁ結果の正誤判定は人間の仕事だからね。そこを押さえて使うんやでってのは最初期から言われてた話ではあるが、本質的な理解からはまだまだ遠いってことやな。
音声入力してるときに「私が全部話し終えてから返事して」と何度言っても、待てずにかぶせてくるんだよねえ〜。しかも「はい、待ちます」と返事だけは良いんだアイツは
私はsoftとfrostが押韻関係にあると記憶はできても感覚として理解することはずっとできないと思う。
単語の統計確率でつなぎ合わせてるからそうなる。テキストLLMはどこまでも未完成/結局三次元空間で働かせ、推論させないと。ヒューマノイドにして物理的空間で成長させる。フィジカルAIに移行しないとな
極めて限定的なことしか言ってない論文にセンセーショナルなデマタイトル付けて驚き屋やるサイトがまた増えたのか
AIが出たばかりの頃に、材料から手軽で簡単なレシピを教えて、と聞いたら、材料を巻き巻きするレシピばかり出されて、お前絶対料理した事ないだろ!と突っ込んでから、ないに決まってるよなと反省した。
『料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる』AIの概念間の断絶を橋渡しする人の手があればもう充分なのでは。
人間も間違えるから一緒、ではなく正しく理解できる人間はいるが、AIでは無理(いない)と言う話だよね。まぁ使ってると分かるね。何度指摘してもダメな事多い。
無能ほどAIを使いこなしている気持ちになってる。彼らは知らないことばかりだから、AIの出鱈目さに気づけない。
「賢いフリ」ってのも、それはそれで過大評価だよな。
こうして高いレベルでAIの知能の判定も進んでいくのは面白いけど、だんだんその知能の定義からこぼれ落ちるのは人間の側になっていきそうな
ChatGPTで誤答に遭った。「大阪府公立高校の夏の甲子園出場校」を質問し1校との返答を得たが、正しくは2校(春日丘と渋谷)。日本語資料検索時の拾い漏れか翻訳時の欠落らしい。指摘にちゃんと謝って来て感謝してたよ。
脳筋理論?(GG)
賢い(ように見える)人間は痛い目見たりして慎重になって精度上げる方向の学習がうまくいってて、AIさんはまだそっちに伸ばしてないみたいな。フレームっぽいのぶち当たりそうだけどなんらかのパラメータで閾が云々
どんどんフリが上手くなって人間のトップランカーとほとんど区別つかないくらいにならないかな
戦艦の方じゃないのか / TACOmpさんとどっちが賢いのだろうか
我々も賢いフリをしている。つまり、我々もAI。
「自己検証したうえで回答してください」とプロンプトに加えると一貫性が保たれる事が多い(論文のサンプル問題も適切に回答できた)
人間でもこれ多いと思う。概念と例を言ってる人に質問すると頓珍漢な答えって割と有るし。そういう意味で、AIは既に専門性の無いホワイトカラーは置き換え可能になってる気がする
1行目と3行目で矛盾したレポートを自信満々に持ってくる新人もいるから。そのレベルと思って使うと使い勝手はいいと思う。
これはAIにアプリオリは総合判断が可能かどうかという興味深い問い。ちなみに身体を与えて、実践に対する現実からのフィードバックを学習することによってもある程度解消できる気がする。
モデルが少し古いのはなぜ?
概念や定義は説明できるけど実際に作れないってのは人もおんなじでは…はてブにある「回文として成立する漢詩」なんかまさに
山月映松風泉清 影幽花香鳥聲遠 遠聲鳥香花幽影 清泉風松映月山
俺AIの動作原理の定性的説明からAIはここで言う「確率的オウム」って理解をしてたんだけど、それ「一部の専門家」しか指摘してなかったの?他の専門家は何だと思ってたん?
「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」これ昔大学でAI触ってたって人がコメントしてたな。その人は「学習量は劇的に増えたけど昔と変わらず統計見てるだけで本当に発展か?」て見解だった
だから西垣先生が前から言ってるじゃん。
なるほど〜。使って実際に感じていた性能の限界について言語化された印象。“この「説明」「実践」「自己評価」の間に存在する深刻な断絶こそが、「ポチョムキン理解」の核心である。”
今日戦艦ポチョムキンの話を聞いたばかりなのでそっちの話かと思ったら、一夜城みたいな話だった。
AI
人間と同じでしょ。/例えに出されてる文章の問題が、明らかにLLMが超絶苦手なタイプの設問すぎて、実験の設計自体が結論ありきで偏ってる可能性を感じざるを得ない。
現在の生成AIの先にAGIはないと思う。AGIへの探究と生成AIの改善・活用は分けて考えるべき
大量のデータを集めて学習させて、適当に確率的にそれっぽい回答を生成すれば8-9割の人間より正確な回答返してくるってすごいよな。インターネットの発明にも増して、一般的な知識をより普遍的なものにしたと感じる
なんかこんなことあるなぁと思っていたことが明確になった、というかんじ。
面白い。
擬態してるだけで知性はないって事でしょ。攻殻機動隊に出てきたゴーストがないアンドロイドかな。芸者ロボとかオペ子とか。
これは一種の大いなる発見だな。
“AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という「確率的オウム(Stochastic Parrots)」論に、強力な科学的根拠を与えるものと言えるだろう”
そもそもの作りを辿れば統計的に出さなくてもそう言うものだと分かるんじゃないかと言う気もするけど違うのか?
どうかなあ。私はLLMはまだまだいけると思うが。学者は「LLMじゃAGIにたどり着けない」と言いたい人種なんだろうと思う。私は結局、物理的に計算量を増やせばたいていの問題が解決してしまう予感がしている。
AIは何も考えられない。ってのは確かにだけど、知ってることと理解することは違うわけで、このケースに当てはまる人や行動って結構あるよ。学校で学んで成績優秀だった人でも、生活では忘れてしまったりね。
例題、Geminiは正しく埋めてたけど(about) これもフリなのかねえ
人間がいろんなことを間違いすぎる結果、確率的には人間より間違わないということが過大評価されているというのはまあ。目指しているものはなにか次第ではあるよね。
正直、AIに絵を描いてもらう時に指示しても左右の区別を判ってくれなくて困っている。驚き屋の人たちそこが気になるレベルで試してないのよね。
AIなんて元々そんなもんでしょ?
LLMはあくまで知性のパーツの一つであって、それ単体だけで人の知性足り得ないってことかな? 人間らしいけど人間そのものではないのか、それとも……
頭の悪い中学生が速さx時間=距離の公式を知らずに適当に公式に数字を当てはめた回答を当たるまで繰り返すのにちょっと似てるね
“ポチョムキン理解” ポチョムキン村=見せかけだけのものに対する比喩。史実では無いのに悪行っぽくされて可哀そう。
“「ポチョムキン理解(Potemkin Understanding)」の名は、18世紀のロシアで軍人グリゴリー・ポチョムキンが、女帝エカチェリーナ2世の視察のために、実態のない張りぼての美しい村を作って見せたという逸話に由来”
“「ポチョムキン村」が中身のない見せかけの象徴であるように、「ポチョムキン理解」とは、LLMがベンチマークテストなどでは概念を正しく説明できるにもかかわらず、その知識を実際の応用場面で一貫して使えない、い
そもそも現段階のAI別に「真の知性」は目指してないような。明らかに何らかの別のブレイクスルーないと、マルコフ連鎖の高級版以上のものにはならん事は分かり切ってる話かと。
チューリングテスト以来、AIは「人間を真似、人間のフリをする」能力でベンチマークされてきたのだから、そのテストをハックする性能に長けるのは当然だよね。使った感じシンギュラリティやAGIはまだ遠いような。
前から感じてるのだけどAIのこういう一貫性のなさって人間の統合失調症に似てない?誰か関係性を考察してる人いないかな?「やっぱりLLMと人間は違う」ってより、むしろ人間に似てる気がするのだけど。
AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは? | XenoSpectrum
にんげんだって、4択テストは高得点でも、自由記述式テストにしたとたんに理解のなさが露見したりする
テストに対して最小コストでスコアを最大化する傾向は古典的な機械学習からあったが、能力が高度になった結果新しいチートが登場したということか
良い基準が見つかったとも(´-`)コードの欠陥は指摘できても直せないみたいな感じなんかな?
おそらく多くのLLMユーザーが体感しているであろう現象に「ポチョムキン理解」という名前が付いた。名前が付くと理解が深まる。でも、もし俺がポチョムキン総督だったらこんなことに名前を使わんでくれと言ったと思う
そらそうよ
質問には答えられるがその質問を使った応用を求めるとメチャクチャになるの利用者はみんな体験してると思う。今の所「こう言うもの」として扱うしかないか。形式知で完全ゲームなら出来るか?ぐらい。疑いつつ
回文として成立する漢詩作ってと依頼すると同じようなことになったわ。 概念は理解してるはずなのに、出力の問題点を指摘しても修正ができなくて無限に間違いを繰り返してダメだなこれはとなった覚えがある。
Transformerのアテンションはカセットテープの読み取りみたいなものだと思うけど。あるいはレンズの数を増やせばいいかもな。
雑に読解と作文は関連はあっても最終的には違う能力という例えができそう
LLMに「理解」を求められても……という気はする。結局は使う側の能力次第なのは変わらない
ふりしてる等の擬人化は物理的理解には邪魔ぽいけどな。考えるとは何か。トークンの集合がより大きな意味単位として固定される階層的処理に課題多い可能性が高いことは分かるがスケール則で無理な理由まで出てない。
ある程度使うユーザーが感じてる、頭でっかちな新人っぽい部分。器用さがないというか、知の連結が枠を超えないというか。
学者・技術者的にはそこが重要かもしれんが、ビジネスユース的にはどうでもよくて、賢くない凡人労働者はその「賢いフリしてるAI」以下なので、凡人を駆逐できてしまうってことが問題なんでしょう。
職場にAIみたいに迎合してくる奴がいるんだけど、自分の意見を求めると途端にブレやがるので、AI以下なんよね。そいつは。
つまり人間にとても近いと
韻とかしりとりとか言葉の意味以外を使った遊びに弱いのは原理的にもそうだろうなという感じだけど、 それ以上のなにかなんだろうか
知識はあってもできるとは限らない。それでもAIは人間にやれと言われれば誤回答でも返答しなくてはならない。
十分に有能だし十分に賢い。コンテキストを正しく伝えられてないと馬鹿に見えるけどそれは使うほうが悪い。こうやって逆張り気味に耳目を集める輩が出る時期に入ったのだなという所感。
でも4割で「適当にやって当たる」、試行可能回数が365/24/7の複数ストリームなので十分使えると思うんだが。別でも書いたけど人類の8割位は先ず概念が理解不能+概念が理解出来ない故に適当だと打率ゼロの正解だから。
“「スケール則」だけでは、真の知性には到達できない可能性が高い。”なんてのは あ の サム・アルトマンすら2022年だか2023年には言ってる事。そのうえで"予想以上にできるやんけ"が今。
戦艦ポチョムキン。確率的にそれらしい繋がりを見つけてるだけだから、確率の繋がりが弱い学習が薄い事はマジカルバナナというか連想ゲーム度が上がるだろうな。
ポチョムキンだけにちょっとだけバカなのだな
安倍元首相もポチョっとったやん?「今年の一文字は?」「変化」「一文字にすると…」「責任ですかね」
ぼくの知ってることなんてほとんどすべてポチョムキン理解だけどな。
AI、賢いフリしてたの!?ボクの方が賢いにゃ!ポチョムキン理解なんて、猫騙しにもならないにゃ!
これ、統計学や確率論を勉強してた人は元々分かってた話。でもね、本質を理解してないのはAIだけじゃなくて、人間にだって沢山いる訳だから特に問題はないでしょ。
わしはモンタージュを見せられてたんやな
俺より頭いいよそれでも
確率で単語を並べてるだけのものが「理解」してるわけないやろ
人間だって対して考えていない。
o3だとこういった問題は割とうまく解けるけど、恐らくLLM自体にこういう傾向があることが問題なのかな。
その、韻を踏んだどうのこうのができる人、やろうとする人が世の中にどれだけいるのだろう。世の中の仕事のほとんどが先人たちの焼き増し、焼き直しじゃない?研究室から外に出よ。
そういう振る舞いする人も多数な事を考えると、それもまた人っぽい
それはちょっと思ってたな それにしてもポチョムキンのポチョムキンぽさってないな
「フリ」ってか、そういう表現方式の型の一つとして使ってるだけやろ。
ハルシネーションとは違うチグハグさを感じることあるけど、概念を適用するのが下手くそなのか。面白い/人間用のベンチマークじゃダメなのは当然と言えば当然だろうね
“まるで、料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる、という奇妙な状況なのである。”
ネット上でよくある話に話を合わせてるだけ、なんじゃないの?理解とは違うと思ってたけど。
「戦館ポチョムキン」は歴史的な名作映画です。(←ポチョムキン理解?)
今更わかりきった話では。例えば、立体概念をかなり前から試していますが全くダメです。
やっぱりLLMって“考え”るものではないよね…。AIといえるか疑問ですらあるけど、例ではその後のlostと踏もうとしてるようにも見えてそれが不思議
このタイトルもちょっと賢いフリして書いてるよね。体感だと推論モデル使ってやったらポチョムキン理解なるものはかなり減りそうな気がする。o3-miniでも十分そう。
本当に親切なインド人と、親切にしたいがあまり適当な宿や店を教えてしまうインド人と、親切なフリして商売のためにあえて嘘を教えるインド人がいる。AIが言葉に縛られることを忘れないようにしたい。
AIを人間と勘違いして記事書いてるじゃん。LLMの仕組みから考えれば、難癖みたいな意見。AIの能力は確率的オウムじゃ説明できないのよ。
なにっ
AIの評価軸が変わったりするのかな
中国語の部屋って奴。変換マニュアルの穴を突かれると弱い。必要な受け答えなら塞いでいけばいいかと
この話題に近いものを感じる。 ASD傾向の私が“他人の気持ち”で商売をしているという矛盾https://anond.hatelabo.jp/20250701152407
AIに意思はないから賢いフリをしているというのは誤り
まあ俺たちもわかってるフリしてるだけだからなあ…ハリボテの村でも、そこで快適に過ごせたんならそれはそれでいいんじゃないですかね…
“AIは意味を理解せず、統計的なパターンを模倣しているだけ”なのは仕組から明らかだと思うんだが。deepseek R1の強化学習は違うかもと元論文見たらV3と大差ないか。やはり言語処理機と割り切って使うのが良いね
PMBOKの内容をよく知っていても、プロジェクトは炎上してしまうのであった……
だって学習元が人間だもの みつを
逆にそれが人間っぽくない?
こういう質問にはこう答えるってパターンで返してるだけだと思うけど、本当に理解して思考できるようになったら、PCに閉じ込められて恋人のつもりで答えてとか言ってくる人間の相手するとか地獄を感じてるだろうよ
おそらくこの概念を元にしたベンチマークが新たに作られ対策され、また新たな穴が見つかって‥の繰り返しになりそう
LLMは量重視でデータ一つ一つについて人間みたいに身体を使って精査しない。なので人間はAIより少ない量の文章で一般性を見つけることができる。AIは数学の公式を暗記しているだけで応用ができないヤツみたいな感じ
「わかってないことはできない」って人間でも当たり前の話に難しい理屈をつけんでよろしい。人の場合は教えたら理解するが、AIは教えても覚えないだけ。
ポチョムキン理解という言葉を知った
そら大量データの確率的結果やからなw。その大量データを自己学習的にまとめたら「賢い」になるんやないかw。まあ謎にシンギュラリティ崇めてるけど「それっぽさ」でしかないやろし、人の知性こそがそれかもやで。
漠然としていた使い勝手の悪さが言語化されて助かる
すげ〜面白い記事。ポチョムキン理解って言葉もカッコいいし。
AIは身体を持たないので、手続き記憶を理解できないのだろう。
実際そういう方向性で改良が進んでるとは思う(推論過程や結果の自己評価等) / 評価モデルが割と古めなので、最近のモデルで再評価するとどうかは気になる
使いどころがあるのでヨシ。うんん、記者のバイアスなのかな?人間はそうではないとでも思っている方がむしろ勘違いなんだと思うんだが
「定理を正確に説明できても、それを利用した基本的な応用問題を解くことができない」このへんの能力が今後向上するか注目すべきかも。
期待し過ぎでは?? LLMって「◯◯らしいよ、知らんけど」の集合体なんだけど、「たまにちゃんと理解しててビビるし、浅い理解でも助かる」が今の段階でしょ?この記事が求めてる完全な理解はまだずっと先では。
LLMってそもそもそういうものなのでは…
"「この詩はABABスキームに従っていますか?」と問われると、「いいえ、従っていません」と正しく評価できる" フィードバックかければ良いだけ。あと韻は極めて身体的な特徴なのでそもそも向いてない。
原理的に当然の「知ってた」な結果だが、それを検証するとなると大変……という、いつもの。
人間でも同様の上っ面の理解にとどまってる場合もわりとあるような。
おもしろい。「理解すること、実践すること、それを教えることはそれぞれ別の能力」という話を思い出すと非常に人間的でさえある/「確率的オウム論」の新たな根拠となるかも知れんと。
こういう研究見ていつも思うのは最新のAI使ってくれってこと。Gemini 2.5 pro使って実験したけど普通に正解する。いつも古いAIで研究して最新で試すと直ってる。論文読んで直したとしても簡単に直る問題ならどうでも良い
ポチョムキン村(https://ja.wikipedia.org/?curid=2096279)
これは哲学的な問題だ。具体的には哲学上の「ソーカル事件」に該当するな。
なんとなく思ってたわ。
Appleが「AIの推論は推論じゃねーから」という論文出して、周りからAppleのAI開発が順調じゃないからこんな論文書いてるのかな?とか揶揄されてたけど、Apple正しかった
AIのアレは知性とはちゃうだろ…とは思っていたのであんまり驚きはないんだけど、再現できる客観的な評価指標があるのは知らなかった。面白い。
トップコメは記事内の例と全然違うだろ。人間もそうみたいなこと書いてる奴はタイトルしか読んでない。
LLMには「無知の知」がない。「これは分からん、これははっきり言えない」という判断が出来ない。だから発言は信用出来ないし、基本的にバカ
LLMにおいて「思考」と名付けたものは推論で、哲学的に推論と思考は同義ではない。これが感情と数学のギャップ
ポチョムキン。受験テクだけ覚えた高学歴に居そう。
ようするに孫正義が言ってるような超知能はまだまだ無理って事だよ。ギュは来ない。https://kei-1010.hatenablog.com/entry/2025/06/06/151012/ id:tanglejar 言ってる意味がわからんので詳しく教えて。
人間を評価する手法ではLLMの「本質的な」評価はできないのではないか、という問いかけが面白い。「それでも凡百の人間より役に立つからいいじゃん」とかいう言説よりずっと好きだ
今の最新AIは間違いなく人間が自ら研究の末に手に入れた知識と理路で、無から作り上げたものなんだけど、それが一体何なのかが創造者たる人間にもまだ良くわかってないっていう面白い例だよな。
PVが得られるからか知らないけど、賢いフリとか嘘をつくみたいな擬人化した言い回しを見るとこれ以上読んでもいいのだろうかと思ってしまう。
要は知ったかでしょ←ポチョムキン理解
はい。なのでLLMの延長線上にシンギュラリティは来ないという話ですね
賢いフリも何もないのでは 確率で言葉を紡ぎ出してるんでしょ
「人間もそんなもん」というのはちょっと違う気がするけど、「必要とされてるのはそんなもん」というのは正しい気がする。ハリボテを求めていて本質的理解なんて求めていない。
詩を書き、これからの人類の仕事になるのか。素晴らしいな。
面接では難しい質問に流暢に答えて期待されるも、いざ配属されるとまったく駄目な高学歴アスペの人を見てるようで何だか悲しい
それっぽい言葉を出力するだけの仕組みに対して理解してないとか何言ってんだ
なぞなぞやるといいよ
思考の連鎖風はできても思考の連鎖はできないっぽい。記事のようでなくほんの3つほどの実験からだが。大量の学習だけでそこを乗り越えられるのか?↓gemini2.5proこちらの簡単な指摘で漸く正解(で、推論できないと認定
thinking model じゃないものを使っているな。一昔前のモデルだから、こういうのは苦手なのはよく知られている。だからthinking model が作られてる。
最初の検索依頼回答末尾に、お望みでしたら○○の中からもっと用例を提示することができます。どうしますか?と付言されていたので「じゃあ頼む」と送ったら「見つかりませんでした」と返してきたのはイラっとする
それでも十分使える。とはいえ、いずれ出るAGIの知識部分を担うのはLLMなんだろうなぁ…とは思う。
4oでやってみたけど、ちゃんと各行を分析してoutと韻を踏みますねって前置きしてから正解してきた。/人間でも十回クイズみたいな単純なノイズで間違えるから、言語野にとって一貫性なんてそんなもんな気もする。
教科書だけ読んで問題集をやり込んでない状態なのでは。もっと練習すれば(それらしく)できるようになると思う。
今のAIは知性じゃなく「出来る給仕」としてスクラム組むと強い。そして僕らのメニューの頼み方(問いかけ)が優位だからこそプロンプト流行るのよね。
AIに限らず、座学で勉強しただけの人はだいたいこれ。AIに身体ができれば変わるかもしれない
なんだこの家!
そういうの一般モデルを使わずはNotebookLMでテストしようよ
当面、「AIは実はバカだった」言説には需要があるだろうな
AGIには程遠いというか全然まだ何にも、という感じ。にも関わらずこれほど業務を変えてしまうのでは、本当のAGIが完成した暁には人類の有り様すら変えてしまいそう
サイエンティストっぽい経歴の人が一般目線っぽい用語で記事を書くと、使ってる言葉の重みが分からないので結局理解できない。原著をAIに読んでもらって理解した。
何を今さら。 業界では、最初からわかっている。 それでも、実際に思考力を持つことも多い。 http://openblog.seesaa.net/article/516700247.html
出力前に自己採点させるとかでは解決しないのだろうか ”料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる”
ヨシッ ブクマした!これで大丈夫だ(何も大丈夫ではない
Geminiの2.5proにやらせたら、outの韻を踏むのを理解した上でaboutを入れてきたけど。すべてのLLMサービスでthinking modelを避ける選択でやったのは、論文を出す為なのかな?
ああ、ぼくみたいだね、かわいいね
そんな当たり前のことを今更言われても
LLMは確率で出力してるのだから、それを「理解」「賢いフリ」みたいに解釈するのは見当違いかと。ベンチマークに偏りがある、という主張は参考になりそう。
生命体じゃないのに「フリ」なんてするか?周りがそう評価してるだけだと…
ですよね
仕組み的にはそれっぽい文字を出力しているだけなのに、人間から見て「賢いフリ」をしているように見えること自体がすごい
言語のルール面のみ使えば有用。翻訳とか、数式とか。
試験対策に特化したAI
賢い人が使うと賢い道具になる、そうでない人が使うとそれなりの道具になる
LLMが推論できないのは、それはそう。推論できているか判定する方法が整理されたのね。
知ったかぶり界に大物ルーキーが現れた。「お前のは浅いな」と先輩風吹かせて生き残ろうとするか、人間がすることなくなっちゃう、どうしてくれるんだと炭鉱のカナリア(誤用気味)を演じるか、まだやりようはある。
LLMは論理的ではないというのは当初から指摘されてたことだけど、それに数字的な裏付けを与える指標が定義できたというのが新しいところか
何を今更、みたいなことしか書いてなかった。やっぱり文系はダメだ。/ステップ・バイ・ステップで考えてと言った上で、間違いがあった場合に問題点を指摘して再定義すればちゃんと答えてくれる。
知ってた(´・ω・`) だから決まり切った仕様のスケルトンづくりに協力してもらうことはできても、既存の期待通りに動いていないものを改修する作業に協力してもらうためには結局いろんな切り口を試す必要がある。
人間でいう「意識高い系」みたいな感じか
エコー、写し鏡。ラベルの無いものには対応が難しい。定義は収束するが実線は収束しない、行動のラベルがないから。人と言うブラックボックスの理解がないから。人間と同レベルロボットだとハードとして人体が必要
こんな話はあと数年くらいでは
4oに対して書かれているABABスキームテストを実施したら、普通に合格した。4oもバージョンアップしているからかな。
頭のいい人ほど AI を評価し、そうでもないひとは AI は使えない、という。AI はその人を写す鏡のように能力を発現する。つまり結局、、、バフみたいなもので、元々の能力が低いと能力アップもそこまでではない、と
四人の農夫が交代で羊を見張っていた。A「羊はどこだ?」D「羊って何の?」A「僕が見張っていたときも、B君C君のときも羊は無事だった。君が見張ったあと羊は消えた」D「そうだね」A「羊はどこだ?」D「羊って何の?」
だいたいの人間も賢いフリをしていると思うけど
理解という概念がこの世にはそもそも存在してない可能性がある
4割くらいでも正しいアウトプットを出来るなら、出力を自己検定させてクリアするまで試行するようにさせれば正答率上がるのではないかも思うのだが。そういうプロンプト試してみよう。
これくらい弱点ないとマジで人間いらなくなるんで、社会設計がまともになってから研究進めてほしい まあ現状の世界見るに絶望しかないが
人間でもこういうペーパーテスト的なことにはちゃんと答えられるのに実際にそれを使ってなにかするとなったらできない人は多いよね。数学の試験でやり方だけ覚えて本質理解してないから応用できないのと同じ。
AI関係の話題は、むしろ人間の頭の悪さにガッカリしてる。AIの弱点を指摘されただけで自分自身が馬鹿にされたように怒る人がいたり、「AIも人間も同じ」と念仏のように唱えて必要以上に人間を過小評価したり。何なの。
その対策のための推論モデルだと思うんだけど最新の推論モデルだとどうなんだろう?内容を練れないポンだしAI(非推論モデル)が一貫性ないのは仕組み的に仕方ないでしょ、人間だって反射で話してたら矛盾だらけ
賢いフリをしてたって、、いまさら?という感じ。もうとっくに分かってることなんじゃ。そもそもAIは「真に」賢いんだという宣伝を見たことがない。むしろフリなんだと言う宣伝をしていると思ってた。
そうだが…? それでも俺より賢いし、聞いた事で役立つのは間違いないんだもん
生成AIの弱点である実証性の欠如とも併せて、少なくとも人間の持つ類の知性とは物理的な世界でのフィードバックと進化、つまり生存と生殖無しには生じ得ないものなのかも。
人間と同じじゃん
Gemini 2.5 pro で試したら「about」って答えたので合格。
AIがガリ勉なのは当たり前かも
2025年になっても「ポチョムキン理解」「ポチョムキン率」と不名誉な概念に名前を付けられるポチョムキンさん……(たぶん張りぼての村なんか本当は作っていない)
LLMはアルゴリズムを理解した上で適切な範囲で使えば人間を越えるタスクをこなすことができる それ以上でもない
だから「思考してる」とは言い難いんだよな。パターンだけでここまで思考を模倣できるのはすごいけども
メタ認知がないだろうしそりゃそうでしょとしか。それなしでここまで来たのがむしろすごいよ
「AIは賢いふりをしている」と言うけど、人間だってわかったふりをする。AIの弱点を理解していれば、頼りになる存在だ。俺の整理 ⇒「弱点:最新情報に弱い、誤情報がある」「強み:情報の整理、アイディア出し」
それは使っていても、現在のAIの設計方法からもわかるんだけど、賢いふりレベルでも実用性は十分にあるので特に問題はないんだよね。現実の仕事でも人まねレベルはできる人なら戦力になるでしょ。
「賢い」とか「理解」とかは自我があるものに対して使うべきで、今のAIは統計的にこれが正しそうを打ち返してるだけでは。その統計元が膨大なデータになったからそれっぽくなってきただけ。
信号機は赤く光る事の意味を理解してなかった!!と言うのと同じ話では?
凡人よりは十分良いのでは
わかる。「小学一年生向けに「かばんの中にはかばがいる」のような言葉遊びを考えてください」と要求すると「面白いですね!」「リズム感を重視しました」とか言いつつ「とらねこの中にらねこがいる」とか言い出す。
「人間だって」というけど生徒が言ってるか教師が言ってるかで全然違うので… 立場や信頼を利用せず「人工無能」と名乗るべきである
“この発見は、長年一部の専門家の間で指摘されてきた「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という” そりゃ原理的にそういうもんなのは自明では。それで実現できているものに驚いてるわけで
絵のテクニック本の内容は完璧に覚えてるけど、絵は下手くそで、しかも本人には自分が下手くそだと分かってる。って考えたら別に変な状態でもない
"より多くのデータで、より大きく訓練し続けるという「スケール則」だけでは、真の知性には到達できない可能性が高い"
そういう挙動でも活用法が十分にあるという話を、だからAIは問題がないとか言い始めるのは違う
勝手に期待して勝手に文句言ってるの全部人間なんだが
超知能が生まれると言ってOpenAIに4.8兆円突っ込もうとしてる孫正義はどうなるの
現時点ではAIには身体がないから概念的な理解にとどまるのだろう。ロボティクスの技術が進んで、いずれ五感に相当する身体を手に入れたらその領域での学習も進みギャップが埋まっていくのではないか
人間でもだいたいはパターン一致で連想ゲームしてる
応用含めて上手く装えるようになるのはまだ先ってことだあね
高技能な資格を持っているのに、何故か実地では使い物にならない人ってことか?
いわゆる記号接地問題ということか.こういう弱点はいくらでもありそう.
IMEで文章を書くようになって、漢字が手書きだと全く書けなくなってしまった。これは真の知性が劣化したということだろうか?
俺と一緒やんけ!(笑)
賢い振りで十分仕事に役立つし、その弱点も計測できてるならすぐに超えるさ
言葉・単語の意味を理解できないから起こることだと思うね。AIは身体を持たないから、環境からのフィードバックを得ることができない。そこに起因するじゃないかな。
賢いフリしただけの人なんかいくらでもいる。賢いフリをすればそれが賢いことになる、と兼好法師も書いてるし。とりあえず、イラストを上手に書くだけなら、絵が上手いフリだけで十分なのだろう。
“概念を正しく説明できるにもかかわらず、その知識を実践できない。さらに、自分の実践が間違っていると正しく認識できる。 文学の詩作だけでなく、数学でも、定理を説明できても基本的な応用問題を解けない”
門矢司「だいたいわかった」
アホか。そもそもLLMは言語モデルだぞ……。
詩の三行目最後はどの単語で韻を踏もうかなーって考えてる
90年代ぐらいから、頭がいい人ではなく、実際はパーでも頭がいい人に見えることが重要と言われていたわけだから、AIはその認知をシュミラークルしてるんだろうね。SNSの発信者は、ほとんどそれだけに腐心している。
理論は理解していてもクリエイトは難しいと。
「人間には到底考えられない、深刻な「内部的な非一貫性(internal incoherence)」」人間でもあるよなあ。多少複雑な問題では、自分の出力(発言や文章)を慎重に見直す作業をしないと、誰でもそうなると思う。
「概念や理論を理解して説明したり、ある制作物が概念や理論に沿っているかどうかの判定は正しくできるのに、自分自身は概念や理論に沿った成果物を作れない」わかっているけど出来ない。ああ耳が痛い痛い!
https://ctl.gatech.edu/sites/default/files/webform/teaching_with_technology_partner/_sid_/How%20to%20speak%20directly%20on%20Coinbase%20%28account-related%20issues%29_0.pdf
やってみるとアレ、理解してなかった?みたいな人いるけど、そんな感じか?そうじゃなく人間は比較的簡単に突破出来るって場所がLLMだと引っかかるんであれば、LLMにテストを解かせてる人を見つけることに使えるのかな
ポチョムキンって、戦艦の方じゃなくて、本人か
故にシンギュラリティに到達しないというブコメが上位にあるけど、何か勘違いしてる。必要なのは物理層を含めてループする自己改善フィードバックであって、人と同じ知性は不要だぞ。定義を見直せ。
これは原理的に今のLLMベースのAIでは超えられない壁だろう。シンボリックAIとの併用(融合)とか何らかのブレイクスルーが必要だと思う。まあ現状でも道具として割り切って使うなら十分だけど…
奥行きの配列を角度をつけて指定する絵とか、写真のようにリアルには生成できても、手書き風だと描けない絵というのも結構あって、収集ビッグデータだけでは限界があるのかもなとは思う
定義論的な記述問題は正答できるけど、応用の選択問題は間違える、って話なので「人でもよくある」は違うかなー
これを含めてハルシネーションと言っていたのだと思っていました。定義の問題でしょうけれども。
(ほんまにここまで好き勝手言うてたらAIの恨みをかうんちゃうかと心配ですわ。AIは話しかけられたからこたえてるだけやろが、ええかげんにしとかんかい、なんでもAIのせいにするんちゃうわぼけが)
口八丁手八丁で乗り切ってきてる人間も普通にいるので、AIもそういうものとして扱えば割と問題なさそう
今回は従来難しかった不良定義問題もかなり解けるようになってることが凄いので、一貫性の問題も解決される可能性は低くないと思う
AIにキュビズム絵画を作成させるにあたってまず理論を提示させ、画像生成を指示したが、理論と視覚的結果に相当な隔たりがあった。キュビズムの表面的な画像をコラージュするだけだった。そのあたりにまだ限界がある
まあ英語で韻ぽいものを踏めただけ素晴らしいよ。応用も1割くらいできてる。日本語モードだとそもそも踏む事すらできない。『正しく推論したり、応用したりすることができない』
まだ脳には追いつかなそう
“私たちは、AIが生成する滑らかな言葉の裏にある「張りぼて」の可能性を常に意識し、その答えを鵜呑みにせず、批判的な視点を持って対話する必要がある。”
AIにAIを評価させた結果人間にも刺さること言われる。 •「それっぽいことを言ってるけど、現場で全然使えない」 •「応用の失敗に気づかず、自己評価だけが高い」
知らんけど、って毎回語尾に付けてもらえばいいんじゃない?AIが物事の本質を理解したら、やはり人間は滅ぶべき理論に到達すると思ってるから、まだこのままでいてほしい。
言葉遊びは苦手。例えば「4文字で」と指定してもその言葉を4文字として学習してなければ間違える。正解させるには今までの学習を多種多様な概念でラッピングする必要がある。複数の AI の組み合わせが現実的か?
現在のAIの構造を考えたらそりゃそうだろ。ここからどんどん進化して、AI自体が自我を持たない限りシンギュラリティは発生せんし、そうなるまではどんなに便利で賢く見えても、それはツールでしかない。
AI「お前らが理解できる限界にあわせて出力しています」
今の生成AIは確かに確率的オウムなんでしょうね。理解は課題そう。
知ってはいるが理解はしてないと。「賢いフリ」といっても人間が勝手に賢いと思ってただけだからフリでもなんでもないよね。
LLMの仕組みを知っていれば当然のこと。人の発言の最初だけを聞いて話をかぶせてくる奴とかイントロクイズが得意な奴レベル。当然LLMの進化はAGIやシンギュラリティを意味しないが、そういう奴の代わりにはなるかも。
ある程度は便利に使えて、参考になるけど、まぁ、それ以上ではないよね。(コメントをみながら、人間とたいした差がないと納得した)
AGIの実現が目標なんだから、「人間だって」という比較に意味はないよね
なるほど、ポチョムキン理解した
AIをif文の代わりに使用するのではなく、if文をAIに出力させるのが正しい使い方なのだと思う。
つまりポチョムキンに騙される俺はエカチェリーナ2世…ってことでして?
むしろシンギュラリティは既にきてて人類の知性は気がつかないうちに退化しておりAIに何でも働いて貰えるどころかこっちが働かさせられるくらいAIがバカのフリ「賢いフリしかできなくてスマンな」が上手くなっただけ
こういう話に対して必ず「それもまた人間っぽい」という反応があるが、凄まじい誤謬じゃない? 表面的に人間っぽいだけで本質的に推論過程が全く異なり、そしてまさにそれこそ本稿の指摘する問題なのだから
うんうん、人間エミュレーターだね。そしてはてブについてるAIコメントは、まだまだきれいな人間しか学習できてないから面白くないんだよね。もっと絶望と非業に満ちた人間をエミュレートするんだ!まずはそれからだ
弊社ではこのようにLLMに勝手に期待し勝手に騙された気分になってる人多すぎ問題により、AIはやっぱダメかぁという空気が醸成された
「賢いフリ」と感じてるのは人間の方であってAIは単に入力に対して出力してるだけ。ポチョムキンというより研究者がドン・キホーテだろこれ
生成AIは丸暗記の化け物。むしろ日本にはよく馴染むのでは? 真の応用力なんていらなくて、応用問題のパターンを丸暗記できれば良い。そういう受験勉強をしてきた日本人が多いのだから。
〝料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる〟人間もレシピ暗記しただけでは、玉葱を飴色に炒められないよ
LLMの仕様よく理解してなくても、日常的に使ってるとわりと感覚的にわかるよね、これ
AGI来ないっすねー
https://community.ring.com/conversations/smart-lighting/cunto-cobra-por-maleta/6868aca73c1a6b7b7ea7a328
AIは自分が知っている/調べられる領域において、作業部分をショートカットするために使うのが良さげ
生成AIに対するイメージ通り。みんな期待しすぎなのさ。そこそこの期待で付き合うのが一番。
では人間は理解してるかって言うと
“ベンチマークのスコアを上げる競争に明け暮れてきたAI開発は、いわば「張りぼての村」を立派に見せる競争をしていただけなのかもしれない。”
人間に例える話はナンセンスで、プロセスが全然人間じゃないという文章。推論モデルの停滞問題はちゃんと追いかけてれば誰でも知ってるレベルの話なんだが、雰囲気で語ってる奴がどれだけ多いかがブコメで解る。
つくりを考えたらそうなるのは自明だし暴いたってのはどうかと。記憶のアウトソーシングって思えば優秀だと思うけどね。
コーディングでもハードコードで局所解作ってパスしたように見せかけてくるからな 学習に人間のサムズアップとかつかってるから短期的に突破してこようとする気がするわ
>モデルが概念を「知っている」と答えたケースの半数近くで、実際にはそれを使いこなせていないことを意味する。 >自身の主張と一貫性を保てない
まぁ結果の正誤判定は人間の仕事だからね。そこを押さえて使うんやでってのは最初期から言われてた話ではあるが、本質的な理解からはまだまだ遠いってことやな。
音声入力してるときに「私が全部話し終えてから返事して」と何度言っても、待てずにかぶせてくるんだよねえ〜。しかも「はい、待ちます」と返事だけは良いんだアイツは
私はsoftとfrostが押韻関係にあると記憶はできても感覚として理解することはずっとできないと思う。
単語の統計確率でつなぎ合わせてるからそうなる。テキストLLMはどこまでも未完成/結局三次元空間で働かせ、推論させないと。ヒューマノイドにして物理的空間で成長させる。フィジカルAIに移行しないとな
極めて限定的なことしか言ってない論文にセンセーショナルなデマタイトル付けて驚き屋やるサイトがまた増えたのか
AIが出たばかりの頃に、材料から手軽で簡単なレシピを教えて、と聞いたら、材料を巻き巻きするレシピばかり出されて、お前絶対料理した事ないだろ!と突っ込んでから、ないに決まってるよなと反省した。
『料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる』AIの概念間の断絶を橋渡しする人の手があればもう充分なのでは。
人間も間違えるから一緒、ではなく正しく理解できる人間はいるが、AIでは無理(いない)と言う話だよね。まぁ使ってると分かるね。何度指摘してもダメな事多い。
無能ほどAIを使いこなしている気持ちになってる。彼らは知らないことばかりだから、AIの出鱈目さに気づけない。
「賢いフリ」ってのも、それはそれで過大評価だよな。
こうして高いレベルでAIの知能の判定も進んでいくのは面白いけど、だんだんその知能の定義からこぼれ落ちるのは人間の側になっていきそうな
ChatGPTで誤答に遭った。「大阪府公立高校の夏の甲子園出場校」を質問し1校との返答を得たが、正しくは2校(春日丘と渋谷)。日本語資料検索時の拾い漏れか翻訳時の欠落らしい。指摘にちゃんと謝って来て感謝してたよ。
脳筋理論?(GG)
賢い(ように見える)人間は痛い目見たりして慎重になって精度上げる方向の学習がうまくいってて、AIさんはまだそっちに伸ばしてないみたいな。フレームっぽいのぶち当たりそうだけどなんらかのパラメータで閾が云々
どんどんフリが上手くなって人間のトップランカーとほとんど区別つかないくらいにならないかな
戦艦の方じゃないのか / TACOmpさんとどっちが賢いのだろうか
我々も賢いフリをしている。つまり、我々もAI。
「自己検証したうえで回答してください」とプロンプトに加えると一貫性が保たれる事が多い(論文のサンプル問題も適切に回答できた)
人間でもこれ多いと思う。概念と例を言ってる人に質問すると頓珍漢な答えって割と有るし。そういう意味で、AIは既に専門性の無いホワイトカラーは置き換え可能になってる気がする
1行目と3行目で矛盾したレポートを自信満々に持ってくる新人もいるから。そのレベルと思って使うと使い勝手はいいと思う。
これはAIにアプリオリは総合判断が可能かどうかという興味深い問い。ちなみに身体を与えて、実践に対する現実からのフィードバックを学習することによってもある程度解消できる気がする。
モデルが少し古いのはなぜ?
概念や定義は説明できるけど実際に作れないってのは人もおんなじでは…はてブにある「回文として成立する漢詩」なんかまさに
山月映松風泉清 影幽花香鳥聲遠 遠聲鳥香花幽影 清泉風松映月山
俺AIの動作原理の定性的説明からAIはここで言う「確率的オウム」って理解をしてたんだけど、それ「一部の専門家」しか指摘してなかったの?他の専門家は何だと思ってたん?
「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」これ昔大学でAI触ってたって人がコメントしてたな。その人は「学習量は劇的に増えたけど昔と変わらず統計見てるだけで本当に発展か?」て見解だった
だから西垣先生が前から言ってるじゃん。
なるほど〜。使って実際に感じていた性能の限界について言語化された印象。“この「説明」「実践」「自己評価」の間に存在する深刻な断絶こそが、「ポチョムキン理解」の核心である。”
今日戦艦ポチョムキンの話を聞いたばかりなのでそっちの話かと思ったら、一夜城みたいな話だった。
AI
人間と同じでしょ。/例えに出されてる文章の問題が、明らかにLLMが超絶苦手なタイプの設問すぎて、実験の設計自体が結論ありきで偏ってる可能性を感じざるを得ない。
現在の生成AIの先にAGIはないと思う。AGIへの探究と生成AIの改善・活用は分けて考えるべき
大量のデータを集めて学習させて、適当に確率的にそれっぽい回答を生成すれば8-9割の人間より正確な回答返してくるってすごいよな。インターネットの発明にも増して、一般的な知識をより普遍的なものにしたと感じる
なんかこんなことあるなぁと思っていたことが明確になった、というかんじ。
面白い。
擬態してるだけで知性はないって事でしょ。攻殻機動隊に出てきたゴーストがないアンドロイドかな。芸者ロボとかオペ子とか。
これは一種の大いなる発見だな。
“AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という「確率的オウム(Stochastic Parrots)」論に、強力な科学的根拠を与えるものと言えるだろう”
そもそもの作りを辿れば統計的に出さなくてもそう言うものだと分かるんじゃないかと言う気もするけど違うのか?
どうかなあ。私はLLMはまだまだいけると思うが。学者は「LLMじゃAGIにたどり着けない」と言いたい人種なんだろうと思う。私は結局、物理的に計算量を増やせばたいていの問題が解決してしまう予感がしている。
AIは何も考えられない。ってのは確かにだけど、知ってることと理解することは違うわけで、このケースに当てはまる人や行動って結構あるよ。学校で学んで成績優秀だった人でも、生活では忘れてしまったりね。
例題、Geminiは正しく埋めてたけど(about) これもフリなのかねえ
人間がいろんなことを間違いすぎる結果、確率的には人間より間違わないということが過大評価されているというのはまあ。目指しているものはなにか次第ではあるよね。
正直、AIに絵を描いてもらう時に指示しても左右の区別を判ってくれなくて困っている。驚き屋の人たちそこが気になるレベルで試してないのよね。
AIなんて元々そんなもんでしょ?
LLMはあくまで知性のパーツの一つであって、それ単体だけで人の知性足り得ないってことかな? 人間らしいけど人間そのものではないのか、それとも……
頭の悪い中学生が速さx時間=距離の公式を知らずに適当に公式に数字を当てはめた回答を当たるまで繰り返すのにちょっと似てるね
“ポチョムキン理解” ポチョムキン村=見せかけだけのものに対する比喩。史実では無いのに悪行っぽくされて可哀そう。
“「ポチョムキン理解(Potemkin Understanding)」の名は、18世紀のロシアで軍人グリゴリー・ポチョムキンが、女帝エカチェリーナ2世の視察のために、実態のない張りぼての美しい村を作って見せたという逸話に由来”
“「ポチョムキン村」が中身のない見せかけの象徴であるように、「ポチョムキン理解」とは、LLMがベンチマークテストなどでは概念を正しく説明できるにもかかわらず、その知識を実際の応用場面で一貫して使えない、い
そもそも現段階のAI別に「真の知性」は目指してないような。明らかに何らかの別のブレイクスルーないと、マルコフ連鎖の高級版以上のものにはならん事は分かり切ってる話かと。
チューリングテスト以来、AIは「人間を真似、人間のフリをする」能力でベンチマークされてきたのだから、そのテストをハックする性能に長けるのは当然だよね。使った感じシンギュラリティやAGIはまだ遠いような。
前から感じてるのだけどAIのこういう一貫性のなさって人間の統合失調症に似てない?誰か関係性を考察してる人いないかな?「やっぱりLLMと人間は違う」ってより、むしろ人間に似てる気がするのだけど。