はてなまとめ - 「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）

1: mellhine 2025/08/27 20:41

でしょうね、という感想。というか、仕組みからしたら結果はほぼわかってるのに、AIを過度に信奉する人の暴走を止めるために実験してるようにしか見えんのだが。

2: naga_yamas 2025/08/27 20:53

車輪の再発明感はあるけど、まぁ生成AIも万能じゃないという裏付けの研究か

3: hazel_pluto 2025/08/27 20:56

推論させるには、AIに自我的(擬似的でもいい)なものを持たせる必要あると思うが、なぜ、そういう開発の方向にいかない？　実は既にそういう開発されてる？/AIは観測、認識するためのAI自身の地面が無い。

4: hobbiel55 2025/08/27 21:19

逆にヒトはどうやって推論してるんや?

5: entok 2025/08/27 21:46

LLMはその名の通り学習量をめちゃくちゃ増やして”化けた”技術でしたね

6: circled 2025/08/27 22:06

聞きかじりの知識だけで描くジョジョのヴァニラアイスとか見ると、人間の推論もメチャクチャだよ？

7: hakyu 2025/08/27 22:14

LLMというのが、前世紀からのAIの難問だった理解や推論を保留して、統計だけで文を作ることに特化したプログラムだからですね。多様な問題を正しく推論すること自体が未解決問題（構造的問題もあるが）

8: shinobue679fbea 2025/08/27 22:15

あらゆる文字情報を読み込んで「文書化された部分では人間を超える思考ができるようになった」が、「文書化された思考なんて思考全体では部分集合」という現実に帰ってきた感じね。ブレイクスルーは五感かな？

9: mojimojikun 2025/08/27 22:30

『本論文の結論は極めて明快で「CoTの推論能力は真の論理的推論のメカニズムではなく、洗練され構造化されたパターンマッチングの一形態であり、根本的に訓練時に見たデータ分布によって制限される」』そりゃそう

10: sisopt 2025/08/27 22:32

当たり前じゃん、ってブコメあるけどOpen AIやGoogleをはじめ色々な権威が“推論”モデルを堂々と発表して来るんだから、嘘だぞってしつこく啓蒙するのが大事になってくる

11: hasiduki 2025/08/27 23:02

外挿はできんー！ー！！！！！！！、

12: gaikichi 2025/08/27 23:16

人間と同じだよ、知らない事は考えられない、考え方（各データから共通性を見出す、そこから何かの法則性を発見する、現状の数値変化から未来の予測値を割り出す等々）は誰か先生役が教えてやらないと思いつかない

13: hylom 2025/08/28 00:20

体感的にもそういう感じがする、OpenAI o4で社外に出していない技術資料を学習させた質問回答システムを検証したけど学習データセットに明記されていないことに関してはズレた回答ばかり出す感じだった

14: byod 2025/08/28 00:22

つまりAIイラストは色々なイラストレーターの絵を丸暗記して真似してる訳やなやはり著作権侵害()

15: ttrr 2025/08/28 00:30

論理的厳密性がないと推論は難しいのではないかと感じる。個人的な所感。

16: shoutinginabucket 2025/08/28 01:15

推論がうまく出来ないAIって、エコーチェンバーの中で閉じた思考から抜け出せない人とどこか似てる。そして、ハルシネーションで吐き出される嘘は、その人の唱える陰謀論のようでもある。

17: Yagokoro 2025/08/28 01:19

何重にも間違っててあきれる。ＬＬＭは言語モデルに過ぎず、推論出来ているように見えるのは、言語に論理が内在しているから。ＬＬＭは人間のように抽象化は出来ない。むしろ言語の持つ機能を示したのがＬＬＭ

18: stealthinu 2025/08/28 01:20

実験デザインの意図はわかったが比較対象となる人間は問題セットを解いてる最中にその問題で学習してしまうから性能が良く見えるってことは考慮に入ってるのだろうか

19: tk_musik 2025/08/28 01:27

たくさん学習すると「いい感じになる」としかわかっていない生成AIに対して知ってたというコメントがつくここにはかなりの有識者が群れをなして存在しているようだ。

20: higgsino 2025/08/28 01:30

そして次に人間の推論も実は過去に学習されたものの組み合わせにすぎないことが判明すると

21: hirorinya 2025/08/28 01:32

でしょうね

22: toro-chan 2025/08/28 01:47

まぁそうだろうなぁと言う感想しか出ない。結局生成AIの正しさは膨大なパラメータによるのだろうとしか思えない。人間も脳内にたくさん専門家がいてその中で推論しているのだろう。

23: puruhime 2025/08/28 02:01

じゃあAIに聞いてもらってるちょっとした悩みは誰かが昔通った道なのか。ありがとう先人

24: hhungry 2025/08/28 03:19

AI「何でもは知らないわよ。知ってることだけ」

25: riawiththesam 2025/08/28 03:47

言うほど人間の推論もそんな高尚じゃないと思ってる

26: Unite 2025/08/28 04:15

ハリーポッターを学習していない奴がハリーポッターについて答えられるわけがないんだよな。しかし例えばアメリカ英語とイギリス英語の違いやprivet・dursley等の周辺知識があれば文章から舞台を推測するなどは出来る。

27: jankoto 2025/08/28 05:59

人間はカントの言う「アプリオリな総合判断」が出来る。生成AIには出来ない。この違いは大きい。こういう問題に真摯に向き合わず「人間も同じ」とか言って誤魔化してるとAI冬の時代がまたすぐにやって来る

28: caynan 2025/08/28 06:01

将棋や囲碁のように自己学習するようになってからが本番なんだろなとは思うけど、ただ、いつそこまで行けるのかどうかはよくわからない

29: iinalabkojocho 2025/08/28 06:11

実感が綿密な計算で実証された感じ。人間の頭脳の「いい加減さ」は今のAIの直線上では遠そうかなと。身体性もあるしね。究極的に脳が電気信号という話とは別でさ。

30: grocio 2025/08/28 06:23

人間も推論課題を過去の経験に基づいて解くことがあるので（例. 4枚カード問題　https://statistics.calculator.jp/column/wason/　）、人間が「真の推論」をできているかもわからない。研究では人間と直接比較しているのかな？

31: hisui5611 2025/08/28 07:29

推論してるにせよしてないにせよ既に一般的な人間を超えてるので。推論云々どうでも良い

32: cloverstudioceo 2025/08/28 07:40

まぁだとしても今のままでも超絶便利だよなぁ

33: kazyee 2025/08/28 07:46

「正しく」推論とは。正しい答えとそれを導く過程を知っている人の期待通りにって意味なら、事前学習してなきゃ期待通りにならなくても仕方ないのでは。／本文読んだ印象だと余計なデータはノイズとも主張したいのか

34: n_y_a_n_t_a 2025/08/28 07:49

人間が持つデータセットは不正規で欠落が容易に生じデータセット間の混濁がある。比較として成り立つのか疑問。。志向している頭脳の代替や超頭脳は先の目標として今は道具としての特徴を捉え上手に使うだけ

35: isobe-michael 2025/08/28 08:01

まぁでもこれは人間も同じだよねって気がする。

36: rokasouti 2025/08/28 08:02

フィードバッグの問題のような気がします

37: OkadaHiroshi 2025/08/28 08:03

coding agentだと実行してエラーが出たりテストが失敗したときに自動リトライできるので、他の分野でもそのような仕組を組み込めれば可能性はある。だから身体性のあるロボットでないと最終的にはAGIは実現できないかも。

38: morimarii 2025/08/28 08:07

人間も90％の人は過去学習のパターンマッチングしてると思うんだが…

39: neco22b 2025/08/28 08:07

"ちなみに、「学習データとテストデータとでその分布が互いに大きく乖離する」ことを「共変量シフト」と従前から機械学習分野では呼んでおり、"

40: beejaga 2025/08/28 08:13

なるほど実感とも合うな。抽象化できない（抽象化したものを覚えていられない？）のである課題に対して同じような失敗を繰り返す。まあLLMとゲームすると破綻する時点で押して知るべしなんだが／実験デザインが良い

41: otihateten3510 2025/08/28 08:23

"「課題が事前学習データの分布から逸脱」すればするほどCoT推論LLMは正しく推論できなかった" は分かるんだけど、そこから「パターンマッチしかしていない」の結論へは論理の飛躍がないか？この件は俺も前調べたが

42: Xray 2025/08/28 08:28

逆に言えば、世の中の多くの人が課題と思うことは、すでに学習されていることってことなんじゃないの。

43: q-Anomaly 2025/08/28 08:32

現状のAI（パーセプトロン）は小脳や視神経をモデル化したものであり、大脳ではない。実際の脳はもっと複雑。ニューロンは１０種類あるし、単純な電気信号だけではなく神経伝達物質を使い動的に変化する

44: blueboy 2025/08/28 08:37

推論能力はOpenAI が研究開発中。バージョンごとに向上している。　→　この件は、ChatGPT 自身が答えたので、間違いない。実例では、GPT-4は中学生以下。GPT-5は大学生以上。この記事は GPT-2で、話にならん。無駄研究。

45: kagerouttepaso 2025/08/28 08:38

推論モデルは監視資本主義における人間の思考と行動のモデル化の為に開発されていると仮定すれば当然の結果。その枠でも中に人間がすっぽりと収まる。

46: sds-page 2025/08/28 08:45

まず人間がどうやって推論してるのかを定義しない事には比較に入り口にも立ててない。何とかして否定したいがために理屈を捏ね回してるだけ。例えばアレクサンドラ構文の話とか　https://togetter.com/li/2547331

47: yoiIT 2025/08/28 08:50

高度に発達した事前学習データへのパターンマッチングは推論と区別がつかない。

48: abe_shenzo 2025/08/28 08:59

AIを使ってて複数の具体例から適切なレベルの抽象概念を得るのが人間に比べて下手だなとは感じる。人間から見て明らかに劣ってるところがわかるなら成長の余地はあるのでは。問題はその後でしょ。

49: name-25137412 2025/08/28 08:59

そうだろうなあ、と思いつつリンク先の引用・解説あとでちゃんと読む

50: fraction 2025/08/28 09:01

人間ができる推論ができないことはいくつもの例で確認したよ。例えばパラメターで決まるA、Bという条件あって、C(B)にあってC(A)にないのは？って問題にすら答えられない。パラメターに注目するだけでいいはずなのに

51: cad-san 2025/08/28 09:04

人間の推論がどういうものかは、エラーパターンである誤謬を鑑みるとある程度理解できるかもしれない

52: isrc 2025/08/28 09:11

どれほど掛け合わせで複雑化させた課題ルールを学習させても、まだ見ぬ新規の課題ルールに対しては複雑度が低くても正しく推論することができない／教師ありファインチューニングで推論パフォーマンスは良くなる

53: anonymighty 2025/08/28 09:17

そりゃまあ、今のAIの学習方法からは無理だろうけど、幼児からの認識・推論ステップを踏んで、推論専用のAIモデル作って、それを組み込めばいい。ここ一年の動画・イラストの進化を見れば、突破可能な課題。

54: boxmanx99 2025/08/28 09:17

カントを出すなら、人間のアプリオリな悟性は、生成AIに実装されてるモデルが該当するかもね

55: mag4n 2025/08/28 09:22

想像の機能が無いってことなのかな。箱の外には出られない。

56: suka6411144 2025/08/28 09:24

最近視覚思考者の本を読んでるけど、LLMは言語思考で思考を行うから、空間視覚思考的な、パターンや数学的な構造を用いて情報を処理するみたなことに弱いのかもしれないと思えてきた

57: nomono_pp 2025/08/28 09:25

生成AIに「お前らは論理的思考って出来るの？」って聞いたら「出来ねえっす。無理っす。それっぽく話してるだけで、考えて言ってるわけじゃねえです」って素直に答えてて感心した

58: kotesaki 2025/08/28 09:33

いや人間の推論もLLM同様、過去に学習した内容から結構イー加減にドリフトしてるだけなんじゃないのかな？その辺のいわばバグがサピエンスが反映した原因じゃないの？でもそれもそのうちAIに模倣されると思うよ

59: mysql8 2025/08/28 09:41

未解決問題は解けないかも？

60: ntstn 2025/08/28 09:53

限りなくハルシネーションをぶちまけるモデルとか作成したら壁突破したりしないのかな。

61: beeeyond 2025/08/28 09:55

まだまだ人間は面白く研究する余地があるってことかなと。

62: simila 2025/08/28 09:59

使ったのがGPT-2と言うのは注意。東大入試や未公表の数学難問を人間エキスパートと同レベルで解けるという事実もあるので、パターンマッチングでも一定の実用性があるのはみんな感じてる

63: Ez-style 2025/08/28 10:21

人間も完全な無から何かを想像するのは無理で、数十年かけて入力したインプットデータ（＝経験）をベースに推論してるのでは。生成AIも10年くらいひたすらインプットすれば、人間みたいな思考ができるように？？？

64: napsucks 2025/08/28 10:22

推論に対する汎化性能の低さは使ってると感じるよね。高級マルコフ連鎖に過ぎないので仕方ないけど。ブレイクスルーがあることを期待したい。将棋AIも外挿できないから新手はでないと言われてたが力技でどうにかした

65: avictors 2025/08/28 10:24

人意識にとっての答え合わせを出す淘汰機がいります。ただ、人よりパフォーマンスが低くても、人の推論と「根本的に」違うという根拠にはならない。GPTに聞くと相関から因果推論に持ってく道もあるという。

66: bipg 2025/08/28 10:39

こういうAIの問題や課題に対してすぐ人間モーする人多すぎね？

67: xjack 2025/08/28 10:52

面白い．予想通りといえばそれまでなんだけど，汎化性能に限界があることをLLM/CoTで検証するのは難儀だなと思っていたので，大変素晴らしい研究．／トプコメのような阿呆な見解に星がたくさんついているのは残念だ．

68: shiketanotsuna 2025/08/28 11:12

人工知能の暴走より人工知能が大好きになった天然知能の暴走を止めるハメになってる感じSF小説っぽいよね

69: sosoz4 2025/08/28 11:14

人と比べて疑問に思うのは当たり前では？厳密な環境で学習した脳が存在しないんだから。現実世界はWebと同じくノイズだらけなので比較はできない。大規模に過学習したタンパク質の可能性も普通にある。

70: jiro68 2025/08/28 11:38

LLMの仕組みを知っていれば推論なんてあり得ない事位誰でも分かるんだが、夢のような技術だと思っている連中が多数いるのも事実。過去の経験に基づき脊髄反射で物事を判断する程度なら代替可能だと思うけどね。

71: quwachy 2025/08/28 11:42

ヒトが真の論理的推論を行っているという論文くれ/ id:bipg 人間の構造を真似て作ったから人間がそもそも持っている欠陥をそのまま引き継いでしまう、人間にできないことができないと言われてもでしょうねでおわる

72: ykkkws 2025/08/28 11:48

人間の推論も過去の記憶（データセット）の組み合わせに過ぎないだろうが、入力データが多岐に渡るので、文字データしか扱えないLLMからシンプルに展開はできないでしょうね

73: dodefeg 2025/08/28 12:02

人間の大脳は中間層でのフィードバックに相当するものがあるはずで、出力から入力への限定的なフィードバックであるCoTに限界があるのは、直感的にも理解できる。

74: birisuken8574 2025/08/28 12:09

そもそも人間ってどうやって思考してるのか？って考えるのめちゃくちゃおもしろそう

75: mzdawgj 2025/08/28 12:44

https://discuss.royaleapi.com/t/why-is-coinbase-failing-my-transaction-call-support-1-818-927-1004/40035https://discuss.royaleapi.com/t/why-is-coinbase-failing-my-transaction-call-support-1-818-927-1004/40035

76: umai_bow 2025/08/28 13:23

「だからなに？」だ

77: xx9xx91024 2025/08/28 13:36

人間と同じという意見も人間は違うという意見もあるが現時点ではどっちとも判断つかないな。感覚的には人間も全く知らない概念の問題を与えられたら正答率は落ちるのが当然っぽい気もしてしまうが

78: mayumayu_nimolove 2025/08/28 13:44

そろそろ分析する仕事やめて自分も何か生み出していかないとやばいんじゃないのデータサイエンシストって

79: nekomottin 2025/08/28 15:04

仕組み上できないのは初めからわかっていたこと　「事前学習された推論」って言葉自体破綻してるし変な論文に思えるが、丁寧に否定するのも大事なことだよな

80: doko 2025/08/28 16:17

その弱さが実用的にはどんなところでどんなかたちでどんな程度で露呈するかとか、露呈したときにどんな問題が起きるかの方が気になるかなぁ

81: snow8-yuki 2025/08/28 16:46

人間は妄想と飛躍ができる？

82: strawberryhunter 2025/08/28 17:04

私みたいにフレームワークが理解できないから自分で作っちゃう系の人は自分のコードをLLMが理解してくれるとは限らないので辛いかもしれないな。逆にハルシネーションに合わせて書き換えたらいいんだろうか。

83: misshiki 2025/08/28 17:09

“本論文の結論は極めて明快で「CoTの推論能力は真の論理的推論のメカニズムではなく、洗練され構造化されたパターンマッチングの一形態であり、根本的に訓練時に見たデータ分布によって制限される」と指摘”

84: getcha 2025/08/28 17:21

パターンマッチングを越えられないというのは、ロジックが破綻していても、エコーチェンバーから抜けられない人間が存在している事と似てないだろうか。人間の思考パターンや限界も人によって違うだろう。

85: IIl 2025/08/28 17:39

論文は“素手のCoTは分布外に弱い”と示しただけで、LLM全般を“単なるパターンマッチ”と断じるのは飛躍

86: iheettkun 2025/08/28 17:55

推論問題は解決してない、というかそもそも現状の生成AIでは無理なのは流石に共通認識になりつつあるのでそれを踏まえて現実的なサービス落とし込む段階に来てる。未だに人間やらAGI云々ぬかすアホの多さは深刻だが。

87: stepebo 2025/08/28 17:59

モデルが今さらのGPT-2なんで、スケーリング則から言って参考にすべきでないと思うが。「LLM丸暗記仮説は正しい」の結論ありきのチェリーピッキング感ある

88: akahmys 2025/08/28 18:10

こないだ話題が出てたHierarchical Reasoning Modelってのが気になってるんだけど、どうなんだろう。

89: north_korea 2025/08/28 18:37

面白い。AIは発明できるかという問いの答えとして、現状はまだ無理ということか。

90: d0i 2025/08/28 19:22

本当かなあ。物量で解決できる可能性を否定する結果ではないと思うのだけど。

91: revert 2025/08/28 21:02

人間が残してるテキストって答えに向かって一直線の解答であって、そこへ至るまでの思考や枝切りに関するテキストは殆ど存在してないよね

92: chintaro3 2025/08/28 22:35

子供のする事にケチ付けるような記事は趣味が悪いと思う。そんなのこれから改善されていくに決まってるじゃんな。

93: mozukuyummy 2025/08/28 23:36

この認識でAI使ってると、「こんなマニアックな要件のコード、過去に書いた奴いるんか！！」って驚くことがある。

94: kuroyuli 2025/08/29 08:31

世界中のあらゆる人が書き込んでいるウェブテキストに入っていない「新しい課題」を投げる人には役に立たない。ってだけで、そんなこと無理な人は無視できる。

95: banzaic 2025/08/29 20:37

結晶性知識

「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い） - 渋谷駅前で働くデータサイエンティストのブログ