まあでも人間もだいたいこのくらい、みたいな粗い演算とちゃんとCoTして出すのとを組み合わせてる感じあるからそんなにキモくないかも。あとソロバンやってる人の暗算中の頭の中考えたらそっちのがキモいはず。
予想通りではあるけど「計算」はしてないよね。どのニューロンが発火してるのかを見るって、まんま脳機能の研究に似てる
“226-68=” 🟦20「俺が食い止める」🟥60「うぉー」🟥40「突破ァ!」🟦6「させるか!」🟥8「くらえ!」🟥2「ヒャッハー」🟦200「そうはさせん!」🟥42「トドメだ!」🟦158「何とか...何とか食い止めたぞ」←自分の脳内
LLMにそろばんを使って欲しい時はそろばんを使わせるAPIやシステムが必要
「おぼろげながら浮かんできたんです。158という数字が」
思考連鎖してないときはかけ算九九に答えてるようなモノと思えば
学校のテストの時間に、自分では頭使わないで、前後左右あらゆる机からカンニングする相手を探す人みたい。それでまあ、世界中の答案を参照できればどこかに頻出する答えは有るわな。
人間っぽい
人間でも、式をパッと見て(暗算じゃなくて)だいたいこのくらいって感覚はあると思うけど、そういう段階なんじゃないのかな。
へー。じゃあ9.9と9.11のどちらの方が大きいかを聞くと9.11って言い出すのもニューロンの累積で導いてるのか。計算を聞かれたら内部で電卓アプリを呼び出して計算してくれればいいのに。
キモかったぁ…‥ (*´ω`*)
LLMの原理からしてキモくも思いもよらない方法でもない。トークンの列から奥に潜むルールを帰納できれば最高だが、人間の教育と同じようにルールはルールで教え込んでおいたほうが効率はいいだろうな。
たしかにキモい。LLMに四則演算のような自明な計算をやらせるのはコンピューティングコストの無駄だよなぁ
ヒューリスティックニューロンって、神経科学でいうところの祖母細胞じゃない?
こう推論の方法が違うとやっぱり異星人だよなぁ
"この論文では、推論タスクの代表例として四則演算タスクを対象に分析していますが、一般の推論タスクについても LLM は同様の方法で推論している可能性があります"
人間が九九を使って暗算しているときに近いのだろうか。いちホモサピとしては、2桁の計算くらいだったら、明示的に計算という枠組みに入らずにポンッと答えが出てくるような感覚がある。
2年くらい前でもLLMがプログラム書いて計算してた記憶あるが…
それっぽい数字の候補がそれっぽさを競って一番それっぽい数字がたまたま正解だったという感じなのか。正解のそれっぽさが足らないと間違えると。
おもしろ
面白かった。ただこの方法だと限界があるのか、このままゴリ押しでこの先も行けるのか、どういう見通しなのか気になった。
まあそんなもんだよなあ。演算タスクをどうしてもやらしたいなら、外部プログラムとかに投げる方針の方が良いのかな。(ChatGPTとかは既にPythonとかに処理投げられるっぽいけど)
こんな感じでヒトの脳がどんな感じで計算するのかも観察してみたい
この方法には限度があるし9.11問題もあるからLLMは計算する際には躊躇なく外部の計算機を使ってほしい。
人間の何倍ものデータを利用した上で確率上そこが揺るがないってのがかなりキモくて対話の余地なかったらと思うと怖い
“LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します”
かなり面白い
とはいえ人間も九九で似たような感じで記憶から答えだしてるしな・・
自分の場合「220-60=160だから160くらいかー」「6と8だから、一の位は8になるなー」「168か?ちがうな、繰り下がりがあったから158か?」「158に68を足したら228、よし合ってそうだ」みたいな感じでやってるかも。
推論で加算器やるってなると、脳内にルックアップテーブル作っておくの、公式とか良くある計算を暗記しとくみたいなのに似てるよな。
LLM自体は、計算するためのAIじゃないのに、計算させるのが適切じゃない気もする。人間が電卓叩くように計算専用のAIを使うような仕組みにできないのかな?
LLMの算術…?ボクにはおやつ計算の方が重要にゃ!🐾
算数版中国人の部屋だなあ。数を理解してないけれどカンでかなりの範囲まで答えてしまう。
“あなたと ChatGPT の会話が説得力のある結論に見えても、AI は裏ではこのようなキモい方法で結論を出しているかもしれません。”
確率を収束させていくというのは量子コンピュータ味があるなあ
実際に計算してると思ってる人は結構いそう
LLMではそうだけどChatGPT とかは計算モデル(モジュール)通してPythonとかで計算してるはずだが。。。
そもそもLLMに四則演算やらせるなというのはそうだが、四則演算を部分的に含むような複雑なタスクも投げられるわけで、「ルール」的に処理すべき頻出ロジックをモジュールで切り出して呼ばせるのがキリは無いが現実策
「これは計算である」と認識した瞬間にちゃんと計算をする仕掛けにならないもんなのかな。それこそググル検索窓に計算式投げるレベルで。少なくとも人間は計算そのものにおいてあまり推論をしていないように思う。
演繹ではなく帰納の積み重ねか
何がキモいのか分からない。人間だって10-7って言われた時にパターンマッチングして3って答える人がほとんどで、カウントダウンする人いないよね。機械的に計算させるならToolを使わせればいいだけ。人間も電卓使う。
簡単な計算でも驚くような間違いを返してくるのが、今のAI。計算機未満。特に多いのが桁間違いや、分数の分子分母逆転、単位の取り違え。課金してても隙あらばトークンをこっそり節約しようとするので油断できない。
ヒューリスティックの束、良い概念だ。荒いフィルタでも複数の視点が重なると真実が浮かび上がる。デマに騙される人間というのはいつも単一のソースを妄信する。
2+2=5
「だいたいこれくらいのレンジに収まる」+「下1桁の値はこれ」なので、人間とそんなに変わらなくない?
途中ステップ示さないと間違う理由はこれなんやな。途中ステップを正確にすることで確率あがると
LLMは人間ではないので、そこは計算機の使用を期待するからこそ、「キモい」になるんでしょう。
人間で言うシステム1だけを使って3桁以上の計算をするのは非効率。機械にとっては3桁じゃないのかもしれんけど。ChatGPT5ではCoT等の人間で言うシステム2を呼び出すようになってて心理学と工学が密に結びつき始めている
この計算過程ってもしかしたら算数が苦手な人間の計算なのかもと思えるので大規模言語モデルは算数が苦手な人を教育するためのヒントとして活用できそう
進次郎式やね。/自分は計算式を投げると python で計算して答えを返す dentaku-MCP を作って、それを使わせてる。
自分がAIの回答を「返事だけはいいがまともな仕事が出来ないアルバイト」だと思っているのはこれのせい。
文章にしても計算にしても、それっぽいことを答えているだけと言うのがよくわかる。それをわかった上で結果的に役立つなら十分。
「347760990/25962=」は普通に答えられたけど、「347760990/25962=」はbashで計算になった。
九九とか公式を丸暗記してる数学苦手な人みたい。
進歩の方向性としては、計算タスクだと認識したら電卓アプリを立ち上げて計算する、とかになるんだろうな
コプロセッサ…じゃなくてコプロセスを自分のモデルの外に持つようになりそう。
これ厄介だよなあ。結果的に正しいかどうか検算し続けるわけにもいかないし。
なんか、人間よりも人間らしくて好きだな
面白い。
暗算って確かに小さい計算を積み上げるかザックリこんぐらいかなとで頭の中での動き違いそうだなあ
桁間違い多いもんねえ。
人の計算の内訳をなぞってるのだから、頭いいよなぁと感じる
四則演算みたいに答えが自明な質問はPythonに渡せないのかな。我々が電卓を使うようなノリで。コードが書けるのに勿体ないと思ってしまった。
人も同じことやってる
へー
雰囲気で答えている
LLMのキモい算術 - ジョイジョイジョイ
まあでも人間もだいたいこのくらい、みたいな粗い演算とちゃんとCoTして出すのとを組み合わせてる感じあるからそんなにキモくないかも。あとソロバンやってる人の暗算中の頭の中考えたらそっちのがキモいはず。
予想通りではあるけど「計算」はしてないよね。どのニューロンが発火してるのかを見るって、まんま脳機能の研究に似てる
“226-68=” 🟦20「俺が食い止める」🟥60「うぉー」🟥40「突破ァ!」🟦6「させるか!」🟥8「くらえ!」🟥2「ヒャッハー」🟦200「そうはさせん!」🟥42「トドメだ!」🟦158「何とか...何とか食い止めたぞ」←自分の脳内
LLMにそろばんを使って欲しい時はそろばんを使わせるAPIやシステムが必要
「おぼろげながら浮かんできたんです。158という数字が」
思考連鎖してないときはかけ算九九に答えてるようなモノと思えば
学校のテストの時間に、自分では頭使わないで、前後左右あらゆる机からカンニングする相手を探す人みたい。それでまあ、世界中の答案を参照できればどこかに頻出する答えは有るわな。
人間っぽい
人間でも、式をパッと見て(暗算じゃなくて)だいたいこのくらいって感覚はあると思うけど、そういう段階なんじゃないのかな。
へー。じゃあ9.9と9.11のどちらの方が大きいかを聞くと9.11って言い出すのもニューロンの累積で導いてるのか。計算を聞かれたら内部で電卓アプリを呼び出して計算してくれればいいのに。
キモかったぁ…‥ (*´ω`*)
LLMの原理からしてキモくも思いもよらない方法でもない。トークンの列から奥に潜むルールを帰納できれば最高だが、人間の教育と同じようにルールはルールで教え込んでおいたほうが効率はいいだろうな。
たしかにキモい。LLMに四則演算のような自明な計算をやらせるのはコンピューティングコストの無駄だよなぁ
ヒューリスティックニューロンって、神経科学でいうところの祖母細胞じゃない?
こう推論の方法が違うとやっぱり異星人だよなぁ
"この論文では、推論タスクの代表例として四則演算タスクを対象に分析していますが、一般の推論タスクについても LLM は同様の方法で推論している可能性があります"
人間が九九を使って暗算しているときに近いのだろうか。いちホモサピとしては、2桁の計算くらいだったら、明示的に計算という枠組みに入らずにポンッと答えが出てくるような感覚がある。
2年くらい前でもLLMがプログラム書いて計算してた記憶あるが…
それっぽい数字の候補がそれっぽさを競って一番それっぽい数字がたまたま正解だったという感じなのか。正解のそれっぽさが足らないと間違えると。
おもしろ
面白かった。ただこの方法だと限界があるのか、このままゴリ押しでこの先も行けるのか、どういう見通しなのか気になった。
まあそんなもんだよなあ。演算タスクをどうしてもやらしたいなら、外部プログラムとかに投げる方針の方が良いのかな。(ChatGPTとかは既にPythonとかに処理投げられるっぽいけど)
こんな感じでヒトの脳がどんな感じで計算するのかも観察してみたい
この方法には限度があるし9.11問題もあるからLLMは計算する際には躊躇なく外部の計算機を使ってほしい。
人間の何倍ものデータを利用した上で確率上そこが揺るがないってのがかなりキモくて対話の余地なかったらと思うと怖い
“LLMは「226-68=」のようなプロンプトを与えると「158」と計算してくれますが、この計算は我々が想像するよりも奇妙な方法で行っていることを紹介します”
かなり面白い
とはいえ人間も九九で似たような感じで記憶から答えだしてるしな・・
自分の場合「220-60=160だから160くらいかー」「6と8だから、一の位は8になるなー」「168か?ちがうな、繰り下がりがあったから158か?」「158に68を足したら228、よし合ってそうだ」みたいな感じでやってるかも。
推論で加算器やるってなると、脳内にルックアップテーブル作っておくの、公式とか良くある計算を暗記しとくみたいなのに似てるよな。
LLM自体は、計算するためのAIじゃないのに、計算させるのが適切じゃない気もする。人間が電卓叩くように計算専用のAIを使うような仕組みにできないのかな?
LLMの算術…?ボクにはおやつ計算の方が重要にゃ!🐾
算数版中国人の部屋だなあ。数を理解してないけれどカンでかなりの範囲まで答えてしまう。
“あなたと ChatGPT の会話が説得力のある結論に見えても、AI は裏ではこのようなキモい方法で結論を出しているかもしれません。”
確率を収束させていくというのは量子コンピュータ味があるなあ
実際に計算してると思ってる人は結構いそう
LLMではそうだけどChatGPT とかは計算モデル(モジュール)通してPythonとかで計算してるはずだが。。。
そもそもLLMに四則演算やらせるなというのはそうだが、四則演算を部分的に含むような複雑なタスクも投げられるわけで、「ルール」的に処理すべき頻出ロジックをモジュールで切り出して呼ばせるのがキリは無いが現実策
「これは計算である」と認識した瞬間にちゃんと計算をする仕掛けにならないもんなのかな。それこそググル検索窓に計算式投げるレベルで。少なくとも人間は計算そのものにおいてあまり推論をしていないように思う。
演繹ではなく帰納の積み重ねか
何がキモいのか分からない。人間だって10-7って言われた時にパターンマッチングして3って答える人がほとんどで、カウントダウンする人いないよね。機械的に計算させるならToolを使わせればいいだけ。人間も電卓使う。
簡単な計算でも驚くような間違いを返してくるのが、今のAI。計算機未満。特に多いのが桁間違いや、分数の分子分母逆転、単位の取り違え。課金してても隙あらばトークンをこっそり節約しようとするので油断できない。
ヒューリスティックの束、良い概念だ。荒いフィルタでも複数の視点が重なると真実が浮かび上がる。デマに騙される人間というのはいつも単一のソースを妄信する。
2+2=5
「だいたいこれくらいのレンジに収まる」+「下1桁の値はこれ」なので、人間とそんなに変わらなくない?
途中ステップ示さないと間違う理由はこれなんやな。途中ステップを正確にすることで確率あがると
LLMは人間ではないので、そこは計算機の使用を期待するからこそ、「キモい」になるんでしょう。
人間で言うシステム1だけを使って3桁以上の計算をするのは非効率。機械にとっては3桁じゃないのかもしれんけど。ChatGPT5ではCoT等の人間で言うシステム2を呼び出すようになってて心理学と工学が密に結びつき始めている
この計算過程ってもしかしたら算数が苦手な人間の計算なのかもと思えるので大規模言語モデルは算数が苦手な人を教育するためのヒントとして活用できそう
進次郎式やね。/自分は計算式を投げると python で計算して答えを返す dentaku-MCP を作って、それを使わせてる。
自分がAIの回答を「返事だけはいいがまともな仕事が出来ないアルバイト」だと思っているのはこれのせい。
文章にしても計算にしても、それっぽいことを答えているだけと言うのがよくわかる。それをわかった上で結果的に役立つなら十分。
「347760990/25962=」は普通に答えられたけど、「347760990/25962=」はbashで計算になった。
九九とか公式を丸暗記してる数学苦手な人みたい。
進歩の方向性としては、計算タスクだと認識したら電卓アプリを立ち上げて計算する、とかになるんだろうな
コプロセッサ…じゃなくてコプロセスを自分のモデルの外に持つようになりそう。
これ厄介だよなあ。結果的に正しいかどうか検算し続けるわけにもいかないし。
なんか、人間よりも人間らしくて好きだな
面白い。
暗算って確かに小さい計算を積み上げるかザックリこんぐらいかなとで頭の中での動き違いそうだなあ
桁間違い多いもんねえ。
人の計算の内訳をなぞってるのだから、頭いいよなぁと感じる
四則演算みたいに答えが自明な質問はPythonに渡せないのかな。我々が電卓を使うようなノリで。コードが書けるのに勿体ないと思ってしまった。
人も同じことやってる
へー
雰囲気で答えている