難しすぎる問題に直面すると思考を諦めて考えるトークン数を減らしちゃうの、あまりに人間臭くて面白い。Reasoningモデルの限界が見えてきたな
思考の幻想: 問題の複雑性という観点から捉えた推論モデルの強みと限界の理解/反論:https://arxiv.org/pdf/2506.09250
via https://x.com/muramsat/status/2058764908599365655
"their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget."
外部メモリやソルバー・逐次検証・Python実行を許さない条件。v3ではかなり補修されているが、渡河パズルを根拠に「推論モデルは高複雑度で崩壊する」と言い切るのは眉唾。解の無いパズルが含まれていた疑いが。
[PDF] Shojaee (2025) The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
難しすぎる問題に直面すると思考を諦めて考えるトークン数を減らしちゃうの、あまりに人間臭くて面白い。Reasoningモデルの限界が見えてきたな
思考の幻想: 問題の複雑性という観点から捉えた推論モデルの強みと限界の理解/反論:https://arxiv.org/pdf/2506.09250
via https://x.com/muramsat/status/2058764908599365655
"their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget."
外部メモリやソルバー・逐次検証・Python実行を許さない条件。v3ではかなり補修されているが、渡河パズルを根拠に「推論モデルは高複雑度で崩壊する」と言い切るのは眉唾。解の無いパズルが含まれていた疑いが。