はてなまとめ - AIエージェントを「自己進化」させる仕組み

1: mkusaka 2026/01/20 21:24

論文Dr. Zeroの要点を解説し、同一LLM（Qwen-2.5）をProposer/Solverに分け、HRPOで計算コストを約4分の1に削減する手法を紹介します。

2: mayumayu_nimolove 2026/01/21 08:16

あ

3: nguyen-oi 2026/01/21 08:22

AIに自習用ドリルを自作させて勝手に賢くなるとか、いよいよ人間いらなくなるな。解法が凝り固まる弱点はLLMらしくて草

4: secseek 2026/01/21 08:22

確か将棋のAIで似たようなことをやっていたかと思います。似てるだけで別ものでしょうか

5: akahmys 2026/01/21 11:35

よく分からないんだけど、問題出す側はどうやって正解を決めてるんだろ。確実な事柄をまず見つけて、そこから問題を生成するとかかな。

6: aomvce 2026/01/21 18:57

ベッドロックエージェントコア

7: misshiki 2026/01/21 20:38

AIエージェントを賢くするのに、大量の訓練データが要らない方法が提案された。それが「Dr. Zero」という仕組みで、同じLLMを“問題を出す側”と“解く側”に分けて、相互作用で自己進化させるという発想。