テクノロジー

DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

1: hiroomi 2025/04/23 18:23

「精度・軽さ・安定性」を両立した強化学習ベースの学習設計が特徴

2: misshiki 2025/04/23 18:41

“DeepSeek-R1 の強化学習アルゴリズムをできる限り詳細に、省略されやすい部分も含めて書いてみました。”