Slide 8
Slide 8 text
強化学習を使い、LLMに自己探索と自己反省能力を付与
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
自己探索と自己反省を通じて、外部モデルの助けなしに高度な推論を行うモデルの学習方法の提案
Chain-of-Action-Thought (COAT)
通常のCoTにメタアクションを追加
• Continue Reasoning (<|continue|>):既存の推論を継続
• Reflect (<|reflect|>):途中で間違いを検証し修正
• Explore Alternative Solution (<|explore|>):新しいアプローチを試行
学習方法
フォーマット・チューニング(Format Tuning, FT)
• 小規模なデータセット(10,000サンプル)を使用し、LLMにCOAT推論のフォーマットを学習させる
• 特に「どのタイミングでReflect/Exploreを使うか」 を学習する
自己強化学習(Self-improvement via RL)
Restart and Explore (RAE) 戦略
• 間違いを犯した場合、最初からではなく、誤った途中の状態から再開し、学習効率を向上
• 報酬は、最終的な解答が正解なら+1, 不正解なら-1、自己修正ボーナス、人間の好む推論ボーナスもある
2月10日 更新分
学習