最先端NLP勉強会2025 Training Language Models to Self-Correct via Reinforcement Learning

Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, JD Co-Reyes,
Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust Training Language Models to Self-Correct via Reinforcement Learning ICLR 2025 (Oral) 発表者：大井聖也東京科学大学 M2 井上研究室 2025/09/01 第17回最先端NLP勉強会 ※ 注釈がない場合、図表は論文からの引用です

2 研究の目的 LLMに自身の出力を改善する（自己訂正; self-correction）能力を獲得させたい取り組み・成果 ⚫ 自己訂正能力獲得のための既存SFT手法がうまくいかない問題点を実験的に特定: ①訓練 / 評価分布のズレ
②修正が学習されない ⚫ 特定した問題を解決するために、①強化学習（RL) ②二段階学習を取り込んだ提案手法 SCoRe を提案概要数学・コード生成タスクにおいてGemini-1.5-Flashを学習した結果、既存SFT・単純なRL手法 < SCoRe を達成

3 LLMによる自己訂正背景自己訂正とは LLMが自身の出力の質を改善する能力この論文では、1ターン目の出力を2ターン目で改善することを目指すなぜ必要か？ LLMは必要な知識・能力があっても、1ターン目で誤答することが多い[1] 自己訂正によって誤答の修正が可能になれば、性能向上につながる問題
回答(1) 回答(2) 回答(3)

4 LLMによる自己訂正背景自己訂正とは LLMが自身の出力の質を改善する能力この論文では、1ターン目の出力を2ターン目で改善することを目指すなぜ必要か？ LLMは必要な知識・能力があっても、1ターン目で誤答することが多い[1] 自己訂正によって誤答の修正が可能になれば、性能向上につながる問題
回答(1) 回答(2) 回答(3) DeepSeek-R1などの推論型モデルでも、推論過程中で “Wait, let me think again…”のような自己訂正っぽい挙動が観察される

5 既存のLLMは自己訂正が苦手背景既存LLMにプロンプティングするだけでは自己訂正ができず、むしろ1ターン目よりも間違えるモデル（ベンチマーク） 1ターン目 2ターン目 3ターン目
GPT-4-Turbo (GSM8K) 91.5% 88.0% 90.0% Llama-2-70b- chat (GSM8K) 62.0% 43.5% 36.5% Gemini-1.5-Flash (MATH) 52.6% 41.4% - ※ GPT-4-Turbo, Llama-2-70b-chatの結果はHuangら[2]から引用

6 既存研究の問題点背景自己訂正能力の獲得に取り組んだ既存研究は存在するが ⚫ より高性能な教師モデルへのアクセス[3] ⚫ 人手・もしくは別のモデルが生成したデータへのアクセス[4] ⚫ 複数のモデルを訓練（例：生成モデル・検証モデル）[5]
のいずれかを許している or どれも許さないがうまくいかない（後述）本研究では、自己生成データ・単一モデルによる自己訂正能力の獲得を目指す

7 問題設定学習時に利用できるもの ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定対象タスク
数学・コード生成背景

8 問題設定学習時に利用できるもの ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定対象タスク
数学・コード生成背景「自己訂正」といいつつverifierは使っていいの？という気持ちになるが、ニューラルベースではないので今回は許容する

9 問題設定学習時に利用できるもの評価指標 ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定
対象タスク数学・コード生成 ⚫ Accuracy @t1 / t2: 1ターン目 / 2ターン目の正解率 ⚫ ∆(t1, t2): 2ターン目と1ターン目の正解率の差 ⚫ ∆𝑖 →𝑐(t1, t2): 1ターン目で不正解で2ターン目で正解の問題の割合 ⚫ ∆𝑐 →𝑖(t1, t2): 1ターン目で正解で2ターン目で不正解の問題の割合背景「自己訂正」といいつつverifierは使っていいの？という気持ちになるが、ニューラルベースではないので今回は許容する

事前実験

回答(A) 11 既存のSFT手法を試す事前実験 STaR[3] Pair-SFT※ 問題 ① 学習前のモデルに自己訂正をさせる ②
自己訂正に成功している事例を抜き出す問題回答 (B-1) 回答 (B-2) 誤答正答 ③ 抜き出した事例でモデルをSFT 問題 ① 学習前のモデルの回答を収集 ② 誤答と正答を抜き出して組み合わせる問題回答(D) 回答(B) 誤答正答 ③ 組み合わせた事例でモデルをSFT 回答(E) ※ Welleckら[4]のアイデアをもとにしている回答(A-1) 回答(A-2) 回答(E-1) 回答(E-2)

12 既存のSFT手法はうまくいかない事前実験 STaR, Pair-SFTはどちらも∆(t1, t2)に大きな改善は見られなかった学習 / 評価データ：MATH, モデル：Gemini
1.5 Flash

13 既存のSFT手法はうまくいかない事前実験 STaR, Pair-SFTはどちらも∆(t1, t2)に大きな改善は見られなかった学習 / 評価データ：MATH, モデル：Gemini
1.5 Flash ↑なぜ？

14 問題点1: 訓練 / 評価分布のズレ事前実験 SFTで学習したモデルは、学習前のモデルの誤答（ Fixed train
/ validation）はうまく修正できるが、学習後のモデルの誤答（ Self-generated validation）はうまく修正できない → オフライン学習を行うSFT手法の限界であり、オンライン学習によるRL手法が有望 Pair-SFTの評価データごとの性能推移 epoch

15 事前実験問題点2: 修正が学習されない STaR, Pair-SFTは学習前と比べて、回答を修正しない傾向がある → 回答の修正を促す機構を明示的に導入することが有望 1ターン目と2ターン目の回答の編集距離

提案手法

17 SCoRe: Self-Correction via Reinforcement Learning LLM with SCoRe 問題
回答(1) 回答(2) LLM with SCoRe 問題回答(1) 回答(2) 固定学習学習（軽）学習（重）ステージ1 ステージ2 1ターン目を固定して、 2ターン目の修正に集中してRL 1ターン目で良い回答を出して、 2ターン目でさらに修正をするようにRL 提案手法

提案手法ステージ1：2ターン目の修正のみを学習 1ターン目の学習前モデルとのKL距離をペナルティとして使用ステージ1 18 2ターン目の報酬を最大化いきなり1,2ターン目の出力を動かすと自己訂正を学ばなそうなので、 1ターン目は固定して2ターン目の自己訂正を明示的に学習したい

提案手法ステージ2：1,2ターン目を両方学習ステージ2 19 1,2ターン目の報酬を最大化 1→2ターン目で改善された場合はボーナスを付与 1,2ターン目を両方学習しつつ、自己訂正も忘れてほしくない

実験

21 実験数学タスクの結果 Gemini 1.5 Flash, MATHにおける結果 ⚫ SCoReは全ての指標で最も高い性能を達成 ⚫
1ターン目から2ターン目の正解率の差∆(t1, t2)が4.4%に改善

22 コード生成タスクの結果実験 Gemini 1.5 Flash, HumanEvalにおける結果 ⚫ SCoReはAcc.@t1を除く全ての指標で最も高い性能を達成 ⚫
1ターン目から2ターン目の正解率の差∆(t1, t2)が12.2%に改善

23 アブレーション実験実験 1ターン目の正解率では負けているが 2ターン目で逆転する Gemini 1.5 Flash, MATHにおける結果 Q.
自己訂正せずに、1ターン目で正解を当てに行くように学習したほうが高性能なのでは？ A. No. 自己訂正をしないシングルターンRL（w/o multi-turn training）よりも、自己訂正を行う（SCoRe）方が高性能

24 アブレーション実験実験 Gemini 1.5 Flash, MATHにおける結果 Q. 二段階で学習する意味はあるのか？ A.
Yes. ステージ1を抜くと性能が低下した

まとめ・感想

26 まとめ ⚫ 自己生成データ・単一モデルのみで自己訂正能力を獲得したい ⚫ 既存SFT手法を動かしてみたら、 ① 訓練 / 評価分布のズレ
② 1ターン目から当てに行ってしまう問題でうまく行っていなかった ⚫ SCoReによって、数学・コード生成タスクの自己訂正能力を獲得できた ⚫ 自己訂正をしないRLをするよりも、SCoReで自己訂正をした方が最終的に高性能 RL + 多段階学習を取り入れた提案手法 SCoRe を提案

27 まとめ感想良いところ ⚫ 問題提起 → 既存手法の問題点を特定 → 手法提案
→ 実験の流れがわかりやすい ⚫ 「そもそも自己訂正しなくても、1問目から当てに行けば良くない？」と思っていたので、アブレーション実験でちゃんと否定してくれてよかった微妙だった / わからなかった / もっと知りたいところ ⚫ モデルがGemini-1.5-Flashだけ（！） → RebuttalでGemmaでの実験結果が提供されており、Geminiと同傾向らしい ⚫ アブレーションでRLの有効性が明確には確かめられていない  「二段階学習 + SFT」（ステージ1で1ターン目のlossをfreeze）をベースラインに追加してほしい ⚫ 自己訂正能力の獲得によって、学習対象でないタスク（例：対話・安全性）などの性能がどう変化しているのかが気になる  変化なし or 劣化？

28 まとめ参考文献 [1] Sohee Yang et al. Do Large
Language Models Latently Perform Multi-Hop Reasoning? ACL2024. [2] Huang et al. Large Language Models Cannot Self-Correct Reasoning Yet. ICLR2024. [3] Qu et al. Recursive Introspection: Teaching LLM Agents How to Self-Improve. NeurIPS 2024. [4] Kim et al. Language Models can Solve Computer Tasks. NeurIPS 2023. [5] Havrilla et al. GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements. ICML2024

最先端NLP勉強会2025 Training Language Models to Self-...

最先端NLP勉強会2025 Training Language Models to Self-Correct via Reinforcement Learning

Masanari Oi

Featured

Transcript

Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, JD Co-Reyes,

2 研究の目的 LLMに自身の出力を改善する（自己訂正; self-correction）能力を獲得させたい取り組み・成果 ⚫ 自己訂正能力獲得のための既存SFT手法がうまくいかない問題点を実験的に特定: ①訓練 / 評価分布のズレ

5 既存のLLMは自己訂正が苦手背景既存LLMにプロンプティングするだけでは自己訂正ができず、むしろ1ターン目よりも間違えるモデル（ベンチマーク） 1ターン目 2ターン目 3ターン目

7 問題設定学習時に利用できるもの ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定対象タスク

8 問題設定学習時に利用できるもの ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定対象タスク

9 問題設定学習時に利用できるもの評価指標 ⚫ 学習データ D：数学問題・コード生成を促す指示文 ⚫ 報酬 r：モデルの出力の正誤を判定

事前実験

回答(A) 11 既存のSFT手法を試す事前実験 STaR[3] Pair-SFT※ 問題 ① 学習前のモデルに自己訂正をさせる ②

12 既存のSFT手法はうまくいかない事前実験 STaR, Pair-SFTはどちらも∆(t1, t2)に大きな改善は見られなかった学習 / 評価データ：MATH, モデル：Gemini

13 既存のSFT手法はうまくいかない事前実験 STaR, Pair-SFTはどちらも∆(t1, t2)に大きな改善は見られなかった学習 / 評価データ：MATH, モデル：Gemini

14 問題点1: 訓練 / 評価分布のズレ事前実験 SFTで学習したモデルは、学習前のモデルの誤答（ Fixed train

15 事前実験問題点2: 修正が学習されない STaR, Pair-SFTは学習前と比べて、回答を修正しない傾向がある → 回答の修正を促す機構を明示的に導入することが有望 1ターン目と2ターン目の回答の編集距離

提案手法

17 SCoRe: Self-Correction via Reinforcement Learning LLM with SCoRe 問題

提案手法ステージ2：1,2ターン目を両方学習ステージ2 19 1,2ターン目の報酬を最大化 1→2ターン目で改善された場合はボーナスを付与 1,2ターン目を両方学習しつつ、自己訂正も忘れてほしくない

実験

21 実験数学タスクの結果 Gemini 1.5 Flash, MATHにおける結果 ⚫ SCoReは全ての指標で最も高い性能を達成 ⚫

22 コード生成タスクの結果実験 Gemini 1.5 Flash, HumanEvalにおける結果 ⚫ SCoReはAcc.@t1を除く全ての指標で最も高い性能を達成 ⚫

23 アブレーション実験実験 1ターン目の正解率では負けているが 2ターン目で逆転する Gemini 1.5 Flash, MATHにおける結果 Q.

24 アブレーション実験実験 Gemini 1.5 Flash, MATHにおける結果 Q. 二段階で学習する意味はあるのか？ A.

まとめ・感想

26 まとめ ⚫ 自己生成データ・単一モデルのみで自己訂正能力を獲得したい ⚫ 既存SFT手法を動かしてみたら、 ① 訓練 / 評価分布のズレ

27 まとめ感想良いところ ⚫ 問題提起 → 既存手法の問題点を特定 → 手法提案

28 まとめ参考文献 [1] Sohee Yang et al. Do Large