Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最先端NLP勉強会2025 Training Language Models to Self-...

Avatar for Masanari Oi Masanari Oi
August 24, 2025
93

最先端NLP勉強会2025 Training Language Models to Self-Correct via Reinforcement Learning

Avatar for Masanari Oi

Masanari Oi

August 24, 2025
Tweet

Transcript

  1. Aviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, JD Co-Reyes,

    Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust Training Language Models to Self-Correct via Reinforcement Learning ICLR 2025 (Oral) 発表者:大井 聖也 東京科学大学 M2 井上研究室 2025/09/01 第17回最先端NLP勉強会 ※ 注釈がない場合、図表は論文からの引用です
  2. 2 研究の目的 LLMに自身の出力を改善する(自己訂正; self-correction)能力を獲得させたい 取り組み・成果 ⚫ 自己訂正能力獲得のための既存SFT手法がうまくいかない問題点を実験的に特定: ①訓練 / 評価分布のズレ

    ②修正が学習されない ⚫ 特定した問題を解決するために、①強化学習(RL) ②二段階学習 を取り込んだ 提案手法 SCoRe を提案 概要 数学・コード生成タスクにおいてGemini-1.5-Flashを学習した結果、 既存SFT・単純なRL手法 < SCoRe を達成
  3. 5 既存のLLMは自己訂正が苦手 背景 既存LLMにプロンプティングするだけでは自己訂正ができず、 むしろ1ターン目よりも間違える モデル (ベンチマーク) 1ターン目 2ターン目 3ターン目

    GPT-4-Turbo (GSM8K) 91.5% 88.0% 90.0% Llama-2-70b- chat (GSM8K) 62.0% 43.5% 36.5% Gemini-1.5-Flash (MATH) 52.6% 41.4% - ※ GPT-4-Turbo, Llama-2-70b-chatの結果はHuangら[2]から引用
  4. 8 問題設定 学習時に利用できるもの ⚫ 学習データ D:数学問題・コード生成を促す指示文 ⚫ 報酬 r:モデルの出力の正誤を判定 対象タスク

    数学・コード生成 背景 「自己訂正」といいつつverifierは使っていいの? という気持ちになるが、ニューラルベースではないの で今回は許容する
  5. 9 問題設定 学習時に利用できるもの 評価指標 ⚫ 学習データ D:数学問題・コード生成を促す指示文 ⚫ 報酬 r:モデルの出力の正誤を判定

    対象タスク 数学・コード生成 ⚫ Accuracy @t1 / t2: 1ターン目 / 2ターン目の正解率 ⚫ ∆(t1, t2): 2ターン目と1ターン目の正解率の差 ⚫ ∆𝑖 →𝑐(t1, t2): 1ターン目で不正解で2ターン目で正解の問題の割合 ⚫ ∆𝑐 →𝑖(t1, t2): 1ターン目で正解で2ターン目で不正解の問題の割合 背景 「自己訂正」といいつつverifierは使っていいの? という気持ちになるが、ニューラルベースではないの で今回は許容する
  6. 回答(A) 11 既存のSFT手法を試す 事前実験 STaR[3] Pair-SFT※ 問題 ① 学習前のモデルに自己訂正をさせる ②

    自己訂正に成功している事例を抜き出す 問題 回答 (B-1) 回答 (B-2) 誤答 正答 ③ 抜き出した事例でモデルをSFT 問題 ① 学習前のモデルの回答を収集 ② 誤答と正答を抜き出して組み合わせる 問題 回答(D) 回答(B) 誤答 正答 ③ 組み合わせた事例でモデルをSFT 回答(E) ※ Welleckら[4]のアイデアをもとにしている 回答(A-1) 回答(A-2) 回答(E-1) 回答(E-2)
  7. 14 問題点1: 訓練 / 評価分布のズレ 事前実験 SFTで学習したモデルは、 学習前のモデルの誤答( Fixed train

    / validation)はうまく修正できるが、 学習後のモデルの誤答( Self-generated validation)はうまく修正できない → オフライン学習を行うSFT手法の限界であり、オンライン学習によるRL手法が有望 Pair-SFTの評価データごとの性能推移 epoch
  8. 17 SCoRe: Self-Correction via Reinforcement Learning LLM with SCoRe 問題

    回答(1) 回答(2) LLM with SCoRe 問題 回答(1) 回答(2) 固定 学習 学習(軽) 学習(重) ステージ1 ステージ2 1ターン目を固定して、 2ターン目の修正に集中してRL 1ターン目で良い回答を出して、 2ターン目でさらに修正をするようにRL 提案手法
  9. 23 アブレーション実験 実験 1ターン目の正解率では負けているが 2ターン目で逆転する Gemini 1.5 Flash, MATHにおける結果 Q.

    自己訂正せずに、1ターン目で正解を当てに行くように学習したほうが高性能なのでは? A. No. 自己訂正をしないシングルターンRL(w/o multi-turn training)よりも、 自己訂正を行う(SCoRe)方が高性能
  10. 26 まとめ ⚫ 自己生成データ・単一モデルのみで自己訂正能力を獲得したい ⚫ 既存SFT手法を動かしてみたら、 ① 訓練 / 評価分布のズレ

    ② 1ターン目から当てに行ってしまう 問題でうまく行っていなかった ⚫ SCoReによって、数学・コード生成タスクの自己訂正能力を獲得できた ⚫ 自己訂正をしないRLをするよりも、SCoReで自己訂正をした方が 最終的に高性能 RL + 多段階学習 を取り入れた提案手法 SCoRe を提案
  11. 27 まとめ 感想 良いところ ⚫ 問題提起 → 既存手法の問題点を特定 → 手法提案

    → 実験 の流れがわかりやすい ⚫ 「そもそも自己訂正しなくても、1問目から当てに行けば良くない?」と思っていたので、アブ レーション実験でちゃんと否定してくれてよかった 微妙だった / わからなかった / もっと知りたいところ ⚫ モデルがGemini-1.5-Flashだけ(!) → RebuttalでGemmaでの実験結果が提 供されており、Geminiと同傾向らしい ⚫ アブレーションでRLの有効性が明確には確かめられていない  「二段階学習 + SFT」(ステージ1で1ターン目のlossをfreeze)をベースラインに 追加してほしい ⚫ 自己訂正能力の獲得によって、学習対象でないタスク(例:対話・安全性)などの性 能がどう変化しているのかが気になる  変化なし or 劣化?
  12. 28 まとめ 参考文献 [1] Sohee Yang et al. Do Large

    Language Models Latently Perform Multi-Hop Reasoning? ACL2024. [2] Huang et al. Large Language Models Cannot Self-Correct Reasoning Yet. ICLR2024. [3] Qu et al. Recursive Introspection: Teaching LLM Agents How to Self-Improve. NeurIPS 2024. [4] Kim et al. Language Models can Solve Computer Tasks. NeurIPS 2023. [5] Havrilla et al. GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements. ICML2024