論文紹介: ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

© NTT, Inc. 2025 第17回最先端NLP勉強会 2025 論文紹介 ReGenesis: LLMS
can Grow into Reasoning Generalists via Self-Improvement Xiangyu Peng, Congying Xia, Xinyi Yang, Caiming Xiong, Chien-Sheng Wu, Chen Xing ICLR 2025 発表者: 勝見久央（NTT株式会社人間情報研究所）

© NTT, Inc. 2025 1 メタ情報・概要 • メタ情報 • タイトル:
ReGenesis: LLMS can grow into reasoning generalists via self-improvement • 著者: Xiangyu Peng, Congying Xia, Xinyi Yang, Caiming Xiong, Chien-Sheng Wu, Chen Xing • 所属: Salesforce AI Research • 発表会議: ICLR 2025 (Oral) • 概要 • LLMの推論を強化するための学習データの収集方法として、モデル自身で推論パスを合成する自己改善手法（self-synthesizing reasoning paths）が取られてきたが、Out-of-Domainタスクに対する汎化性能の低下が課題であった。 • 最初に抽象的な思考のガイドラインを生成させてから具体的な推論パスを生成する自己改善手法 ReGenesis を提案し、OODタスクでも性能が向上することを示した。

© NTT, Inc. 2025 2 データ合成フロー概要 1. シードとなるQを準備（既存のQAデータセットなどから） • Question:
“Tina makes $18.00 an hour. If she works more than 8 hours per shift, she is eligible for overtime, which is paid by your hourly wage + ½ your hourly wage. If she works 10 hours every day for 5 days, how much money does she make?” 2. Guidance Adaptation • 汎用的な戦略を立てる: 「賃金と残業代のルールを理解し、体系的に計算する。」 3. Reasoning Structure Generation • 問題解決のための具体的な骨子の生成: 「1. 時給と残業代のルールを理解する。 2. 勤務シフトの数を決定する...」 4. Reasoning Path Generation • 最終的な解答を含む完全な推論パスを生成 5. フィルタリング • Ground Truthがある場合 → 正解ラベルを使ってフィルタリング • Ground Truthがない場合 → 多数決で正解を決める（Self-Consistency） 6. パスの再生成 • フィルタリングの結果、パスが残らなかったときは Guidance Adaptation、Reasoning Structure Generationのステップのみで正解を与えて再生成

© NTT, Inc. 2025 3 背景と課題 • LLMの推論性能は、推論パスを学習させることで向上する。 • 推論パス
⇒ CoTの中身 • 一方で、高品質な推論パスの作成には高いコストがかかる。 • 人間による手作業や高性能なモデルが必要になる。 • そこで、LLM自身に推論パスを生成させる自己改善手法（self-synthesizing reasoning paths）が研究されてきた。 • しかしながら、これらの手法で生成されたデータで学習したモデルは、OODタスクに対して性能が著しく低下する。 • 多様な問題解決戦略を学べておらず、特定の解法パターンに過度にフィットしてしまう。

© NTT, Inc. 2025 4 既存手法: STaR [Zelikman et al.,
2022] • 人手で作成したFew-shotのCoT（Chain-of-Thought）を与えて、推論パスを自己生成する手法 › 複数の推論パスを生成して、Ground Truthを用いてフィルタリングする。 › 正しいパスが生成できなかった場合は、 Ground Truthをヒントとしてプロンプトに加え、再度パスを生成させる。 • 大きく2つの課題が存在 › 生成される推論パスがFew-shotのCoTに依存するため多様性を担保しづらく、思考パターンが異なる未知のOODタスクへの汎化に失敗する。 › Ground Truthをそのままヒントとして与えるため、答えに合うように逆算して推論パスを生成してしまうため、推論パスの品質が下がってしまう。

© NTT, Inc. 2025 5 既存手法: LMSI [Huang et al.,
2023] • STaRと同様に、Few-shotのCoTを与えて推論パスを自己生成する。 › STaRとの違いはフィルタリング方法 › 正解データを使わず、複数の生成結果から多数決で最も多かった答えを採用（Self-Consistency）する。 • 生成される推論パスの多様性に乏しい点が課題である。 › STaRと同様の課題

© NTT, Inc. 2025 6 提案手法: ReGenesis • 「抽象から具体へ」と段階的に思考を発展させることで、多様かつ汎用的な推論パスを自己生成する
• ReGenesisは以下の3段階を踏む。 1. Guidance Adaptation 2. Reasoning Structure Generation 3. Reasoning Path Generation → 段階を踏むことで過学習を防ぎ、汎化性能を高める。

© NTT, Inc. 2025 7 Guidance Adaptation • タスクに依存しない25種類の汎用的なシードプロンプトをもとに、汎用的な戦略を生成
• シードプロンプトの例（問題分割、ステップバイステップなど）: › How can I break down this problem into smaller, more manageable parts? › Let’s make a step by step plan and implement it with good notation and explanation. • プロンプト： › Without working out the solution, adapt the following reasoning modules to be specific to our task Reasoning Module: {Seed Prompt 𝑝𝑗 𝑟𝑎𝑤} Task: {Instruction 𝑞𝑖𝑗 } • 出力例: › Make a list of ideas for understanding hourly wage and overtime rule and apply them one by one to accurately calculate wages.

© NTT, Inc. 2025 8 Reasoning Structure Generation • Guidance
Adaptationの結果をもとに、具体的な推論構造を立てる。 • プロンプト › Without working out the solution, create an actionable and concise reasoning structure step by step for the task using this adapted reasoning module: {Adapted Prompt 𝑝 (𝑖,𝑗) 𝑎𝑑𝑝 } Task: {Instruction 𝑞𝑖 } • 出力例: › 1. Understand the hourly wage and overtime rules. 2. Determine the number of shifts. 3. Calculate regular hours per day. 4. Calculate overtime hours per day. 5. Calculate total daily earnings. 6. Calculate total earnings for 5 days.

© NTT, Inc. 2025 9 Reasoning Path Generation • Reasoning
Structure Generationステップで生成した具体的な解決戦略をもとに推論パスを生成する • プロンプト › Using the following reasoning structure: {Reasoning Structure 𝑟(𝑖,𝑗) 𝑠 } Task:{Instruction 𝑞𝑖 } Solve this task step by step based on the above reasoning structure. • 出力例 › • 人手のFew-shotに依存せず、一つの問題に対して最大25通りの異なるアプローチの多様な学習データを生成できる。 Tina's regular hourly wage is $18.00 per hour. Tina works 10 hours every day, which exceeds the 8-hour limit, so she works 2 shifts (10 hours / 8 hours per shift). For each day, Tina works 8 regular hours. That's 8 * $18.00 = $144.00 per day. For each day, she works an additional 2 overtime hours. That's 2 * ($18.00 + $9.00) = $54.00 per day…

© NTT, Inc. 2025 10 フィルタリング（1/2） • 自己生成された推論パスには誤りが含まれる可能性があるため、高品質なものだけを学習に用いるフィルタリングが必要。 •
ReGenesisではGround Truthの有無に応じて異なるフィルタリングを実施する。 • Ground Truthが存在する場合 › 生成された推論パスの答え 𝑎(𝑖,𝑗)と、データセットに含まれるGround Truth 𝑎𝑖 を比較し、答えが一致する（𝑎(𝑖,𝑗) = 𝑎𝑖 ）推論パスだけを保持 • Ground Truthが存在しない場合 › 複数の生成結果から多数決で答えを決定する（Self-Consistency） › 多様なパスから多数決を取るので同様にSelf-Consistencyによってフィルタを行う既存手法と比べて質が良い（後述）

© NTT, Inc. 2025 11 フィルタリング（2/2） • フィルタリングによって有用なパスが残らなかったタスクでは再生成を行う。 • 推論パス生成の最初の2ステップ（Guidance
Adaptation、Reasoning Structure Generation）の間だけGround Truthを与えて再生成する。 • モデルが単に答えに帳尻を合わせるような質の低いパスを生成するリスクを低減できる。 › STaRでは正解を直接与えてパス生成していた点が異なる。 • 最終的に、各𝑞𝑖 に対して、フィルタリング済みの推論パスを最大で 𝑝個（本研究では 𝑝 = 5）ランダムに選択し、ファインチューニングを実施する。

© NTT, Inc. 2025 12 評価実験: データセット • In-domain評価&訓練用データセット •
数学的推論: GSM8K、NumGLUE • 論理的推論: ReClor • 常識的推論: ARC (Challengeサブセット: ARC-c)、StrategyQA • Out-of-Domain評価用データセット • 数学的推論: ASDIV, SVAMP, AQUA-RAT • 論理的推論: BIG-Bench Hard (BBH) • 自然言語推論 (NLI): Adversarial NLI (ANLI; A2, A3サブセット) • 常識的推論: OpenBookQA

© NTT, Inc. 2025 13 評価実験: 推論パス生成とベースモデル • 推論パス生成 •
Mistral-7B-Instruct-v0.3（temperature=0.85） • 各質問ごとに25種類の推論パスを生成し、1質問あたり最大 𝑝 = 5種類の推論パスをランダムに抽出 • ベースモデル • Mistral-7B-Instruct-v0.3 › フルファインチューニング（学習率1e-6、3エポック、バッチサイズ16） • Llama-3-8B-Instruct › LoRAチューニング（学習率1e-4、3エポック、バッチサイズ8）

© NTT, Inc. 2025 14 評価実験: ベースラインと評価手法 • ベースライン手法 •
w/o FT: ファインチューニングなし • FT w/ GT : QAペアのみでファインチューニング（推論パスは学習せず） • LMSI、STaR • LMSI w/ GT: LMSI + フィルタリングをGround Truthによるフィルタに置き換え • 評価は2種類の方法でexact matchで正誤判定。 • CoT Prompting: temperature=0.8で回答をステップバイステップで1回出力 • Self-Consistency: CoTの15回の出力に対して多数決（Self-Consistency）で回答決定

© NTT, Inc. 2025 15 実験結果: In-Domain • w/o FT（ファインチューニングなし）と比較して、平均16.56%の大幅な性能向上を達成した。
• LMSIやSTaRも性能向上を示したものの、ReGenesisには及ばず。 • ReGenesisが生成する推論パスの質と多様性が優れていた可能性が高い。

© NTT, Inc. 2025 16 実験結果: Out-of-Domain • ReGenesisはすべてのベースラインを上回り、ファインチューニングなしのモデルと比較して平均6.1%の性能向上を達成
• 著者曰く「Reasoning Generalist になった」

© NTT, Inc. 2025 17 実験結果: Out-of-Domain • STaRやLMSI w/
GTといった既存の自己改善手法は平均で約4.6%の性能低下 • 訓練データと類似したOODタスク（例: NumGLUEで訓練→SVAMPで評価）では僅かに向上 • 関連性の低いタスク（例: NumGLUEで訓練→OpenBookQAで評価）では著しく低下

© NTT, Inc. 2025 18 考察: 合成ステップのAblation Study • Guidance
Adaptation、 Reasoning Structure Generationの有無による性能の変化を比較した。 • Guidance Adaptationを省略しても、Reasoning Structure Generationを省略してもIn-Domain、 Out-of-Domainの両方で性能が大幅に低下した。 • 3段階のプロセス全てが、ReGenesisの有効性に不可欠である。 A: Guidance Adaptation S: Reasoning Structure Generation P: Reasoning Path Generation

© NTT, Inc. 2025 19 考察: フィルタリングのAblation Study • Self-Consistencyの有無による性能を比較
• ReGenesisはSelf-Consistencyによるフィルタリングを行っても、同じくSelf-Consistency を行うLMSIを上回った。 • ReGenesisが生成する推論パスの多様性が高く、多数決の信頼性が向上した可能性。 ⇒ Ground Truthがないデータセットに対してもReGenesisは有効

© NTT, Inc. 2025 20 考察: ベースモデルによる違い • ReGenesisは高性能なモデルにも有効か？ •
Meta-Llama-3-8B-InstructへのLoRAチューニングで検証 • NumGLUEの性能は58.9%から79.2%に向上 • 6つのOODタスクにおいても平均6.46%の性能向上 • STaRは3つのデータセットで性能が低下 ⇒ReGenesisは特定のモデルに依存せず、高度なLLMにも有効。

© NTT, Inc. 2025 21 考察: モデルごとの推論の好みの違い • Mistral-7B、 Llama-3-8B-Instruct（ともにFTなし）ごとに、
NumGLUEデータセットの各問題に対して25のシードプロンプトを与えたときの成功率を正規化し、差が大きいガイドラインを抜粋した。 • ベースのLLMによって25種類の推論ガイドラインに対する好みが異なることがわかった。 • Mistral-7Bは「7. システム思考」を好む › Consider the problem as part of a larger system and understanding the interconnectedness of various elements. • Llama-3-8B-Instructは「21. ステップバイステップで考える」の成功率が比較的高い › Let’s think step by step.

© NTT, Inc. 2025 22 考察: タスク非依存の推論戦略の有無 • ReGenesisおよびSTaRのそれぞれで生成された推論パスに汎用的な推論戦略が活かされているかを検証した。
1. NumGLUE訓練データセットから、ReGenesisとSTaRが生成した推論パスをそれぞれ500個ずつランダムサンプル 2. 合計1000個の各推論パスについて、 Mistral-7B-Instruct-v0.3を使って、各推論パスの背景にあると考えられるタスク非依存の推論戦略にタイトルを付与 3. 得られたタイトルをクラスタリングし、クラスター名を付与

© NTT, Inc. 2025 23 考察: タスク非依存の推論戦略の有無 • STaRの場合 •
クラスタ数が少なく、「直接計算」や「ステップバイステップ計算」といった単純な推論戦略しか確認されなかった。 › Cluster 1: Direct Calculation and Simplification › Cluster 2: Algebraic and Formula-based Approaches › Cluster 3: Stoichiometry and Chemical Reactions › Cluster 4: Problem Decomposition and Step-by-Step Calculation › Cluster 5: Logical Reasoning and Pattern Recognition

© NTT, Inc. 2025 24 考察: タスク非依存の推論戦略の有無 • ReGenesisの場合 •
「前提の問い直しと批判的思考」「体系的思考」「内省的思考」といった、多様かる高度な推論戦略が確認された。 › Cluster 1: Step-by-Step Process › Cluster 2: Applying Logic and Formulas › Cluster 3: Reflective Thinking › Cluster 4: Sequential and Chronological Analysis › Cluster 5: Information Extraction › Cluster 6: Problem Decomposition › Cluster 7: Systematic Thinking › Cluster 8: Questioning Assumptions and Critical Thinking › Cluster 9: Mathematical and Analytical Calculation › Cluster 10: Stoichiometry and Chemical Problem Solving

© NTT, Inc. 2025 25 まとめ • 推論パスの収集において、Out-of-Domainタスクでも性能が低下しない自己改善手法（self-synthesizing）として ReGenesis
を提案した。 • 推論パス合成時に、シードプロンプトとして25種類の汎用的な思考戦略のガイドラインを用いて、多様かつ汎用性の高い推論パスを合成する。 • 6つのIn-domainタスクとOut-of-Domainタスクにおいて、STaRやLMSIなどの既存の自己改善手法とは異なり、性能が向上することを確認した。

論文紹介: ReGenesis: LLMs can Grow into Reasoning G...

論文紹介: ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement

Hisao Katsumi

Other Decks in Research

Featured

Transcript

© NTT, Inc. 2025 第17回最先端NLP勉強会 2025 論文紹介 ReGenesis: LLMS

© NTT, Inc. 2025 1 メタ情報・概要 • メタ情報 • タイトル:

© NTT, Inc. 2025 2 データ合成フロー概要 1. シードとなるQを準備（既存のQAデータセットなどから） • Question:

© NTT, Inc. 2025 3 背景と課題 • LLMの推論性能は、推論パスを学習させることで向上する。 • 推論パス

© NTT, Inc. 2025 4 既存手法: STaR [Zelikman et al.,

© NTT, Inc. 2025 5 既存手法: LMSI [Huang et al.,

© NTT, Inc. 2025 6 提案手法: ReGenesis • 「抽象から具体へ」と段階的に思考を発展させることで、多様かつ汎用的な推論パスを自己生成する

© NTT, Inc. 2025 7 Guidance Adaptation • タスクに依存しない25種類の汎用的なシードプロンプトをもとに、汎用的な戦略を生成

© NTT, Inc. 2025 8 Reasoning Structure Generation • Guidance

© NTT, Inc. 2025 9 Reasoning Path Generation • Reasoning

© NTT, Inc. 2025 10 フィルタリング（1/2） • 自己生成された推論パスには誤りが含まれる可能性があるため、高品質なものだけを学習に用いるフィルタリングが必要。 •

© NTT, Inc. 2025 11 フィルタリング（2/2） • フィルタリングによって有用なパスが残らなかったタスクでは再生成を行う。 • 推論パス生成の最初の2ステップ（Guidance

© NTT, Inc. 2025 12 評価実験: データセット • In-domain評価&訓練用データセット •

© NTT, Inc. 2025 13 評価実験: 推論パス生成とベースモデル • 推論パス生成 •

© NTT, Inc. 2025 14 評価実験: ベースラインと評価手法 • ベースライン手法 •

© NTT, Inc. 2025 15 実験結果: In-Domain • w/o FT（ファインチューニングなし）と比較して、平均16.56%の大幅な性能向上を達成した。

© NTT, Inc. 2025 16 実験結果: Out-of-Domain • ReGenesisはすべてのベースラインを上回り、ファインチューニングなしのモデルと比較して平均6.1%の性能向上を達成

© NTT, Inc. 2025 17 実験結果: Out-of-Domain • STaRやLMSI w/

© NTT, Inc. 2025 18 考察: 合成ステップのAblation Study • Guidance

© NTT, Inc. 2025 19 考察: フィルタリングのAblation Study • Self-Consistencyの有無による性能を比較

© NTT, Inc. 2025 20 考察: ベースモデルによる違い • ReGenesisは高性能なモデルにも有効か？ •

© NTT, Inc. 2025 21 考察: モデルごとの推論の好みの違い • Mistral-7B、 Llama-3-8B-Instruct（ともにFTなし）ごとに、

© NTT, Inc. 2025 22 考察: タスク非依存の推論戦略の有無 • ReGenesisおよびSTaRのそれぞれで生成された推論パスに汎用的な推論戦略が活かされているかを検証した。

© NTT, Inc. 2025 23 考察: タスク非依存の推論戦略の有無 • STaRの場合 •

© NTT, Inc. 2025 24 考察: タスク非依存の推論戦略の有無 • ReGenesisの場合 •

© NTT, Inc. 2025 25 まとめ • 推論パスの収集において、Out-of-Domainタスクでも性能が低下しない自己改善手法（self-synthesizing）として ReGenesis