LLMのテスト時計算最適化に関する研究

Slide 1

Slide 1 text

LLM のテスト時計算最適化に関する研究スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1

Slide 2

Slide 2 text

目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5. 検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2

Slide 3

Slide 3 text

想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3

Slide 4

Slide 4 text

用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4

Slide 5

Slide 5 text

1. Introduction (1/2) 研究の背景と目的テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 - 既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5

Slide 6

Slide 6 text

1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い簡単な問題：逐次的なリビジョンが効果的 - 難しい問題：並列サンプリングと探索の組み合わせが効果的 - 2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性一部のケースで事前学習よりも効率的であることを実証 - 6

Slide 7

Slide 7 text

2. テスト時計算の統一的視点テスト時計算とは 2 つの主要アプローチ LLM が推論（inference ）時に追加的に実行する計算処理のこと ▶ 1. 提案分布の修正入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7

Slide 8

Slide 8 text

3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定計算最適化の要素与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整 ▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8

Slide 9

Slide 9 text

3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類 - 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度：正解情報に基づく分類 - モデル予測難易度：検証器スコアに基づく分類 - 3. 実用的考慮事項計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9

Slide 10

Slide 10 text

4. 実験設定データセット選択ベースモデル MATH ：高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 - 500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10

Slide 11

Slide 11 text

5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良回答集約の最適化クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 - ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11

Slide 12

Slide 12 text

5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 - 基本的なベースライン手法 - 2. ビーム探索ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12

Slide 13

Slide 13 text

分析結果低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13

Slide 14

Slide 14 text

6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け - 最大4 つの前回回答の参照 - 2. データ生成方法並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14

Slide 15

Slide 15 text

6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択 - コンテキストウィンドウのスライディング - 2. 効果分析逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15

Slide 16

Slide 16 text

7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変 - 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法事前学習：6ND_pretrain - 推論時：2ND_inference - R 値による比較シナリオ設定 - 16

Slide 17

Slide 17 text

7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題テスト時計算が事前学習より効率的 - R<<1 の場合に特に顕著な優位性 - 2. 難しい問題事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17

Slide 18

Slide 18 text

8. 議論と今後の課題本研究の主要な成果問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶ 18

Slide 19

Slide 19 text

今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19

Slide 20

Slide 20 text

まとめ主要な貢献実践的な意義テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋 ▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20