Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMのテスト時計算最適化に関する研究
Search
ymgc
January 12, 2025
Technology
0
69
LLMのテスト時計算最適化に関する研究
ymgc
January 12, 2025
Tweet
Share
More Decks by ymgc
See All by ymgc
予測する心 - 知覚と行為の統一理論
__ymgc__
0
84
テスト駆動開発(TDD)入門
__ymgc__
0
100
AI に特化した品質特性のテスト
__ymgc__
1
74
AIを活用したソフトウェアテスト技術 - ISTQB Foundation Level - AI Testing (CT-AI)
__ymgc__
1
90
Machines of Loving Grace - AIはどのように世界をより良く変えるか -
__ymgc__
1
90
ファシリテーションの技術
__ymgc__
2
110
(論文読み)BigCodeBench: 多様な関数呼び出しと複雑な指示を用いたコード生成のベンチマーキング
__ymgc__
1
98
(論文読み)Very Large-Scale Multi-Agent Simulation in AgentScope
__ymgc__
1
120
7 POWERS
__ymgc__
1
65
Other Decks in Technology
See All in Technology
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
370
「何となくテストする」を卒業するためにプロダクトが動く仕組みを理解しよう
kawabeaver
0
230
ここ一年のCCoEとしてのAWSコスト最適化を振り返る / CCoE AWS Cost Optimization devio2025
masahirokawahara
1
1.5k
Codeful Serverless / 一人運用でもやり抜く力
_kensh
6
310
Nstockの一人目エンジニアが 3年間かけて向き合ってきた セキュリティのこととこれから〜あれから半年〜
yo41sawada
0
210
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
oracle4engineer
PRO
4
9.9k
ヘブンバーンズレッドにおける、世界観を活かしたミニゲーム企画の作り方
gree_tech
PRO
0
570
「魔法少女まどか☆マギカ Magia Exedra」での負荷試験の実践と学び
gree_tech
PRO
0
620
なぜテストマネージャの視点が 必要なのか? 〜 一歩先へ進むために 〜
moritamasami
0
170
AI時代に非連続な成長を実現するエンジニアリング戦略
sansantech
PRO
3
1.1k
AI開発ツールCreateがAnythingになったよ
tendasato
0
110
Vault を基盤として整備し、 みんなに使ってもらえるようになるまで
takahiko
1
110
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
525
40k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Documentation Writing (for coders)
carmenintech
74
5k
Become a Pro
speakerdeck
PRO
29
5.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
840
Site-Speed That Sticks
csswizardry
10
810
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Faster Mobile Websites
deanohume
309
31k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Making Projects Easy
brettharned
117
6.4k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
Transcript
LLM のテスト時計算最適化に関する研究 スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be
More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1
目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5.
検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2
想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3
用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward
Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4
1. Introduction (1/2) 研究の背景と目的 テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 -
既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5
1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い 簡単な問題:逐次的なリビジョンが効果的 - 難しい問題:並列サンプリングと探索の組み合わせが効果的 -
2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性 一部のケースで事前学習よりも効率的であることを実証 - 6
2. テスト時計算の統一的視点 テスト時計算とは 2 つの主要アプローチ LLM が推論(inference )時に追加的に実行する計算処理のこと ▶ 1.
提案分布の修正 入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正 複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7
3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定 計算最適化の要素 与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整
▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8
3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類
- 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度:正解情報に基づく分類 - モデル予測難易度:検証器スコアに基づく分類 - 3. 実用的考慮事項 計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9
4. 実験設定 データセット選択 ベースモデル MATH :高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 -
500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10
5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良 回答集約の最適化 クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 -
ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11
5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 -
基本的なベースライン手法 - 2. ビーム探索 ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12
分析結果 低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13
6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計 誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け -
最大4 つの前回回答の参照 - 2. データ生成方法 並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14
6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細 逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択
- コンテキストウィンドウのスライディング - 2. 効果分析 逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15
7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク 総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変
- 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法 事前学習:6ND_pretrain - 推論時:2ND_inference - R 値による比較シナリオ設定 - 16
7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題 テスト時計算が事前学習より効率的 - R<<1
の場合に特に顕著な優位性 - 2. 難しい問題 事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆 完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17
8. 議論と今後の課題 本研究の主要な成果 問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶
18
今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価
計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望 反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19
まとめ 主要な貢献 実践的な意義 テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋
▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20