Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
LLMのテスト時計算最適化に関する研究
Search
ymgc
January 12, 2025
Technology
0
73
LLMのテスト時計算最適化に関する研究
ymgc
January 12, 2025
Tweet
Share
More Decks by ymgc
See All by ymgc
予測する心 - 知覚と行為の統一理論
__ymgc__
0
87
テスト駆動開発(TDD)入門
__ymgc__
0
100
AI に特化した品質特性のテスト
__ymgc__
1
76
AIを活用したソフトウェアテスト技術 - ISTQB Foundation Level - AI Testing (CT-AI)
__ymgc__
1
94
Machines of Loving Grace - AIはどのように世界をより良く変えるか -
__ymgc__
1
92
ファシリテーションの技術
__ymgc__
2
110
(論文読み)BigCodeBench: 多様な関数呼び出しと複雑な指示を用いたコード生成のベンチマーキング
__ymgc__
1
100
(論文読み)Very Large-Scale Multi-Agent Simulation in AgentScope
__ymgc__
1
120
7 POWERS
__ymgc__
1
68
Other Decks in Technology
See All in Technology
GC25 Recap+: Advancing Go Garbage Collection with Green Tea
logica0419
1
400
生成AI_その前_に_マルチクラウド時代の信頼できるデータを支えるSnowflakeメタデータ活用術.pdf
cm_mikami
0
110
SwiftUIのGeometryReaderとScrollViewを基礎から応用まで学び直す:設計と活用事例
fumiyasac0921
0
140
ユニットテストに対する考え方の変遷 / Everyone should watch his live coding
mdstoy
0
120
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
0
140
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
0
140
多野優介
tanoyusuke
1
420
10年の共創が示す、これからの開発者と企業の関係 ~ Crossroad
soracom
PRO
1
170
From Prompt to Product @ How to Web 2025, Bucharest, Romania
janwerner
0
120
Goに育てられ開発者向けセキュリティ事業を立ち上げた僕が今向き合う、AI × セキュリティの最前線 / Go Conference 2025
flatt_security
0
350
Trust as Infrastructure
bcantrill
0
320
Pure Goで体験するWasmの未来
askua
1
180
Featured
See All Featured
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Music & Morning Musume
bryan
46
6.8k
Making Projects Easy
brettharned
119
6.4k
Into the Great Unknown - MozCon
thekraken
40
2.1k
jQuery: Nuts, Bolts and Bling
dougneiner
64
7.9k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
850
Navigating Team Friction
lara
189
15k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.5k
How STYLIGHT went responsive
nonsquared
100
5.8k
Optimizing for Happiness
mojombo
379
70k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Transcript
LLM のテスト時計算最適化に関する研究 スケーリング方法の系統的分析 Scaling LLM Test-Time Compute Optimally can be
More Effective than Scaling Model Parameters https://arxiv.org/abs/2408.03314 1
目次 1. Introduction 2. テスト時計算の統一的視点 3. テスト時計算の最適なスケーリング方法 4. 実験設定 5.
検証器によるテスト時計算のスケーリング 6. 提案分布の改良 7. 事前学習とテスト時計算の交換 8. 議論と今後の課題 2
想定読者 LLM の性能改善に興味を持つ研究者・開発者 ▶ 計算資源の最適化に関心のあるML 実務者 ▶ テスト時計算と事前学習のトレードオフを検討する意思決定者 ▶ 3
用語 PRM (Process Reward Model): プロセス報酬モデル、解答過程の各ステップを評価 ▶ ORM (Outcome Reward
Model): 結果報酬モデル、最終結果のみを評価 ▶ FLOPs: 浮動小数点演算回数、計算量の指標 ▶ best-of-N: N 個の候補から最良を選択する手法 ▶ ビーム探索: 複数の候補を並行して探索する手法 ▶ MCMC: マルコフ連鎖モンテカルロ法 ▶ R 値: 推論/ 事前学習トークン比 ▶ テスト時計算: 推論時に追加的に行う計算処理 ▶ 提案分布: モデルが生成する確率分布 ▶ 4
1. Introduction (1/2) 研究の背景と目的 テスト時計算のメリット LLM に人間のような「より長く考える」能力を付与する必要性 ▶ テスト時の追加計算による精度向上の可能性 -
既存研究における矛盾する結果の存在 - 系統的な分析の必要性 - 小型モデルでデータセンター規模LLM と同等性能の実現 ▶ 人間の監督なしでの自己改善の可能性 ▶ オンデバイス推論の実現可能性 ▶ 5
1. Introduction (2/2) 本研究の主要な発見 1. 問題難易度による最適戦略の違い 簡単な問題:逐次的なリビジョンが効果的 - 難しい問題:並列サンプリングと探索の組み合わせが効果的 -
2. 計算効率の大幅な改善 best-of-N ベースラインと比べて4 倍の効率化を達成 - 3. テスト時計算の有効性 一部のケースで事前学習よりも効率的であることを実証 - 6
2. テスト時計算の統一的視点 テスト時計算とは 2 つの主要アプローチ LLM が推論(inference )時に追加的に実行する計算処理のこと ▶ 1.
提案分布の修正 入力トークンの追加によるLLM 条件付き分布の変更 - 自己批判や反復的な改善による分布の改良 - RL inspired 手法による最適化 - 2. 検証器による出力修正 複数候補のサンプリングと事後評価 - プロセスベースの報酬モデルを用いた探索 - MCMC サンプリングに類似したフレームワーク - 7
3. テスト時計算の最適なスケーリング方法 (1/2) 核心的な問題設定 計算最適化の要素 与えられたプロンプトと計算予算下での最適な計算資源配分 ▶ 問題難易度に応じた計算戦略の適応的選択 ▶ リビジョンと並列サンプリングの比率調整
▶ 探索アルゴリズムの選択 ▶ best-of-N - ビーム探索 - 先読み探索 - 検証器の使用方法の最適化 ▶ 8
3. テスト時計算の最適なスケーリング方法 (2/2) 問題難易度の評価方法 1. 5 段階の難易度分類システム base LLM の性能に基づく分類
- 問題特性の定量的評価 - 2. 難易度評価の2 つのアプローチ Oracle 難易度:正解情報に基づく分類 - モデル予測難易度:検証器スコアに基づく分類 - 3. 実用的考慮事項 計算コストと精度のトレードオフ - 動的な難易度評価の必要性 - 9
4. 実験設定 データセット選択 ベースモデル MATH :高校数学コンペレベルの問題セット ▶ 12,000 訓練問題 -
500 テスト問題 - 基礎知識よりも推論能力が要求される - PaLM 2-S* (Codey) ▶ 非自明な性能を示すが飽和していない - 現代のLLM の代表的な性能レベル - テスト時計算の効果測定に適した性能帯 - 10
5. 検証器によるテスト時計算のスケーリング (1/2) PRM 学習の改良 回答集約の最適化 クラウドワーカーラベルからの脱却 ▶ モンテカルロロールアウトの活用 -
ステップごとの正解確率推定 - ORM ベースラインを上回る性能を実現 ▶ ステップ単位の集約 ▶ 最終ステップのスコアを採用 - 回答間の集約 ▶ 重み付きbest-of-N 選択の導入 - 11
5. 検証器によるテスト時計算のスケーリング (2/2) 探索手法の詳細比較 1. best-of-N weighted N 個の独立サンプルから最良を選択 -
基本的なベースライン手法 - 2. ビーム探索 ステップごとにN 個のビームを維持 - 探索空間の効率的な絞り込み - 3. 先読み探索 k-step の先読みによる評価精度の向上 - 計算コストと精度のバランス - 12
分析結果 低計算予算での探索の有効性 ▶ 問題難易度による最適戦略の変化 ▶ 計算最適化による4 倍の効率化達成 ▶ 13
6. 提案分布の改良 (1/2) リビジョンモデルの学習アプローチ 1. 基本設計 誤答から正答へ至る軌跡でのモデル微調整 - 文字編集距離に基づく相関付け -
最大4 つの前回回答の参照 - 2. データ生成方法 並列サンプリングによる初期回答群の生成 - 編集距離に基づく誤答- 正答ペアの構築 - コンテキストサイズの動的調整 - 14
6. 提案分布の改良 (2/2) テスト時の利用方法と分析結果 1. 実装詳細 逐次的リビジョンチェーンの生成 - 多数決/ 検証器による最終回答選択
- コンテキストウィンドウのスライディング - 2. 効果分析 逐次的リビジョンと並列サンプリングの相補性 - 問題難易度による最適比率の変化 - 計算最適化による4 倍の効率改善 - 15
7. 事前学習とテスト時計算の交換 (1/2) 問題設定の詳細 1. 比較フレームワーク 総FLOPs 予算の固定 - パラメータ数固定、学習データ量可変
- 推論/ 事前学習トークン比(R) の分析 - 2. FLOPs 換算方法 事前学習:6ND_pretrain - 推論時:2ND_inference - R 値による比較シナリオ設定 - 16
7. 事前学習とテスト時計算の交換 (2/2) 主要な知見 1. 簡単/ 中程度の問題 テスト時計算が事前学習より効率的 - R<<1
の場合に特に顕著な優位性 - 2. 難しい問題 事前学習の方が効果的 - R>>1 でその傾向が強化 - 3. 総合的な示唆 完全な1:1 交換は不可能 - 問題特性に応じた使い分けの必要性 - 17
8. 議論と今後の課題 本研究の主要な成果 問題難易度に応じた計算最適化戦略の確立 ▶ 2-4 倍の計算効率改善の実証 ▶ テスト時計算の有効性と限界の明確化 ▶
18
今後の研究課題 1. 複数手法の統合 PRM ツリー探索とリビジョンの組み合わせ - 批評と改訂アプローチの統合 - 2. 効率的な難易度評価
計算コストの低減 - 動的な評価戦略の開発 - 3. 計算統合の展望 反復的な自己改善ループの実現 - テスト時計算出力の基本モデルへの蒸留 - 19
まとめ 主要な貢献 実践的な意義 テスト時計算の系統的な分析フレームワークの提案 ▶ 問題難易度に基づく計算最適化戦略の確立 ▶ テスト時計算と事前学習の交換可能性の実証 ▶ 小規模モデルの性能向上への道筋
▶ 計算資源の効率的な活用方法の提示 ▶ 自己改善システムへの応用可能性 ▶ 20