Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介:Not All Tokens Are What You Need for Pretr...
Search
Kosuke Nishida
August 21, 2025
Research
270
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
論文紹介:Not All Tokens Are What You Need for Pretraining
Kosuke Nishida
August 21, 2025
More Decks by Kosuke Nishida
See All by Kosuke Nishida
⼤規模⾔語モデルとVision-and-Language
kosuken
6
2.4k
論文紹介:What Learning Algorithm is In-Context Learning?Investigation with Linear Models
kosuken
0
1.1k
論文紹介: Memorisation versus Generalisation in Pre-trained Language Models
kosuken
2
1.3k
Other Decks in Research
See All in Research
羽田新ルート運用6年の検証
1manken
0
160
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
SAKURAONE:An Open Ethernet-based AI HPC System And Its Observed Workload Dynamicsin a Single-Tenant LLM Development Environment
yuukit
1
320
コーディングエージェントとABNを再考
hf149
2
710
LLMアプリケーションの透明性について
fufufukakaka
0
230
Ankylosing Spondylitis
ankh2054
0
170
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
520
敵対生成プロンプト同時探索による内省型プロンプト最適化
kinoue_smarthr
0
180
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
190
(SIGQS17) Frasco-VS:フラグメントに基づく薬剤候補化合物選抜の量子アニーリングによる実現
keisukeyanagisawa
PRO
0
110
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
7
4.6k
LINEヤフー データサイエンス Meetup「三井物産コモディティ予測チャレンジ」の舞台裏-AlpacaTechパート
gamella
1
570
Featured
See All Featured
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
310
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Believing is Seeing
oripsolob
1
140
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
190
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
Ruling the World: When Life Gets Gamed
codingconduct
0
250
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
10k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
420
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
200
Transcript
© NTT, Inc. 2025 紹介者:西田光甫(NTT人間研) 最先端NLP勉強会2025
© NTT, Inc. 2025 1 • 背景 • 提案手法 •
実験 • まとめ 目次
© NTT, Inc. 2025 2 背景
© NTT, Inc. 2025 3 本研究の動機と目的 • LLMの事前学習において,全データの活用が常に最適・実行可能とは限らない • 文書レベルのデータフィルタリングは有効だが,なおノイズが残る
• 強すぎるフィルタリングは有効なデータを削除してしまう • webから集めたデータは下流タスクにおける理想的な分布と乖離 →全てのトークンに同じ損失を割り当てることは非効率的なのでは?
© NTT, Inc. 2025 4 本研究の提案と貢献 • 事前学習中に損失を計算するトークンを選抜するSelective Language Modeling
(SLM)を提案 • 簡単・難しいトークンは学習対象から除き,学習する価値のあるトークンだけを学習したい
© NTT, Inc. 2025 5 事前実験 Tinyllama-1BをOpenWebMath15B tokensで継続事前学習 (a) 評価セット中のトークンを損失の変化で4カテゴリに分類できる
• Lossが上がるトークンが12%も存在 (b, c) カテゴリ内でトークンごとに可視化すると,振動し続け収束しない 重要なトークンだけに注目することで,学習を安定させられないか?
© NTT, Inc. 2025 6 提案手法
© NTT, Inc. 2025 7 提案手法概要 Required: 学習対象モデル𝑀, 高品質データ𝐷𝑞, 大規模データ𝐷
1. モデル𝑀を𝐷𝑞 を用いたCausal Language Modelingで訓練し,Referenceモデル (RM)を得る 2. モデル𝑀を𝐷を用いたSelective Language Modelingで訓練し,学習したモデル を出力する
© NTT, Inc. 2025 8 Selective Language Modeling 損失関数: 学習対象トークン決定方法:
スコア計算方法: 𝑘%の平均 学習対象 token? Cross-Entropy Loss in Causal Language Modeling 上位𝑘%のみ学習(大きい方を学習) 学習中モデルの Loss Referenceモデルの Loss 学習する価値のあるトークンだけを学習
© NTT, Inc. 2025 9 実験
© NTT, Inc. 2025 10 実験設定・データ • 数学ドメイン • 高品質データ:数学Instruction-Tuningデータセット混合(0.5B
tokens) • 学習コーパス:OpenWebMath (14B tokens) • 評価ベンチマーク:math-evaluation-harness • 一般ドメイン • 高品質データ:Tulu-v2 + OpenHermes-2.5(1.9B tokens) • 学習コーパス:SlimPajama + StarCoderData + OpenWebMath (80B tokens) • 評価ベンチマーク:lm-evaluation-harness [所感] 高品質データがInstruction-Tuning用データなので,Instruction-Tuningに 近い事前学習をする効果?
© NTT, Inc. 2025 11 実験設定・その他 • 学習対象モデル • Tinyllama-1.1B
• Mistral-7B • トークン選択率𝑘 • 60% for Tinyllama-1.1B • 70% for Mistral-7B • ベースラインモデル • 提案手法を用いずに継続事前学習したモデル(CT) • 市中LLM
© NTT, Inc. 2025 12 結果・数学 x ベースモデル • few-shot
CoTとして評価 • CTと比較して性能が向上 • Epochを増やして学習を続けた場合,1B級のモデルで最高性能を達成
© NTT, Inc. 2025 13 結果・数学 x ベースモデル • few-shot
CoTとして評価 • CTと比較して性能が向上 • [所感] 複数Epoch結果がないが,7Bに限界があるというよりDeepSeekMath7B との対決を避けた?
© NTT, Inc. 2025 14 結果・数学 x ITモデル • ToRAデータセット(GSM8k,
MATHをtoolを利用して解くITデータセット)で SFTしたモデルを評価 • 未知ベンチマークへの汎化を含めてCTを上回る • 学習済ベンチマークに対しては最高性能モデルに匹敵
© NTT, Inc. 2025 15 結果・一般 x ベースモデル • few-shot
CoTとして評価 • 元モデル・CTモデルを上回る • 特にmath, codeベンチマークで顕著に向上 • [所感] SLMにはmath, codeに強い性質があるのかも?
© NTT, Inc. 2025 16 実験設定・Self-Reference • 特定の目標タスクが存在しない現実的な設定の実験も行った • 𝐷𝑞
= 𝐷 = OpenWebMath • 𝐷𝑞 =OpenWebMath, 𝐷 =Proof-Pile2 • ノイズ除去としての役割に期待 • [所感] 一般ドメインでやらないとRQに答えられないのでは? • 学習対象トークンの決定方法を3パターン実験 • Reference ModelのCross-Entropy(デフォルト) • Reference ModelのEntropy(ランダムに近いものは学習しない) • 上記2つそれぞれで決定したトークンのintersection
© NTT, Inc. 2025 17 結果・Self-Reference • 目標タスクを設定しない場合でもSLMは有効 • 2指標のIntersectionを取ることは有効
• Reference Modelを訓練するデータは大規模でなくてもよい
© NTT, Inc. 2025 18 SLM損失と下流タスク性能の関連性は? 1/2 学習中の各checkpointに対して,(un)selected tokenの事前学習validation set
における損失(a, c)と下流タスクにおける損失 (b)を図示 (a) Selected tokenの損失は順調に下がる (b) Selected tokenの損失が下がるにつれて下流タスクの損失も下がる (c) その間Unselected tokenの損失は上がる
© NTT, Inc. 2025 19 SLM損失と下流タスク性能の関連性は? 2/2 (様々なモデルサイズで?)checkpointごとの 事前学習損失と下流タスク性能の 関係を図示
• Selected/Unselected tokensの損失と下流タスク性能はpositive/negativeの関係 • そのため,全tokenを訓練する通常の事前学習は最適ではない • [所感] 前ページ (c) もだが,完全に無関係ではなく負の関係があるのが面白い. モデルにある程度のキャパシティ限界が存在?
© NTT, Inc. 2025 20 どんなトークンが選ばれる? • mathドメインでのSLM中に選ばれたトークン.math関連のトークンが多い
© NTT, Inc. 2025 21 まとめ
© NTT, Inc. 2025 22 Limitation・所感 1/3 • Reference Model
(RM)を訓練するデータをどう決定するかが重要 • mathデータでRMを作ってmathデータで評価,ITデータでRMを作ってbase modelのまま評価, で向上するのは当然に思える › ITデータでRMを作成・SLMした後に,十分なITデータセットでFine-Tuningしてから 評価しても有効なのか? • 一般ドメインでRMを訓練てもmath, codeに関して性能向上が大きい.なぜ? • 目的ドメインが決定しているドメイン適応の文脈では有用そう • 一般的な事前学習の文脈でどうRMを訓練するとよいか,が重要なfuture work • RMとして巨大モデルを使うのでは不十分?
© NTT, Inc. 2025 23 Limitation・所感 2/3 • tokenを厳選することで高性能なモデルを実現できる,のRQは面白い. が,計算効率を向上させるわけではないことに注意
• Reference Modelの学習・推論が必要.Backward計算もほとんど減らない • Unselected tokenの損失が上がっていくのが面白い • なんらかの理由でselected tokenで下げるときにはunselected tokenは上がらざるをえない? • なんとかできないか?なんとかすることに意味はあるのか? • Scaling Lawとの関連 • トークンを厳選することで性能が上がるなら,Scaling Lawで知られるトークン数と性能の関係 の裏には真に考慮すべき要因がある?
© NTT, Inc. 2025 24 Limitation・所感 3/3 • SLMの使い方はトークン選択でいいのか? •
連続的reweighting, Reward Model, 複数Reference Model. 反復的SLM • SLMの適用先は事前学習だけか? • fine-tuning, multi-modal pre-training • 大規模な設定でも有効か? • モデルサイズ,コーパスサイズ