Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報処理学会-全国大会2024-大規模言語モデルの分散並列学習
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuki Fujii
December 14, 2025
Research
0
7
情報処理学会-全国大会2024-大規模言語モデルの分散並列学習
Kazuki Fujii
December 14, 2025
Tweet
Share
More Decks by Kazuki Fujii
See All by Kazuki Fujii
IHPCSS2025-Kazuki-Fujii
fujiikazuki2000
0
7
2024-02-Tokyo-Tech-大規模言語モデルの事前学習知見
fujiikazuki2000
0
15
言語処理学会2024-継続事前学習による日本語に強い大規模言語モデルの構築
fujiikazuki2000
0
16
AWS Summit Japan 2025 Amazon SageMaker HyperPodを利用した日本語LLM(Swallow)の構築 (CUS-02)
fujiikazuki2000
0
16
合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上
fujiikazuki2000
1
270
論文では語られないLLM開発において重要なこと Swallow Projectを通して
fujiikazuki2000
8
1.8k
大規模言語モデルの学習知見
fujiikazuki2000
0
160
自然言語処理のための分散並列学習
fujiikazuki2000
1
620
Other Decks in Research
See All in Research
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
240
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
250
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Can AI Generated Ambrotype Chain the Aura of Alternative Process? In SIGGRAPH Asia 2024 Art Papers
toremolo72
0
130
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
200
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
880
LiDARセキュリティ最前線(2025年)
kentaroy47
0
110
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
470
20年前に50代だった人たちの今
hysmrk
0
130
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1.3k
ACL読み会2025: Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
120
【NICOGRAPH2025】Photographic Conviviality: ボディペイント・ワークショップによる 同時的かつ共生的な写真体験
toremolo72
0
160
Featured
See All Featured
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.3k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
ラッコキーワード サービス紹介資料
rakko
1
2.2M
Being A Developer After 40
akosma
91
590k
Exploring anti-patterns in Rails
aemeredith
2
250
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
240
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Designing Experiences People Love
moore
144
24k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Transcript
大規模言語モデルの分散並列学習 東京工業大学 藤井一喜 横田理央 5J-02
2 概要 • Llama 2をベースに日本語コーパスで継続事前学習 • 7B, 13B, 70B のモデル規模にて分散並列学習
• メモリ効率化のための工夫を行った3D Parallelism
3 継続事前学習 Meta Llama 2 Swallow Swallow Corpus
4 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters
gradients optimizer states 2p + 2p + 12p = 16p 必要 注意: activation、中間層の出力、バッチデータ、memory fragmentation などあるため、これだけではない
5 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters
gradients optimizer states 2p + 2p + 12p = 16p + α 必要 → 1つのGPUで学習するのは不可能 → 分散学習
6 分散学習 大規模言語モデルの学習には様々な分散並列化手法がある Data Parallel(=DP) Tensor Parallel(=TP) Pipeline Parallel(=PP)
7 分散学習設定 3D Parallelism (DP, TP, PP)を利用 メモリ効率化のために以下を採用 • SP:
Sequence Parallelism • Distributed Optimizer (DeepSpeed ZeRO Stage1相当)
8 なぜ3D Parallelismなのか 3D ParallelismとFSDPの比較 3D Parallelism FSDP Llama 2
7B 134 TFLOPS/GPU 134 TFLOPS/GPU Llama 2 13B 143 TFLOPS/GPU 135 TFLOPS/GPU Llama 2 70B 158 TFLOPS/GPU 87 TFLOPS/GPU
9 効率的なメモリ消費 (Distributed Optimizer) データ並列 Distributed Optimizer GPU: 1 GPU:
2 GPU: 3 GPU: 1 GPU: 1 GPU: 2 GPU: 3 3D Parallelism + Distributed Optimizer optimizer states optimizer states optimizer states Gradinets optimizer states Gradinets Gradinets Parameters Parameters Parameters
10 トポロジーを考慮した3Dマッピング TP → DP → PP の順に配置 必要な通信量を考慮 TPは大量のAll
Reduce →Tensor Parallel をノード内 Pipeline ParallelはP2P通信 → ノード間 Microsoft Research Blogより
11 学習曲線
12 TFLOPS Swallow Project における TFLOPS Megatron-LM GPT-3 (175B) 51.4
% (=160TFLOPS)
補足資料
14 言語モデルの評価結果 日本語タスク平均スコア
15 学習トークンに対するスケール性
16 学習ライブラリ 1. 3D Parallelism をサポート 2. Llamaアーキテクチャに対応 3. HF
→ Megatron 変換コードあり 詳細 ↓
17 ABCI環境 1 Interconnect InfiniBand HDR 200Gbps x 4 Intranode
NVLink
18 ABCI環境 2 A100 SXM4 PLX PCIe IB HDR PLX
A100 SXM4 IB HDR IB Switch PCIe
19 ABCI環境 3 学習に使用したAノード(A100)は フルバイセクションバンド幅のFat Tree → 通信帯域幅のボトルネックは解消されている FSDP <
3D Parallelism であることは変わりないがABCIの環境では FSDPでも致命的に遅くはならない