Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報処理学会-全国大会2024-大規模言語モデルの分散並列学習
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Kazuki Fujii
December 14, 2025
Research
0
18
情報処理学会-全国大会2024-大規模言語モデルの分散並列学習
Kazuki Fujii
December 14, 2025
Tweet
Share
More Decks by Kazuki Fujii
See All by Kazuki Fujii
IHPCSS2025-Kazuki-Fujii
fujiikazuki2000
0
16
2024-02-Tokyo-Tech-大規模言語モデルの事前学習知見
fujiikazuki2000
0
27
言語処理学会2024-継続事前学習による日本語に強い大規模言語モデルの構築
fujiikazuki2000
0
29
AWS Summit Japan 2025 Amazon SageMaker HyperPodを利用した日本語LLM(Swallow)の構築 (CUS-02)
fujiikazuki2000
0
31
合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上
fujiikazuki2000
1
280
論文では語られないLLM開発において重要なこと Swallow Projectを通して
fujiikazuki2000
8
1.9k
大規模言語モデルの学習知見
fujiikazuki2000
0
190
自然言語処理のための分散並列学習
fujiikazuki2000
1
660
Other Decks in Research
See All in Research
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2k
Ankylosing Spondylitis
ankh2054
0
150
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
350
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
1.8k
2026年3月1日(日)福島「除染土」の公共利用をかんがえる
atsukomasano2026
0
470
CyberAgent AI Lab研修 / Social Implementation Anti-Patterns in AI Lab
chck
6
4.1k
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
6
1.6k
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
410
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
3
180
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1.2k
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
170
量子コンピュータの紹介
oqtopus
0
250
Featured
See All Featured
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
450
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
210
Site-Speed That Sticks
csswizardry
13
1.1k
Art, The Web, and Tiny UX
lynnandtonic
304
21k
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.2k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
How to make the Groovebox
asonas
2
2k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
140
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
2.5k
Faster Mobile Websites
deanohume
310
31k
How STYLIGHT went responsive
nonsquared
100
6k
Transcript
大規模言語モデルの分散並列学習 東京工業大学 藤井一喜 横田理央 5J-02
2 概要 • Llama 2をベースに日本語コーパスで継続事前学習 • 7B, 13B, 70B のモデル規模にて分散並列学習
• メモリ効率化のための工夫を行った3D Parallelism
3 継続事前学習 Meta Llama 2 Swallow Swallow Corpus
4 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters
gradients optimizer states 2p + 2p + 12p = 16p 必要 注意: activation、中間層の出力、バッチデータ、memory fragmentation などあるため、これだけではない
5 学習時に必要なメモリ (backward時) FP16/FP32 Mixed Precison p = parameter数 parameters
gradients optimizer states 2p + 2p + 12p = 16p + α 必要 → 1つのGPUで学習するのは不可能 → 分散学習
6 分散学習 大規模言語モデルの学習には様々な分散並列化手法がある Data Parallel(=DP) Tensor Parallel(=TP) Pipeline Parallel(=PP)
7 分散学習設定 3D Parallelism (DP, TP, PP)を利用 メモリ効率化のために以下を採用 • SP:
Sequence Parallelism • Distributed Optimizer (DeepSpeed ZeRO Stage1相当)
8 なぜ3D Parallelismなのか 3D ParallelismとFSDPの比較 3D Parallelism FSDP Llama 2
7B 134 TFLOPS/GPU 134 TFLOPS/GPU Llama 2 13B 143 TFLOPS/GPU 135 TFLOPS/GPU Llama 2 70B 158 TFLOPS/GPU 87 TFLOPS/GPU
9 効率的なメモリ消費 (Distributed Optimizer) データ並列 Distributed Optimizer GPU: 1 GPU:
2 GPU: 3 GPU: 1 GPU: 1 GPU: 2 GPU: 3 3D Parallelism + Distributed Optimizer optimizer states optimizer states optimizer states Gradinets optimizer states Gradinets Gradinets Parameters Parameters Parameters
10 トポロジーを考慮した3Dマッピング TP → DP → PP の順に配置 必要な通信量を考慮 TPは大量のAll
Reduce →Tensor Parallel をノード内 Pipeline ParallelはP2P通信 → ノード間 Microsoft Research Blogより
11 学習曲線
12 TFLOPS Swallow Project における TFLOPS Megatron-LM GPT-3 (175B) 51.4
% (=160TFLOPS)
補足資料
14 言語モデルの評価結果 日本語タスク平均スコア
15 学習トークンに対するスケール性
16 学習ライブラリ 1. 3D Parallelism をサポート 2. Llamaアーキテクチャに対応 3. HF
→ Megatron 変換コードあり 詳細 ↓
17 ABCI環境 1 Interconnect InfiniBand HDR 200Gbps x 4 Intranode
NVLink
18 ABCI環境 2 A100 SXM4 PLX PCIe IB HDR PLX
A100 SXM4 IB HDR IB Switch PCIe
19 ABCI環境 3 学習に使用したAノード(A100)は フルバイセクションバンド幅のFat Tree → 通信帯域幅のボトルネックは解消されている FSDP <
3D Parallelism であることは変わりないがABCIの環境では FSDPでも致命的に遅くはならない