$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
Search
SuperHotDog
January 09, 2025
0
94
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
SuperHotDog
January 09, 2025
Tweet
Share
More Decks by SuperHotDog
See All by SuperHotDog
Dockerの裏側を攻める
superhotdogcat
0
6
SigLIP
superhotdogcat
1
97
post-training
superhotdogcat
3
600
大規模モデル計算の裏に潜む 並列分散処理について
superhotdogcat
1
58
オンプレソロプレイ
superhotdogcat
0
78
CUDAを触ろう
superhotdogcat
0
110
GemmaでRAG を作ろう
superhotdogcat
1
620
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Git: the NoSQL Database
bkeepers
PRO
432
66k
The Cult of Friendly URLs
andyhume
79
6.7k
Faster Mobile Websites
deanohume
310
31k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.8k
GraphQLの誤解/rethinking-graphql
sonatard
73
11k
Making the Leap to Tech Lead
cromwellryan
135
9.7k
Six Lessons from altMBA
skipperchong
29
4.1k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
How STYLIGHT went responsive
nonsquared
100
6k
How to train your dragon (web standard)
notwaldorf
97
6.4k
Transcript
Unified Memoryを活⽤した効 率的な計算⽅法を考えよう SuperHotDogCat
宣伝: GB10 NVIDIA Project DIGITS(3000$)
親の顔より⾒たエラー
何故起きるのか ・GPUメモリが⾜り ない →複数枚積めばいい のか?
パラメーター数遷移 • AI Modelのパラメー ターは指数関数的に増 加中
VRAMは? ・V100 32GB(2017) ・A100 80GB(2020) ・H100 80GB(2022) ・H200 141GB(2024) ・B200
180GB/192GB(2024) ・1B Model → float32で4GB, fullでの訓練はAdam Optimizerで 16倍ぐらいになるので64GB必要 ・100B Modelで6.4TBのGPU必要 ・1T Modelだと640TB, 苦しい
省メモリへのアプローチ ・量⼦化(1/2~1/4倍削減), 枝刈り(1/2倍削減程度)←精度劣化が 避けられない, 枝刈りは推論のみでしか使えない(Edgeデバイス では依然として重要) ・アルゴリズム的な削減 ・再計算(Gradient Checkpointing) ・Flash
attention ↑厳密計算かつメモリ削減でGood ・複数台に分散 ・Megatron-LM, Deepspeedなどが開発ではよく使われる
Heterogenious Memory ・GPUだけではなくCPUも使おう ・GH200 ・CPUとGPUのPage tableが共通 ・GPUメモリをCPUのように使⽤ ・最⼤でGPU+CPUの96+480GBが使 える ・買うGPUの枚数が少なくて済む
問題点 ・ソフトウェア上はGPUとCPUのメモリが同じように使える ・物理メモリ的にどこに割り当てられているかで速度低下などが 起きる←速度向上のためにGPUを使うのだから本末転倒 ・頑張って両⽴する
宣伝: GB10 NVIDIA Project DIGITS(3000$)