Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
Search
SuperHotDog
January 09, 2025
0
86
研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう
SuperHotDog
January 09, 2025
Tweet
Share
More Decks by SuperHotDog
See All by SuperHotDog
SigLIP
superhotdogcat
1
79
post-training
superhotdogcat
3
580
大規模モデル計算の裏に潜む 並列分散処理について
superhotdogcat
1
52
オンプレソロプレイ
superhotdogcat
0
76
CUDAを触ろう
superhotdogcat
0
110
GemmaでRAG を作ろう
superhotdogcat
1
580
Featured
See All Featured
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.2k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Intergalactic Javascript Robots from Outer Space
tanoku
271
27k
Faster Mobile Websites
deanohume
308
31k
The Pragmatic Product Professional
lauravandoore
35
6.7k
BBQ
matthewcrist
89
9.7k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
Being A Developer After 40
akosma
90
590k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Thoughts on Productivity
jonyablonski
69
4.7k
Stop Working from a Prison Cell
hatefulcrawdad
271
21k
Building an army of robots
kneath
306
45k
Transcript
Unified Memoryを活⽤した効 率的な計算⽅法を考えよう SuperHotDogCat
宣伝: GB10 NVIDIA Project DIGITS(3000$)
親の顔より⾒たエラー
何故起きるのか ・GPUメモリが⾜り ない →複数枚積めばいい のか?
パラメーター数遷移 • AI Modelのパラメー ターは指数関数的に増 加中
VRAMは? ・V100 32GB(2017) ・A100 80GB(2020) ・H100 80GB(2022) ・H200 141GB(2024) ・B200
180GB/192GB(2024) ・1B Model → float32で4GB, fullでの訓練はAdam Optimizerで 16倍ぐらいになるので64GB必要 ・100B Modelで6.4TBのGPU必要 ・1T Modelだと640TB, 苦しい
省メモリへのアプローチ ・量⼦化(1/2~1/4倍削減), 枝刈り(1/2倍削減程度)←精度劣化が 避けられない, 枝刈りは推論のみでしか使えない(Edgeデバイス では依然として重要) ・アルゴリズム的な削減 ・再計算(Gradient Checkpointing) ・Flash
attention ↑厳密計算かつメモリ削減でGood ・複数台に分散 ・Megatron-LM, Deepspeedなどが開発ではよく使われる
Heterogenious Memory ・GPUだけではなくCPUも使おう ・GH200 ・CPUとGPUのPage tableが共通 ・GPUメモリをCPUのように使⽤ ・最⼤でGPU+CPUの96+480GBが使 える ・買うGPUの枚数が少なくて済む
問題点 ・ソフトウェア上はGPUとCPUのメモリが同じように使える ・物理メモリ的にどこに割り当てられているかで速度低下などが 起きる←速度向上のためにGPUを使うのだから本末転倒 ・頑張って両⽴する
宣伝: GB10 NVIDIA Project DIGITS(3000$)