研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう

Unified Memoryを活⽤した効率的な計算⽅法を考えよう SuperHotDogCat

宣伝: GB10 NVIDIA Project DIGITS(3000$)

親の顔より⾒たエラー

何故起きるのか・GPUメモリが⾜りない →複数枚積めばいいのか?

パラメーター数遷移 • AI Modelのパラメーターは指数関数的に増加中

VRAMは? ・V100 32GB(2017) ・A100 80GB(2020) ・H100 80GB(2022) ・H200 141GB(2024) ・B200
180GB/192GB(2024) ・1B Model → float32で4GB, fullでの訓練はAdam Optimizerで 16倍ぐらいになるので64GB必要・100B Modelで6.4TBのGPU必要・1T Modelだと640TB, 苦しい

省メモリへのアプローチ・量⼦化(1/2~1/4倍削減), 枝刈り(1/2倍削減程度)←精度劣化が避けられない, 枝刈りは推論のみでしか使えない(Edgeデバイスでは依然として重要) ・アルゴリズム的な削減・再計算(Gradient Checkpointing) ・Flash
attention ↑厳密計算かつメモリ削減でGood ・複数台に分散・Megatron-LM, Deepspeedなどが開発ではよく使われる

Heterogenious Memory ・GPUだけではなくCPUも使おう・GH200 ・CPUとGPUのPage tableが共通・GPUメモリをCPUのように使⽤・最⼤でGPU+CPUの96+480GBが使える・買うGPUの枚数が少なくて済む

問題点・ソフトウェア上はGPUとCPUのメモリが同じように使える・物理メモリ的にどこに割り当てられているかで速度低下などが起きる←速度向上のためにGPUを使うのだから本末転倒・頑張って両⽴する

宣伝: GB10 NVIDIA Project DIGITS(3000$)

研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう

研究室紹介用スライド: Unified Memoryを活⽤した効率的な計算⽅法を考えよう

SuperHotDog

More Decks by SuperHotDog

Featured

Transcript

Unified Memoryを活⽤した効率的な計算⽅法を考えよう SuperHotDogCat

宣伝: GB10 NVIDIA Project DIGITS(3000$)

親の顔より⾒たエラー

何故起きるのか・GPUメモリが⾜りない →複数枚積めばいいのか?

パラメーター数遷移 • AI Modelのパラメーターは指数関数的に増加中

VRAMは? ・V100 32GB(2017) ・A100 80GB(2020) ・H100 80GB(2022) ・H200 141GB(2024) ・B200

Heterogenious Memory ・GPUだけではなくCPUも使おう・GH200 ・CPUとGPUのPage tableが共通・GPUメモリをCPUのように使⽤・最⼤でGPU+CPUの96+480GBが使える・買うGPUの枚数が少なくて済む

問題点・ソフトウェア上はGPUとCPUのメモリが同じように使える・物理メモリ的にどこに割り当てられているかで速度低下などが起きる←速度向上のためにGPUを使うのだから本末転倒・頑張って両⽴する

宣伝: GB10 NVIDIA Project DIGITS(3000$)