大規模モデル計算の裏に潜む並列分散処理について

大規模モデル計算の裏に潜む並列分散処理について [公開用]

$whoami 名前: 犬(SSR🐈) 東大工学部電子情報工学科四年 HPCの研究をしています X: @takanas0517

この登壇資料を制作しようと思ったモチベ・OpenAIがGPUサーバーを3万台調達, GPUを50万枚調達などのニュースを見てウオースゲーと驚くことは誰でもできる・ただし実際のところその大多数のコンピューターを協働させて動かすにはどういう仕組みがあるのか, それを理解している学生は少ないのではないか, そう思い少し作
成した・一応登壇者は576ノードのMPI並列化ならしたことはある xAIにDGXを運ぶNVIDIA CEO OpenAIにDGXを運ぶNVIDIA CEO

今日のおしながき・並列分散処理が何故必要なのか・並列分散処理プログラムの内部・並列分散処理プログラムを書くための武器・並列分散処理民主化のための個人的な取り組み

並列分散処理が何故必要なのか大きなメリットとしては・速度 →沢山のCPUを動かせた方が早い‼ ・メモリ消費削減 →沢山のCPUに分散させて配置させたら 1CPUあたりのメモリ消費量は減る‼

並列分散処理が何故必要なのか: 速度編・スパコンで実際に計算を扱うCPUコア数は増え続けている・Auroraは9,264,128コア →神奈川県の人口程度・Fugakuで7,630,848コア →埼玉県の人口程度関東近郊の県民全員が一斉に計算を始める top500.org

並列分散処理が何故必要なのか: 消費メモリ・行列積y = Axを計算することを考える(y, xはベクトル, Aは行列) ・行列を4分割して計算することを考えると, 1プロセスの行列積分のメモリ消費量は1/4になる
A x A x プロセス0 プロセス1 プロセス2 プロセス3

並列分散処理が何故必要なのか: 消費メモリ・大規模モデルの文脈の話をすると, 最近では10B, 100B, 1Tパラメータークラスのモデルが出てきている・それぞれfloat32のパラメーターだとすると40GB, 400GB, 4TBのGPUメモリが必要に
なる・最先端のH200でカタログスペックだと141GB程度のVRAMしかない・実際にはモデルパラメーターだけではなく, 訓練途中の誤差逆伝播法アルゴリズムなどによりモデルパラメーターの定数倍分だけ使用メモリは増える →並列分散は必須数字が大きすぎて定数倍の増加でも致命的なほどVRAMを使用する

並列分散処理プログラムの内部・プロセス並列化を行う場合 ...各プロセスの計算結果はプロセスごとに計算結果を通信して統合する必要がある・MPI(Message Passing Interface)という, MPIによってデータの受け渡しをノードをまたぐプロセス間でも安全に行い, 並列処理をすることでプロセス並列が可能となる
A x プロセス0 プロセス1 プロセス2 プロセス3 0 1 2 3 y communicate

並列分散処理プログラムの内部・さらに, プロセス内でもスレッド並列化が可能である・OpenMPやGPUで高速処理を実現している・特に, AIの計算処理はGPUの得意とする演算と相性が良い →NVIDIAのGPUは特にハードウェアの効率化もすごい
e.g. メモリ通信帯域, GPUコアの利用効率向上最適化, Tensor core A6000

並列分散処理プログラムの内部: 実際に行われていること大規模AIでの並列訓練の効率化として代表的なものにData Parallel, Tensor Parallel, Pipeline Parallelがあげられる

ちょっと機械学習の用語整理(詳しい算数の話は抜き) ・forward ・データを流して計算を行う作業・gradient ・AIのパラメーターを正しい方向に移動させるための情報, forwardで得た結果から計算される・backward ・gradientを使って実際にパラメーターを更新する作業

並列分散処理プログラムの内部: Data Parallel モデルは分割せずDataを分割して1 batch中の訓練時間を高める並列方法 1. 個々のプロセスがforwardする 2. 個々のモデルのgradientを平均する
3. 個々のモデルにbackwardを適用するこの方法では各計算ノードはモデルを分散していないためモデルサイズはスケールしない

並列分散処理プログラムの内部: Pipeline Parallel モデルをLayerごとに分割する方法

並列分散処理プログラムの内部: Pipeline Parallel Forwardが終わるまで Backwardが行えず, データ依存関係を考慮する必要がある →1つの計算ノードあたりのモデルサイズは低下するが実行時間はむしろ増える

並列分散処理プログラムの内部: Tensor Parallel Pipeline Parallelのような垂直分割ではなく, モデルを並行分割する方法プログラマーへのコーディングの負担が大きい処理を強いられる

並列分散処理プログラムの内部: ZeRO ・ZeRO(Zero Redundancy Optimizer)はData Parallelの際の冗長性を段階的に廃した手法 →段階が上がるほど通信時間によりスループット低下・最大で(ZeRO無し)/GPU枚数分だ
けRAM使用量を削減できる

実際の訓練の場では... ・ZeRO-3 stage実行時, 使用VRAMが右のように・随分と余裕があるので →ZeROを使わないで通信時間の分のスループットを取り戻す →性能が変わらなければbatch sizeを増や
し, 訓練時間の短縮を計画などを考える・これは高橋が勝手にやってることなので一般的ではないかも

並列分散処理プログラムの内部: ZeRO Offload ・データ数分だけ計算時間の比例するforwardに比べて backwardはデータ数に比例しない →backwardはCPUにOffload してGPU RAMを節約してし
まってbackwardをAVX SIMD 命令で実行してしまい, 実行時間の低下を抑えながらVRAM 使用を削減

並列分散処理プログラムを書くための武器・ハードウェアの用意 NVIDIAの商売根性は逞しく, GPU, OS setup, 環境構築が済み, しかも GPU間通信も高速なNVLinkで接続されており,
通信帯域の最適化も済んでいるDGXを買うのが一番早いカスタマイズしたい人はパーツごとに買おう(できるのかな)

並列分散処理プログラムを書くための武器・ソフトウェア面実際は下記のフレームワークの使用で事足りることは多い・Deepspeed(by Microsoft) ・MegatronLM(by NVIDIA) ・Accelerate(by Hugging Face)
ただし内部で何が行われているかを理解することは, 速度, RAM使用量, AIだと意図している学習になっているかは非常に重要, AI時代でもボトルネックを改善していくことと自分がどういう作業をしているのかを根本で理解していく能力は重要だと思う

並列分散処理民主化のための個人的な取り組み別にAIに限ったことではないんですが, 学生が自由に使えるコンパクトな複数サーバー環境が必要かなとか考えていたりしますこれがあると, AIに限らず・Kubernetesクラスタ制作・Load balancer制作・Ansibleで遊んでみる
など, 実世界の大規模システムをスモールスケールではあるけども体験することができます

並列分散処理民主化のための個人的な取り組み: マイコンサーバー・東大ではエンジニアがマイコンサーバーを制作して複数台のコンピューターを協働する処理ができないかという活動をしています・今までは3層アーキテクチャの作成, Kubernetes クラスタの作成などを行いました・いずれGPU付きのJetsonマイコンを買い, GPUを
使った並列分散処理の民主化もできないものかと考えています

その他その他の高速技術に関する技術とフレームワークとして.... ・KV cache ・vllm ・TensorRT-LLM ・llama.cpp などがあるが, 割愛

その他: 並列分散処理を深く学びたい人向けの資料・MPI「超」入門・東大情報基盤センターの資料・Parallel and Distributed Programming ・うちのボスの講義 ,
コードはこちら<-なんでうちのボスは C++/CUDAでDNNを実装できるんだ .... ・並列プログラミング入門: サンプルプログラムで学ぶOpenMPとOpenACC   ・スパコンプログラミング入門: 並列処理とMPIの学習   ・どっちも本です・CUDA C++ Programming Guide ・CUDAを書くなら公式ドキュメントは必見・NVIDIA社員ブログと Anthropicのブログ・プロの並列分散処理と naiveな並列分散処理では 100倍も速度が違う, どうすれば効果的なコードがかけるのかを解説している

Reference 1. Microsoft: ZeRO: Memory Optimizations Toward Training Trillion Parameter
Models 2. Microsoft: ZeRO-Offload: Democratizing Billion-Scale Model Training 3. NVIDIA: NVIDIA H200 Tensor core GPU 4. 東京大学情報基盤センター: 30分でだいたいわかる並列プログラミング 5. TOP500 List - June 2024 6. OpenAI: Techniques for training large neural networks

大規模モデル計算の裏に潜む並列分散処理について

大規模モデル計算の裏に潜む並列分散処理について

SuperHotDog

More Decks by SuperHotDog

Featured

Transcript