SparseなDNNモデルの分散学習

sparseなDNNモデルの分散学習株式会社 Preferred Networks リサーチャー三上裕明

2 • 三上裕明 (みかみひろあき) • (主な) 業務: DNN学習等の高速化/分散処理
◦ LLMの学習高速化 ▪ PLaMo-13Bを公開しました ◦ MN-Core 向けコンパイラの開発 ◦ その他GPUを用いた分散処理の最適化 • 経歴 ◦ 株式会社 Preferred Networks (2019/9 〜) ◦ ソニー株式会社 (2017/4 〜 2019/8) ◦ 東京大学大学院 (2015/4 〜 2017/3) 自己紹介

3 • sparse DNNモデルとは ◦ sparse DNNモデル ◦ LLM の影響
• sparse DNNモデルの分散学習手法紹介 ◦ 手法1: Mixture of Experts (MoE) ◦ 手法2: Branch-Train-Merge (BTM) • さいごに目次

4 sparse DNNモデル (LLM以外)

5 sparsityによってDNNの性能を改善したモデル sparse DNNモデルとは dense DNN sparseな重みを持つ入力によって使用する重みを変える hello こんにちは

メモリ消費量を削減できる

メモリ消費量を削減できる大きなモデルを小さい計算量で動かせる

8 sparse DNNモデルの利用分野は限られている sparse DNNモデル: 現状 (LLM注目以前) 問題1: 多くの場合GPUで効率的に扱えない処理が必要 [Sparsity
in Deep Learning: Pruning and growth for eﬃcient inference and training in neural networks] GPUの高速化のためにsparseモデルを使うのは難しい問題2: 学習が不安定になりやすい [ST-MoE: Designing Stable and Transferable Sparse Expert Models] 推論の効率化に使われることが多かった Switch Transformers: Scaling to Trillion Parameter Models with Simple and Eﬃcient Sparsity loss

9 LLM とsparse DNNモデル

10 LLM LLMとsparse DNNモデル巨大なTransformer Attention Is All You Need

11 LLM LLMとsparse DNNモデル巨大なTransformer 非常に計算量が大きい Attention Is All You
Need

Need 実効効率よりも計算量の削減が大事

Need 実効効率よりも計算量の削減が大事学習に時間がかかる

Need 実効効率よりも計算量の削減が大事学習に時間がかかる学習の高速化が重要

Need 実効効率よりも計算量の削減が大事学習に時間がかかる学習の高速化が重要 LLMではsparseなモデルの学習にメリットがある

16 LLMとsparse DNNモデル: 難しい点問題1: 学習が不安定になりやすい [ST-MoE: Designing Stable and
Transferable Sparse Expert Models] 問題2: 大規模学習における知見/best practiceが乏しい loss

17 LLMとsparse DNNモデル: 難しい点問題1: 学習が不安定になりやすい [ST-MoE: Designing Stable and
Transferable Sparse Expert Models] 問題2: 大規模学習における知見/best practiceが乏しい主に論文に基づいて手法を紹介 loss

18 手法1: Mixture of Experts (MoE)

19 手法1: Mixture of Experts (MoE) Router DNN0 DNN1 DNN2
DNN3 hello tokenごとに使用するDNNを変える ⇒ sparseなモデルとなる

DNN3 hello tokenごとに使用するDNNを変える ⇒ sparseなモデルとなる使用するDNNを決める小さなモデルそれぞれのDNNをexpertと呼ぶ

DNN3 hello tokenごとに使用するDNNを変える ⇒ sparseなモデルとなるこのtokenは DNN0を使う

DNN3 hello こんにちは Router DNN0 DNN1 DNN2 DNN3 tokenごとに使用するDNNを変える ⇒ sparseなモデルとなるこのtokenは DNN0を使うこのtokenは DNN2を使う

DNN3 hello こんにちは Router DNN0 DNN1 DNN2 DNN3 tokenごとに使用するDNNを変える ⇒ sparseなモデルとなるパラメータ数はexpert数に比例して増加する

DNN3 hello こんにちは Router DNN0 DNN1 DNN2 DNN3 tokenごとに使用するDNNを変える ⇒ sparseなモデルとなる計算量はexpert数によらず固定パラメータ数はexpert数に比例して増加する

26 手法1: Mixture of Experts (MoE) 性能例 LLMに適用した例としてSwitch Transformer の性能を引用
モデルモデルサイズ Negative Log Perplexity 学習速度 (example/sec) T5-Base (denseモデル) 0.2B -1.731 1600 T5-Large (denseモデル) 0.7B -1.550 470 Switch-Base (MoE) 7B -1.534 1000 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Eﬃcient Sparsity

27 手法1: Mixture of Experts (MoE) 難しさ Router DNN0 DNN1
DNN2 DNN3 hello 問題: 通信コストが大きく、分散学習の効率を出しづらい MoEの学習通常のDNN学習 DNN hello

DNN2 DNN3 hello 問題: 通信コストが大きく、分散学習の効率を出しづらい MoEの学習通常のDNN学習 DNN hello 計算量はほぼ同じパラメータは expertの個数倍

DNN2 DNN3 hello 問題: 通信コストが大きく、分散学習の効率を出しづらい MoEの学習通常のDNN学習 DNN hello 計算量はほぼ同じパラメータは expertの個数倍データ並列の通信がネックとなりやすい

30 手法1: MoE: Expert Parallelism Router DNN0 hello ワーカーがexpertの一部のみを担当することで通信コストを削減するワーカー0
ワーカー1 こんにちは Router DNN1

ワーカー1 こんにちは Router DNN1 ワーカーが持つパラメータは小さくなるデータ並列の通信コスト減

ワーカー1 こんにちは Router DNN1 このtokenは DNN1を使う

ワーカー1 こんにちは Router DNN1 担当expertの workerへ送信

ワーカー1 こんにちは Router DNN1 担当expertの workerへ送信もとの workerへ送信

ワーカー1 こんにちは Router DNN1 担当expertの workerへ送信もとの workerへ送信担当するワーカーへのtokenの通信が必要

ワーカー1 こんにちは Router DNN1 担当expertの workerへ送信もとの workerへ送信担当するワーカーへのtokenの通信が必要この通信の総量はexpertの個数によらず一定

ワーカー1 こんにちは Router DNN1 担当expertの workerへ送信もとの workerへ送信担当するワーカーへのtokenの通信が必要この通信の総量はexpertの個数によらず一定データ並列よりもexpertの個数を増やせる

39 手法1: MoE: Expert Parallelism 実用上のポイント • データ並列とexpert parallelの使い分けはモデル・計算機クラスタ次第 [ST-MoE:
Designing Stable and Transferable Sparse Expert Models] • tokenの偏りによって効率低下する Router DNN0 hello ワーカー0 ワーカー1 hello Router DNN1

40 手法1: Mixture of Experts (MoE): まとめ • Mixture of
Experts (MoE): tokenごとに使用するDNNを切り替える ◦ 高速に高い性能のモデルを学習できる • 分散学習で速度を出すのが難しい ◦ expert parallelismによる分散学習を考慮する必要がある ◦ 分散学習の手法、モデルアーキテクチャ、計算機クラスタの構成が強く関連する分散学習手法モデルアーキテクチャ計算機クラスタの構成 expert parallelの並列数 expertの個数モデル並列の設定データ並列かexpert parallelか

41 手法2: Branch-Train-Merge (BTM)

42 手法2: Branch-Train-Merge (BTM) Router DNN0 DNN1 DNN2 DNN3 hello
こんにちは Router DNN0 DNN1 DNN2 DNN3 MoEではtokenの割り当て方が問題となる

43 手法2: Branch-Train-Merge (BTM) Router DNN0 DNN1 DNN2 DNN3 hello
こんにちは Router DNN0 DNN1 DNN2 DNN3 MoEではtokenの割り当て方が問題となるデータセットの情報を割り当てに使えないか？

44 手法2: Branch-Train-Merge (BTM) 英語 Transformer hello こんにちは日本語 Transformer
BTM: 学習データセットごとにTransformerのexpertを用意英語データセット日本語データセット … Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

英語データセット日本語データセット … 利点: 分散学習に自明並列性が使えるワーカー0 ワーカー1

英語データセット日本語データセット … 利点: 分散学習に自明並列性が使えるそれぞれのTransformerは完全に独立したモデル学習中にワーカー間の通信が必要ないワーカー0 ワーカー1

47 手法2: Branch-Train-Merge (BTM) モデルモデルサイズ Perplexity Transformer LM 125M
19.9 BTM (8 expert) 1B (125M x8) 17.2 Transformer LM 750M 14.7 BTM (8 expert) 6B (750M x8) 13.4 Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

48 手法2: Branch-Train-Merge (BTM) 難しさ: データセットの分割が性能に大きく影響する Branch-Train-Merge: Embarrassingly Parallel Training
of Expert Language Models

49 手法2: Branch-Train-Merge (BTM) 難しさ: データセットの分割が性能に大きく影響するランダムなデータセットの分割だともとのTransformerより性能が劣化する Branch-Train-Merge: Embarrassingly
Parallel Training of Expert Language Models

50 手法2: Branch-Train-Merge (BTM) 難しさ: データセットの分割が性能に大きく影響するランダムなデータセットの分割だともとのTransformerより性能が劣化する Branch-Train-Merge: Embarrassingly
Parallel Training of Expert Language Models 適切なデータセット分割が不可欠

51 手法2: Branch-Train-Merge (BTM): まとめ • BTM: データセットごとに使用するDNNを切り替える ◦ 自明並列性を使った簡単で効率の良い分散学習ができる
◦ 少ない計算資源で大きいモデルを学習できる • 学習したモデルの性能はデータセットの分割方法に大きく影響する ◦ 分散学習の手法・モデルアーキテクチャがデータセットの前処理に依存する

52 さいごに

53 • LLMのような超巨大DNNモデルではsparseモデルの大規模な分散学習が重要になりつつある ◦ 手法1: Mixture of Experts (MoE)
◦ 手法2: Branch-Train-Merge (BTM) • sparseモデルの分散学習は様々な分野を考慮する必要がある点が特徴的 ◦ モデルアーキテクチャを踏まえた分散学習手法 ◦ 計算機クラスタに合わせたモデルアーキテクチャ ◦ データセット構成を踏まえたモデルアーキテクチャと分散学習手法 . . . sparseなDNNモデルの分散学習さいごに

Making the real world computable

SparseなDNNモデルの分散学習

SparseなDNNモデルの分散学習

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript