大規模言語モデルを支える分散学習インフラ Pathways

Slide 1

Slide 1 text

大規模言語モデルを支える分散学習インフラ Pathways 中井悦司 / Etsuji Nakai Google Cloud / ソリューションズアーキテクトこのスライドはコミュニティイベント「GCPUG Shonan vol.90」での発表資料です

Slide 2

Slide 2 text

自己紹介中井悦司 / Etsuji Nakai Google Cloud / ソリューションズアーキテクト

Slide 3

Slide 3 text

3 Introducing Pathways: A next-generation AI architecture | The Keyword | Google https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/

Slide 4

Slide 4 text

4 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance | Blog | Google Research https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

Slide 5

Slide 5 text

Pathways のアイデアが生まれた背景

Slide 6

Slide 6 text

6 ディープラーニング実用化のきっかけ（2012 年の発表） https://diamond.jp/articles/-/165402?page=2 https://blog.google/technology/ai/usin g-large-scale-brain-simulations-for/

Slide 7

Slide 7 text

7 ディープラーニングが実用化された要因 ● 学習アルゴリズムの研究 ○ 膨大な数のパラメータを効率的に最適化する手法 ● 学習データの蓄積 ○ 膨大な数のパラメータを最適化するのに十分なデータ量 ● 計算リソース ○ 並列計算技術、GPUを用いた計算技術の発展

Slide 8

Slide 8 text

Google でのディープラーニングの利用実績 https://www.slideshare.net/embeddedvision/largescale-deep-learning-for-building-intelligent-computer-systems-a-keynote-presentation-from-google Used across products: Unique project directories Time 8

Slide 9

Slide 9 text

9 Neural scaling laws ● 自然言語モデル／翻訳モデルでは、モデルの基本構造が同じであれば、「計算量、モデルサイズ、データ量」が予測性能により大きな影響を与えるという経験則（2020 / 2021 年） Scaling Laws for Neural Language Models | arxiv | Cornell University https://arxiv.org/abs/2001.08361

Slide 10

Slide 10 text

10 Neural scaling laws ● GPT-3 モデル（2020 年）：1,750 億パラメーター ● GLaM モデル（2021 年）：1 兆 2,000 億パラメーター ○ https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html GLaM: Efficient Scaling of Language Models with Mixture-of-Experts | arxiv | Cornell University https://arxiv.org/abs/2112.06905 GPT-3 に対する GLaM の性能向上

Slide 11

Slide 11 text

11 モデルサイズの拡大による応用範囲の広がり ● LaMDA モデル（2021 年） ○ 会話文を学習データとすることで、「テーマに沿った会話の繋がり」を学習 ○ 3 つの観点でチューニング意味がある内容安全な内容事実に基づいた内容 ○ GAN の学習手法を応用（内容の安全性などを識別する識別モデルを利用してチューニング）「ブログのアイデア」についてアドバイスする LaMDA モデル https://blog.google/technology/ai/lamda/ https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html

Slide 12

Slide 12 text

12 「マルチモーダル」なデータを扱うモデル ● 入力と出力でデータの種類が異なるパターン ○ 例：「テキスト」→「画像」 ● XMC-GAN（2021 年） ○ 学習方法を工夫する事で、従来よりも高い性能を達成テキストから画像を生成するモデル Cross-Modal Contrastive Learning for Text-to-Image Generation | Blog | Google Research https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html

Slide 13

Slide 13 text

13 「マルチモーダル」なデータを扱うモデル ● Imagen (2022) Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding | arxiv | Cornell University https://arxiv.org/abs/2205.11487

Slide 14

Slide 14 text

14 複数の「命令方法」によるロボット操作 BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning | bc-z https://sites.google.com/corp/view/bc-z/home Place grapes in ceramic bowl 自然言語による指示実技映像による指示 ● BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning（2021 年） ○ 自然言語、もしくは、実技映像による指示でロボットを操作するモデル指示に対応したロボットの動作

Slide 15

Slide 15 text

15 異なる表現形式を統一的に取り扱う仕組み BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning | OpenReview.net https://openreview.net/forum?id=8kbp23tSGYv 自然言語と実技映像を同一の潜在空間にマッピング ● 指示の「意味」を表した共通の潜在空間（特徴量空間）を介することで、複数の表現形式を統合

Slide 16

Slide 16 text

16 異なる表現形式を統一的に取り扱う仕組み自然言語と実技映像を同一の潜在空間にマッピング ● 指示の「意味」を表した共通の潜在空間（特徴量空間）を介することで、複数の表現形式を統合パーツを結合するための新たなパーツ BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning | OpenReview.net https://openreview.net/forum?id=8kbp23tSGYv

Slide 17

Slide 17 text

17 Pathways のモデル構造（予想）マルチモーダルなデータを並列に入力データの種類に応じた（内部）モデル複数データの情報を潜在空間でマッピングタスクに応じて処理を分岐複数タスクの結果を並列に出力 ● 役割ごとの「パーツ」となるブロック（サブグラフ）を相互接続することで、マルチモーダルなデータに対して複数のタスクを並列に実行 ● パーツを共有することで、全体の学習がより効率的に進むと考えられる

Slide 18

Slide 18 text

Pathways の実現に向けた技術開発

Slide 19

Slide 19 text

19 TPU Pod ● TPU Core を搭載したボードを専用のインターコネクトで相互接続 Google showcases Cloud TPU v4 Pods for large model training | Blog | Google Cloud https://cloud.google.com/blog/topics/tpus/google-showcases-cloud-tpu-v4-pods-for-large-model-training

Slide 20

Slide 20 text

20 TPU Pod による計算処理 ● モデルの各コンポーネントを TPU Core にマップして、同期的に計算を実行 ● インターコネクトを介して、TPU Core 同士で計算結果を直接に交換 ● インターコネクトによる高速なメッシュ接続がスケーラビリティを実現するポイント Pathways: Asynchronous Distributed Dataflow for ML | arxiv | Cornell University https://arxiv.org/abs/2203.12533 データセンターネットワークホスト TPU コア ML モデル

Slide 21

Slide 21 text

21 Pathways に対応した計算モデルの提案（2022 年） Pathways: Asynchronous Distributed Dataflow for ML | arxiv | Cornell University https://arxiv.org/abs/2203.12533

Slide 22

Slide 22 text

22 ● Pathways を構成するパーツごとに TPU Pod 内のスライス（小島）にマッピング ● パーツ内の計算は、インターコネクトを介して高速に実行 ● パーツ間のデータ転送は、高速なデータセンターネットワークを介して行う Pathways に対応した計算モデルの提案（2022 年）

Slide 23

Slide 23 text

23 Pathways に対応した計算モデルの提案（2022 年） ● コンポーネントがシステム全体にマッピングしきれない場合は、スケジューラーが動的に確保したスライスにコンポーネントを割り当てていく ● パーツ間の依存性（計算順序）を考慮して、計算の並列度を高めるように配置する

Slide 24

Slide 24 text

24 TPU Pod の課題と解決策 ● モデルのサイズが大きすぎて TPU Pod 全体にマッピングできない場合、効率的な計算が困難になる ● インターコネクトによる完全なメッシュ接続は、どこかのタイミングでシステムサイズの限界に達する ● これらの問題を解決するために、データセンターネットワークで疎結合した複数の TPU Pod を連携させる新しい学習インフラを構築 ● この新しい学習インフラと Pathways のアーキテクチャーは親和性が高いと考えられる

Slide 25

Slide 25 text

25 Pathways のインフラを用いた学習処理の実施例（2022年） PaLM: Scaling Language Modeling with Pathways | arxiv | Cornell University https://arxiv.org/abs/2204.02311

Slide 26

Slide 26 text

26 Pathways のインフラを用いた学習処理の実施例（2022年） ● 学習対象のモデルは、Transformer を用いた自然言語モデル ○ 入力文書に対して、次の単語（の確率）を予測するシンプルなモデル ○ 予測した単語を再帰的に入力する事で、後続の文章を生成可能 ● 同一モデルのコピーを 2 つの TPU Pod にマッピングして、データ並列で学習 ○ 6144 個の TPU v4 チップを使用 ● スケジューラーを用いて、勾配計算と勾配適用（パラメーター更新）を交互に実行複数の TPU Pod を用いた学習システムの実効性を確認する実験であり、 Pathways の複数タスクモデルを実現したわけではありません

Slide 27

Slide 27 text

27 PaLM の性能 ● 従来よりも大きなサイズのモデルの学習に成功 ● さまざまな自然言語タスクに対して、従来の最高性能を更新これまでのモデルとのパラメーター数の比較これまでのモデルとの性能の比較

Slide 28

Slide 28 text

28 （参考）0-shot, 1-shot, few-shot learning について ● 1-shot：「質問と解答の例」＋「質問文」を入力して、それに続くべき文章を予測させる ○ 回答の形式に対するヒントを与えることでモデルが回答を予測しやすくする ● few-shot：「質問と解答の例」を2〜3個程度に増やす ● 0-shot：質問文を入力して、それに続くべき回答を予測させる ○ Yes / No で回答できる質問文を入力して、それに続く単語が「Yes」である確率と「No」である確率をそれぞれ予測させる ○ 質問に対する回答をダイレクトに出力させる

Slide 29

Slide 29 text

29 PaLM による 1-shot learning の実行例シンプルな解答例だと正答に失敗する推論過程を含めたサンプルを与えると正答する

Slide 30

Slide 30 text

30 PaLM によるプログラムコードの出力例関数の先頭のコメント部分を入力コメントに続く関数の本体を出力

Slide 31

Slide 31 text

31 まとめ ● モデルサイズの拡大に伴う性能向上は今後も継続すると期待される一方、巨大なモデルを学習するためのインフラには限界がある ● 複数の TPU Pod を疎結合させた新しい学習システムを提案・実装 ○ 従来のサイズを超える高性能な自然言語モデル（PaLM）の学習に成功 ● 将来は、Pathways が想定する複数タスク・マルチモーダルに対応したモデルの学習に利用できると期待される

Slide 32

Slide 32 text

Thank You.