Cloud TPUの使い方〜BigBirdの日本語学習済みモデルを作る〜

Cloud TPUの使い⽅〜BigBirdの⽇本語学習済みモデルを作る〜板垣正敏＠Python機械学習勉強会in新潟 2021/7/10

アジェンダ Cloud TPUとは︖ 今回のモチベーション Cloud TPUが使える深層学習環境
GCE上でのモデル訓練予算枯渇と救世主の出現 BigBirdの学習結果は︖ まとめ

Cloud TPUとは︖

Cloud TPUとは︖ Googleが作っている Tensor計算専⽤プロセッサ（ASIC）専⽤仮想マシン（VM）に接続されておりgRPC経由で
利⽤する分散環境 2021年5⽉には直接 VMを利⽤できるサービスも発表 Cloud TPU v2 180 TFLOPS 64 GB HBM Cloud TPU v3 420 TFLOPS 128 GB HBM

データ並列とモデル並列並列化には2種類あるメモリに乗り切らない⼤きなモデルを分割して処理する「モデル並列」（上図右）たくさんの学習データを分散して処理する「データ並列」（上図左） https://tech.preferred.jp/ja/blog/model-parallelism-in-dnn/

TPUを使う⽅法の⼀般論フレームワークデータ並列モデル並列 TensorFlow l tf.distribute.TPUStrategy() l tf.compat.v1.estimator.tpu.T
PUEstimator l Mesh TensorFlow l ⼿動配置 PyTorch l torch_xla l torch.distributed.pipeline l ⼿動配置 l HuggingFace/Transformers では、⼀部のモデルで Attention単位の並列化（Parallelize）が可能

GPUとCloud TPUのコスト⽐較タイプ vCPU GPU CPU メモリ GPU/TPU メモリ料⾦／
1時間 AWS p2.xlarge 4 K80/12GB 61GB 12GB $0.90 p3.2xlarge 8 V100/16GB 61GB 16GB $3.06 p3.8xlarge 32 V100/16GB×4 244GB 64GB $12.24 p3.16xlarge 64 V100/16GB×8 488GB 128GB $24.48 p4d.24xlarge 96 A100/40GB×8/NVSwitch 1152GB 320GB $32.7726 GCP n1-highmem-4 4 K80/12GB 52GB 12GB $0.65 n1-highmem-8 8 V100/16GB 52GB 16GB $2.95 n1-standard-96 96 V100/16GB×8 320GB 128GB $24.40 n1-standard-32/V2-8 32 Cloud TPU v2×8 120GB 64GB $6.02 n1-standard-64/V3-8 64 Cloud TPU v3×8 240GB 128GB $11.04 colab 無料版 1 Cloud TPU v2×8 12GB 64GB $0

今回のモチベーション

⽇本語要約処理で⻑⽂を扱いたい会社在籍時に某⼤学と⽇本語要約の共同研究をしていた現在の主流はTransformerを使ったモデル巨⼤な多⾔語コーパスを使った学習済みモデルmT5も試したが、多くのモデルが最⼤トークン数512程度⻑⽂を扱える⽇本語学習済みモデルがあれば…
⻑⽂を扱えるNLPモデルの例 Transformer-XL Longformer Reformer BigBird 公開されている⽇本語学習済みモデルがない…⾃分で作るしかない

BigBirdとは︖ Transformerを使った⻑い⽂章を扱うモデルが作りにくいのは、中核であるAttentionが⽂章の⻑さ（トークン数）の2乗に⽐例して⼤きくなるから BigBird は
Full Attention を Locality/Random/Global Connections の組み合わせに変更さらにアテンションをブロック化して計算⼿順を⼯夫し GPU/TPUでの計算効率を改善 https://github.com/google-research/bigbird

訓練に使⽤したデータ TensorFlow Datasetsに含まれるWikipediaのデータで、テキスト抽出などの前処理が終わっているWiki40bを使⽤したトークナイザはSentencepieceを使い、wiki40b/jaから抽出し⽂単位に分割したテキストデータ（約1.9GB）で学習を⾏なった wiki40bで使われている_START_ARTICLE_,
_START_SECTION_, _START_PARAGRAPH_, _NEWLINE_をuser_defined_symbolsに指定 BERTで使われる[CLS],{SEP],[MASK]をcontrol_symbolsに指定 BigBirdの事前学習⽤データはBERTと同様なので、 https://github.com/yoheikikuta/bert-japanese の学習データ作成プログラムを利⽤した（サイズ約37GB） max_token_length=4096, masked_lm_prob=0.15, max_predictions_per_seq=600, dupe_factor=10 属性は、input_ids, segment_ids, masked_lm_positions, masked_lm_ids, masked_lm_weights, next_sentence_labels

BigBirdのモデルサイズとメモリ通常のTransformerに⽐べて8分の1のメモリ使⽤量標準的なTransformerで512だった最⻑トークン数を4096にしてもモデルサイズはメモリ16GBのGPUで訓練できるほどにでも⾃宅のGeForce RTX2080 Ti（メモリ11GB）では無理
メモリと計算時間のトレードオフもあるので、GPU1基では訓練時間が膨⼤にそこでCloud TPUを使ったモデル並列化の出番︕

Cloud TPUが使える深層学習環境

GCP上の深層学習環境サービス説明 TF PyT orch GPU TPU Pre- empti
-ble GCE 仮想マシンサービスで環境を構築 ◦ ◦ ◦ ◦ ◦ AI Platform Training ソースコードをtarでパッケージ化、⼜は、学習環境をカスタムコンテナ化してAI Platformで実⾏ ◦ ◦ ◦ ◦ × AI Platform Pipelines GKEクラスタを作成し、前処理から訓練・評価、本番環境への実装などをコンテナベースで⼀貫して管理 ◦ ◦ ◦ ◦ ◦ GKE ⾃分でKubernetesクラスタを作成しコンテナベースのジョブを起動 ◦ ◦ ◦ ◦ ◦ Vertex AI Pipelines マネージドクラスタでトレーニングジョブを実⾏ ◦ ◦ ◦ × × Google Colab 無償あるいは定額のNotebook環境からGPUおよびCloud TPUを使⽤可能 ◦ ◦ ◦ ◦ v2 -

Google Colabではなく GCEを使う理由 Google Colabで使える無料のTPU（v2-8）は、1基あたりメモリ 8GBで、トークン⻑4096のBigBirdは乗らない有償だがメモリ・性能が上位のv3-8を使ってみたい
GCPでアカウントを作成すると有効期間90⽇で$300分の無料クレジットが割り当てられるアカウントの作成にはクレジットカード登録が必要だが、課⾦設定をしない限り課⾦はされない前職で社内トレーニングを⾏った際に作成したアカウントのクレジットが27,000円分以上残っていたので、これを使って試すことにした

コスト削減の⽅法 Cloud TPUもGCEのVMもプリエンプティブルインスタンスを使えばコストはさらに安くなるプリエンプティブルインスタンスはAWSのスポットインスタンスと同様に、空いているリソースを利⽤するもので、GCP の都合でいつ停⽌されても⽂句は⾔えないが、数分の1の料⾦で利⽤可能（v3-8:
$2.40/時間） Cloud TPUのプリエンプティブルインスタンスは最⼤24時間で必ず停⽌モデルの訓練ではチェックポイントを保存しておいて、次回はそこから再開することで、活⽤が容易

GCEでのモデル訓練

データとモデルはGCSに保存 Cloud TPUはユーザーがアクセスできるGCE VMとは異なるノードで稼働するため、GCE VMのローカルストレージにはアクセスできないこのため、使⽤するデータやモデルのチェックポイントの保
存にはGCSバケットを使⽤する必要がある

Preemptibleインスタンスを使う TensorFlowの場合には上記でVMとTPUが同時に作成される PyTorchの場合には複数バージョンがAnacondaでインストールされているため、TPUは別に作成する上記のコマンドでsshセッションが開始されるので、あとはソースコードをgit cloneしてスクリプトを実⾏
Jupyterを使いたい場合には下記のコマンドでsshトンネリング gcloud compute ssh train-bigbird –- L8888:localhost:8888 gcloud compute tpus execution-groups create ¥ --name=train-bigbird ¥ --zone=$GCP_ZONE ¥ --tf-version=2.5.0 ¥ --machine-type=n1-standard-8 ¥ --accelerator-type=v3-8 ¥ --preemptible ¥ --preemptible-vm

BigBird事前学習⽤スクリプトの修正 BigBirdの事前学習⽤スクリプトbigbird/pretrain/run_pretraining.pyには、テキストデータを⼊⼒としてマスクされた訓練データを⽣成する関数（numpy_masking）が含まれるこの関数はTensorFlowの計算グラフに組み込むために tf.compat.v1.py_func()を通じて呼ばれているが、Cloud TPU上ではエラーとなり実⾏ができない
このため、この機能を削除し、前処理済みのTFRecordファイルのみを扱うように修正したなお、この関数（numpy_masking）では、[CLS], [SEP], [MASK]という制御トークンのIDが65, 66, 67としてハードコーディングしてあるため、GPU環境などで⾃前のSentencePieceモデルを使⽤する際には修正が必要である

訓練の実⾏リポジトリをクローンした後、環境変数を設定、 BigBirdおよび依存関係モジュールをインストールしてから、右のように訓練を実⾏する正常終了（訓練完了）ある
いは異常終了（Cloud TPUが PREEMPTED）の場合に関わらず、SSHセッションを終了する SSHセッションが終了したらクリーンアップを実⾏ python3 run_pretraining.py ¥ --data_dir ${DATA_DIR} ¥ --output_dir ${MODEL_DIR} ¥ --preprocessed_data ¥ --max_encoder_length 4096 ¥ --max_predictions_per_seq 600 ¥ --do_train ¥ --train_batch_size 2 ¥ --optimizer AdamWeightDecay ¥ --learning_rate 1e-4 ¥ --num_train_steps 1400000 ¥ --num_warmup_steps 10000 ¥ --save_checkpoints_steps 5000 ¥ --vocab_model_file ${SPM_MODEL} ¥ --use_nsp ¥ --use_tpu ¥ --tpu_name ${TPU_NAME} ¥ --num_tpu_cores=8

結構⽌まるプリエンプティブルインスタンス実際にやってみると結構短い時間で停⽌されることがわかった→Checkpointの頻度を上げた GCE VMとCloud TPUの両⽅をプリエンプティブルにしていたので、どちらが停⽌されても再開の必要が出てくる
GCE VMが先に落ちると、Cloud TPUが課⾦されたままアイドルになるので注意︕（VMはPreemptibleにしない選択もあり）訓練のプロセスが終了したらVMをシャットダウンすることにした gcloud compute tpus create execution-group はインスタンス起動後にsshセッションを起動し、終了まで待つ仕様なので、このコマンド後にcleanupを⾏うスクリプトを使うことにした

予算枯渇と救世主の出現

無償枠を使い果たし早くも予算オーバー実は試⾏錯誤をしていたら、無償枠がゼロに（⾃動的にストップ） 1ヶ⽉以内に課⾦設定を有効にすれば継続利⽤可能私の場合には課⾦アカウントがあったので、ダウンロードしてあったデータをアップロードして継続へ
100,000ステップ学習したところで、設定してた予算枠10,000 円をオーバー

性能はまだまだ試しに100,000ステップ学習したモデルでファインチューニングを⾏い、ライブドアニュースの分類タスクをやってみたが、正解率93％程度でまだまだ学習不⾜⽇本語版BERTの学習曲線を⾒ても100,000ステップはほんの序の⼝⽇本語版BERTの140万ステップを学習させたら、14万円が
吹っ⾶ぶ︖ とても個⼈ができるレベルではなくなる… どうする︖

救世主の出現 bigbird/core/flags.pyに”use_gradient_checkpointing”というフラグを発⾒ニューラルネットワークの訓練時に⼤量のメモリを消費するのは、バックプロパゲーション（誤差逆伝播法）のために、計算した勾配を保持しておくためバックプロパケーションの際に勾配を再計算すれば保持する
必要なないが、その代わりに計算時間が⼤幅に増えるこのトレードオフをバランスするため、⼀部のレイヤのみ保持しそれ以外を破棄する Gradient Checkpointing が考えられた GPUでこのフラグをつけてみるとメモリ使⽤量が半減

Google Colabでも訓練可能に use_gradient_checkpointingを有効にすることにより、コアあたり8GBしかメモリがないCloud TPU v2でも訓練が可能に GCEを使わずとも、Google Colaboratoryで訓練ができるように
なった（ただし、GCSのコストはかかる）⽉額1,072円のGoogle Colab Proを使っているので、セッションの中断が少なくなった CAPTCHaが出てくるのは下記のスクリプトで回避 https://www.rockyourcode.com/script-to-stop-google-colab-from- disconnecting/

訓練が中断する環境で気をつけるべきこと今回のように巨⼤なデータセットを使い、訓練が中断される環境で訓練を⾏う際、データセットのシャッフルを⾏わないと、「いつもデータセットの最初の⽅しか訓練に使われない」という落とし⽳が…（途中で気がついた）当初は1個の巨⼤な（34.5GB）のTFRecordファイルを使っていたが、複数のファイルに分割することに
bigbird/pretrain/run_pretraining.pyには複数のTFRecordをシャッフルし、tf.data.Dataset.interleave()を使って混合するコードが含まれている今回は、TFRecordにする前のテキストファイルをドキュメント数で均等分割し使⽤している（つまり、各ファイルのサンプル数には差異がある）

BigBirdの学習結果は︖

現在も訓練続⾏中約18日間訓練中 807,000ステップ時点の損失1.876 1,400,000ステップでの学習結果と、応用については次の機会をお楽しみに

まとめ

まとめ⻑⽂を扱える⾃然⾔語処理モデルBigBirdを⽇本語Wikipediaのデータセットで事前学習させています TPUが使えるモデルであれば、GPUよりも低コストでデータ並列を使ったモデルの訓練が可能です GCPでは、さまざまな⽅法でCloud TPUを使⽤することができますが、
コストを抑えるにはPreemptible TPUを使⽤するのが効果的です Cloud TPUを使った訓練では、GCE VMの能⼒はさほど必要ありませんそれでも、⼤量のデータを学習させるには時間とお⾦がかかりますモデル訓練時の使⽤メモリを削減させる⼿法として、Gradient Checkpointingは有効です（ただし、訓練時間は⻑くなります） Cloud TPU v2で⼗分なモデルでは、Google Colaboratoryが最強で、Pro にすれば中断も抑えられます

参考資料 Cloud TPU https://cloud.google.com/tpu?hl=ja BigBird https://github.com/google-research/bigbird
板垣作成スクリプト https://github.com/masa-ita/train_bigbird Gradient Checkpointing論⽂ Training Deep Nets with Sublinear Memory Cost https://arxiv.org/abs/1604.06174v2 Google Colab Pro https://colab.research.google.com/signup

Cloud TPUの使い方〜BigBirdの日本語学習済みモデルを作る〜

Cloud TPUの使い方〜BigBirdの日本語学習済みモデルを作る〜

masa-ita

More Decks by masa-ita

Other Decks in Technology

Featured

Transcript

Cloud TPUの使い⽅〜BigBirdの⽇本語学習済みモデルを作る〜板垣正敏＠Python機械学習勉強会in新潟 2021/7/10

アジェンダ Cloud TPUとは︖ 今回のモチベーション Cloud TPUが使える深層学習環境

Cloud TPUとは︖

Cloud TPUとは︖ Googleが作っている Tensor計算専⽤プロセッサ（ASIC）専⽤仮想マシン（VM）に接続されておりgRPC経由で

TPUを使う⽅法の⼀般論フレームワークデータ並列モデル並列 TensorFlow l tf.distribute.TPUStrategy() l tf.compat.v1.estimator.tpu.T

GPUとCloud TPUのコスト⽐較タイプ vCPU GPU CPU メモリ GPU/TPU メモリ料⾦／

今回のモチベーション

BigBirdとは︖ Transformerを使った⻑い⽂章を扱うモデルが作りにくいのは、中核であるAttentionが⽂章の⻑さ（トークン数）の2乗に⽐例して⼤きくなるから BigBird は

Cloud TPUが使える深層学習環境

GCP上の深層学習環境サービス説明 TF PyT orch GPU TPU Pre- empti

Google Colabではなく GCEを使う理由 Google Colabで使える無料のTPU（v2-8）は、1基あたりメモリ 8GBで、トークン⻑4096のBigBirdは乗らない有償だがメモリ・性能が上位のv3-8を使ってみたい

GCEでのモデル訓練

データとモデルはGCSに保存 Cloud TPUはユーザーがアクセスできるGCE VMとは異なるノードで稼働するため、GCE VMのローカルストレージにはアクセスできないこのため、使⽤するデータやモデルのチェックポイントの保

訓練の実⾏リポジトリをクローンした後、環境変数を設定、 BigBirdおよび依存関係モジュールをインストールしてから、右のように訓練を実⾏する正常終了（訓練完了）ある

予算枯渇と救世主の出現

Google Colabでも訓練可能に use_gradient_checkpointingを有効にすることにより、コアあたり8GBしかメモリがないCloud TPU v2でも訓練が可能に GCEを使わずとも、Google Colaboratoryで訓練ができるように

BigBirdの学習結果は︖

現在も訓練続⾏中約18日間訓練中 807,000ステップ時点の損失1.876 1,400,000ステップでの学習結果と、応用については次の機会をお楽しみに

まとめ

参考資料 Cloud TPU https://cloud.google.com/tpu?hl=ja BigBird https://github.com/google-research/bigbird