実践AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. ©
2022, Amazon Web Services, Inc. or its affiliates. 実践AWS Inferentia AWS 秋の Amazon EC2 Deep Dive 祭り 2022 渡辺啓太技術統括本部コンピュートスペシャリストソリューションアーキテクトアマゾンウェブサービスジャパン合同会社

© 2022, Amazon Web Services, Inc. or its affiliates. 自己紹介
2 名前: 渡辺啓太所属: 技術統括本部コンピュートスペシャリストソリューションアーキテクト職務: マネッジドサービスを用いない機械学習経歴: 大学院にて理論神経科学を研究後、自動運転のスタートアップ企業や国内ECサイト運営企業などで機械学習リサーチャーとして活動好きなAWSサービス: Amazon EC2, Amazon EKS, AWS ParallelCluster

© 2022, Amazon Web Services, Inc. or its affiliates. アジェンダ
3 Part 3. Amazon EC2 Trn1 GA! (3 min. ) Part 1. 概説AWS Inferentia (5 min) Part 2. 実践AWS Inferentia (12 min.) このセッションから得られるもの • Amazon EC2 Inf1インスタンスの基礎知識 • Amazon EC2 Inf1インスタンス上での推論器の最適化手法 • 先週GAされたAmazon EC2 Trn1 インスタンスの最新情報想定視聴者 Inf1を用いた機械学習推論に興味があるがどこから手をつければよいかわからない方

© 2022, Amazon Web Services, Inc. or its affiliates. Part1:
概説 AWS Inferentia 4

© 2022, Amazon Web Services, Inc. or its affiliates. •
AWSが開発した推論用チップ • Neuronを用いて高速な推論を実現 • EC2 Inf1インスタンスに搭載 AWS Inferentia AWS Neuron • Inferentiaチップを使用して推論を実行するためのソフトウェア開発キット（SDK） • 高速かつ低価格な推論を実現する Inferentia搭載インスタンス Amazon EC2 Inf1 インスタンス概説 AWS Inferentia 本パートのアジェンダ AWS Inferentiaクイックツアー AWS EC2 Inf1インスタンスの選択肢 AWS Neuron Part1. 概説 AWS Inferentia 5

© 2022, Amazon Web Services, Inc. or its affiliates. AWS
Inferentia クイックツアー 6 Part1. 概説 AWS Inferentia TPB 5 TPB 6 TPB 8 TPB 7 Memory Memory Memory Memory Neuron Engine Neuron Engine Neuron Engine AWS Inferentia Neuron Core cache Memory Neuron Core cache Memory Neuron Core cache Memory Neuron Core cache Memory • AWSによる独自設計の推論プロセッサ • 一つのInferentiaチップにつき4つのNeuron Core （アクセラレータ）を搭載 • 記憶階層としてオンチップのキャッシュと8GBの DRAMを搭載 • データ型としてFP16、BF16、INT8をサポート • 高速チップ間通信をサポート

© 2022, Amazon Web Services, Inc. or its affiliates. Amazon
SageMaker Amazon Elastic Kubernetes Service (Amazon EKS) Amazon Elastic Container Service (Amazon ECS) インスタンスサイズ vCPUs Memory (GIB) Inferentia チップ数 Storage Network 帯域幅 EBS 帯域幅 inf1.xlarge 4 8 1 EBS Up to 25 Gbps Up to 4.75 Gbps inf1.2xlarge 8 16 1 EBS Up to 25 Gbps Up to 4.75 Gbps inf1.6xlarge 24 48 4 EBS 25 Gbps 4.75 Gbps inf1.24xlarge 96 192 16 EBS 100 Gbps 19 Gbps Amazon EKS、Amazon ECS、Amazon SageMakerからも利用可能 Inf1インスタンスの選択肢 7 Part1. 概説 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. 8
AWS Neuron Inferentiaに最適化された推論器を作成するのに必要なSDK 複数の機械学習フレームワークに対応 Neuron コンパイラ Neuron ランタイムプロファイリングツール TensorFlow, the TensorFlow logo and any related marks are trademarks of Google Inc. PyTorch, the PyTorch logo and any related marks are trademarks of Facebook, Inc. MXNet AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアルサンプルコード Part1. 概説 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. Part2:
実践 AWS Inferentia 9

© 2022, Amazon Web Services, Inc. or its affiliates. Inf1を用いた推論器構築までのフロー
10 Part2. 実践 AWS Inferentia モデルを構築するモデルを学習させる Neuronを用いてモデルをコンパイルするモデルをInf1へデプロイする本セッション範囲外本セッション範囲内 HuggingFace🤗 の学習済みモデルを用いる Part2でカバーするのはこの範囲本パートのアジェンダ • Neuronを用いたモデルのコンパイル • Inferentiaを使い切るための並列化 • 最適化のためのベンチマーク

© 2022, Amazon Web Services, Inc. or its affiliates. Neuron
SDK によるモデルコンパイル 11 Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器のリソース使用状況を確認する:
neuron-top 12 注: inf1.24xlarge使用時 NeuronCore、vCPU、メモリーの使用率などを監視するためのコマンド Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器のリソース使用状況を確認する
13 注: inf1.xlarge使用時先程、コンパイルしたモデルを用いて無限ループ内で推論を行う NeuronCore一つのみが稼働している様子がneuron-topから確認できる Inf1を効率的に使用するためには、工夫が必要であることがわかる Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. 推論の並列化へ
14 Neuron Coreをどのように使い切るかで2つの異なるアプローチが存在する Part2. 実践 AWS Inferentia Data Parallel 各Neuron Coreで独立にモデルを動かす Pipeline Parallel 一つのモデルを各NeuronCoreに分散配置高スループットが期待できる低レイテンシーが期待できる

© 2022, Amazon Web Services, Inc. or its affiliates. DataParallelでの実装例
15 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/general/arch/neuron-features/neuroncore-batching.html 主なパラメータ： Batch size Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. Pipeline
Parallelでの実装例 16 https://awsdocs-neuron.readthedocs- hosted.com/en/latest/src/examples/pytorch/pipeline_tutorial/neuroncore_pipeline_pytorch.html?highlight=inference_latency#Bonus-Section---Load-Testing- Data-Parallel-Mode 主なパラメータ： neuron-core- pipeline-cores Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. ベンチマーク
17 • モデル： bert-base-uncased • 入力の長さ： 128 • インスタンス: • Inf1.xlarge • Inf1.6xlarge • G4dn.xlarge • G5.xlarge • Inf1のベンチマークには、 neuronperfを使用 neuronperf • Neuronを用いた推論のパフォーマンスを評価するPythonライブラリ • PyTorch,TensorFlow, MXNetを用いた推論の評価が可能 • Neuronの開発チームが実際にパフォーマンスを評価するのに使用しているツール • https://awsdocs-neuron.readthedocs- hosted.com/en/latest/tools/neuronperf/index.html Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器最適化実験
18 実験の目的：Throughput重視、Latency重視、それぞれのシナリオにおいて適した推論器のデプロイ環境を調べる。 Part2. 実践 AWS Inferentia

DataParallel 19 結果 [左上]: スループット • 高バッチサイズ -> 高スループット • NeuronCoreに比例した性能差 [右上]: レイテンシー • 単一のモデルが動作するNeuronCore の性能は同じなので差は見られず [左下]: 時間単価 • 米国北部（バージニア北部）でのオンデマンドの時間単価（USD） [右下]: 100万入力を処理するのに必要なコスト • 高バッチサイズにおいてはどちらのインスタンスを用いてもほぼ同等のコスト Part2. 実践 AWS Inferentia

PipelineParallel 20 結果 [左上]: スループット • Inf1.xlarge: pipeline並列のご利益があまり得られず • Inf1.6xlarge: NeuronCoreをフルに使いる設定で最大のスループット [右上]: レイテンシー • Inf1.6xlarge: NeuronCoreをフルに使いる設定で最小のレイテンシー [左下]: 時間単価 • 米国北部（バージニア北部）でのオンデマンドの時間単価（USD） [右下]: 100万入力を処理するのに必要なコスト • Inf1.xlarge: pipeline並列不使用時がベスト • Inf1.6xlarge: pipeline並列をフルに用いた場合がベスト Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. GPU
instances 21 結果 [左上]: スループット • 高バッチサイズ -> 高スループット [右上]: レイテンシー • 高バッチサイズ -> 低レイテンシー [左下]: 時間単価 • 米国北部（バージニア北部）でのオンデマンドの時間単価（USD） [右下]: 100万入力を処理するのに必要なコスト • G5.xlarge, G4dn.xlargeともにバッチサイズ最大時がベスト Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. Throughput
重視での比較 22 結果 • それぞれのインスタンスで最大のバッチサイズを用いた場合での比較 • Inf1ではDataParallelの結果を用いた • スループットに1~2桁の性能差 • それに比例したInf1でのコスト優位性が観察された Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. Latency重視での比較
23 結果 • それぞれのインスタンスでバッチサイズ１としたときの比較 • Inf1ではPipelineParallelの結果を用いた • Inf1.6xlargeのレイテンシーは G5.xlarge比で約半分 • コストとしても約１ドル安価 Part2. 実践 AWS Inferentia

© 2022, Amazon Web Services, Inc. or its affiliates. Amazon
EC2 Trn1 インスタンスがGAとなりました 🎉 25 B F 1 6 / F P 1 6 F P 3 2 840 TFLOPS T F 3 2 3.4 PFLOPS 3.4 PFLOPS T R A N S I S T O R S P E R C H I P 55,000,000,000 Trn1 演算エンジン周波数 3 GHz アグリゲートアクセラレータメモリ 512 GB ピークメモリ帯域幅 13.1 TB/sec チップ間 N E U R O N L I N K 帯域幅 768 GB/sec ネットワーク帯域幅 800 Gbps EFA

P4d比60%増のアクセラレータメモリ P4d比2倍のネットワーク帯域幅 PyTorchとTensorFlowをネイティブにサポート学習したモデルをTrn1以外の環境にデプロイ可能 Amazon EC2 Trn1 インスタンスインスタンスサイズ vCPUs Trainium チップ数アクセラレータメモリ NeuronLink ホストメモリネットワーク帯域幅 Trn1.2xlarge 8 1 32 GB N/A 32 GB Up to 10Gbps Trn1.32xlarge 128 16 512 GB 768 GB/sec 512 GB 800 Gbps

© 2022, Amazon Web Services, Inc. or its affiliates. 機械学習
学習用プロセッサ AWS Trainium 27 Trainium • AWS による第２世代独自設計機械学習プロセッサ • 2 Neuronコア / チップ • Tensor エンジン：畳み込み等、行列演算に最適化 • Scalar エンジン：RELU等の活性化関数に最適化 • Vector エンジン：Batch Normalizationやプーリング処理に最適化 • 組込型汎用DSP：カスタムオペレータに対応 • 専用 collective compute エンジン • 分散学習を行う際に、計算と通信をオーバーラップ可能 • 32GB HBM2E メモリスタック • Configurable FP8、 Stochastic roundingにハードウェアで対応 https://aws.amazon.com/machine-learning/trainium/ HBM2E メモリ Collective compute エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン

Add PyTorch XLA imports Place your model/tensors onto an XLA device to tell the compiler where to end the compute graph

https://jawsug-ai.connpass.com/event/261173/

実践AWS Inferentia

実践AWS Inferentia

Keita Watanabe

More Decks by Keita Watanabe

Other Decks in Technology

Featured

Transcript

© 2022, Amazon Web Services, Inc. or its affiliates. ©

© 2022, Amazon Web Services, Inc. or its affiliates. 自己紹介

© 2022, Amazon Web Services, Inc. or its affiliates. アジェンダ

© 2022, Amazon Web Services, Inc. or its affiliates. Part1:

© 2022, Amazon Web Services, Inc. or its affiliates. •

© 2022, Amazon Web Services, Inc. or its affiliates. AWS

© 2022, Amazon Web Services, Inc. or its affiliates. Amazon

© 2022, Amazon Web Services, Inc. or its affiliates. 8

© 2022, Amazon Web Services, Inc. or its affiliates. Part2:

© 2022, Amazon Web Services, Inc. or its affiliates. Inf1を用いた推論器構築までのフロー

© 2022, Amazon Web Services, Inc. or its affiliates. Neuron

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器のリソース使用状況を確認する:

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器のリソース使用状況を確認する

© 2022, Amazon Web Services, Inc. or its affiliates. 推論の並列化へ

© 2022, Amazon Web Services, Inc. or its affiliates. DataParallelでの実装例

© 2022, Amazon Web Services, Inc. or its affiliates. Pipeline

© 2022, Amazon Web Services, Inc. or its affiliates. ベンチマーク

© 2022, Amazon Web Services, Inc. or its affiliates. 推論器最適化実験

© 2022, Amazon Web Services, Inc. or its affiliates. Neuron

© 2022, Amazon Web Services, Inc. or its affiliates. Neuron

© 2022, Amazon Web Services, Inc. or its affiliates. GPU

© 2022, Amazon Web Services, Inc. or its affiliates. Throughput

© 2022, Amazon Web Services, Inc. or its affiliates. Latency重視での比較

© 2022, Amazon Web Services, Inc. or its affiliates. ©

© 2022, Amazon Web Services, Inc. or its affiliates. Amazon

© 2022, Amazon Web Services, Inc. or its affiliates. 26

© 2022, Amazon Web Services, Inc. or its affiliates. 機械学習

© 2022, Amazon Web Services, Inc. or its affiliates. 28

© 2022, Amazon Web Services, Inc. or its affiliates. 29