Amazon EC2 Inf1 インスタンスハンズオン / Amazon EC2 Inf1 Instance Hands-on

© 2022, Amazon Web Services, Inc. or its Affiliates. Amazon
Web Services Japan 2022/3/24 AWS 深層学習アクセラレータ Amazon EC2 Inf1 インスタンスハンズオン

© 2022, Amazon Web Services, Inc. or its Affiliates. •
AWS 上で深層学習ワークロードを動かすための選択肢 (30 min) • 独⾃設計チップ AWS Inferentia と AWS Trainium による機械学習の⾼速化とコスト最適化 (30 min) • Amazon EC2 Inf1 インスタンスハンズオン (1 h 40 min) • TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker • Q&A, アンケート (20 min) 本⽇のアジェンダ

© 2022, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介
名前︓常世⼤史 (とこよひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボに参加。2015年2⽉の買収に伴い AWS の⼀員に好きなAWSサービス︓ EC2 Inf1インスタンス、F1インスタンス 2021 AWS Summit Online Japan Keynote Annapurna labs (アンナプルナラボ) とは... AWS 内の半導体開発部⾨。 Inferentia 推論専⽤チップや Graviton 64bit ARM プロセッサを開発

© 2022, Amazon Web Services, Inc. or its Affiliates. AWS
におけるシリコンイノベーション〜Annapurna Labs によるチップ開発の歴史〜 7+ years of innovation with Annapurna Labs AWS Nitro System ハイパーバイザー, ネットワーク, ストレージ, SSD, セキュリティ AWS Inferentia AWS Trainium 機械学習アクセラレーション AWS Graviton パワフルかつ効率的な最新プロセッサ

© 2022, Amazon Web Services, Inc. or its Affiliates. なぜ独⾃チップを作るのか︖
運⽤イノベーションスピード最適化 AWS の仕様に合わせてハードウェアを最適化⾼い電⼒効率製品の仕様化から導⼊までエンドツーエンドの開発プロセスより多くの価値を創造エンドツーエンドでの最適化信頼性・可⽤性動作監視・⾃⼰回復機能をチップレベルで実装

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け
Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習推論学習深層学習学習 + 推論

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け
Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習推論学習深層学習学習 + 推論最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習ワークロードでは最大3倍高速に現在プレビュー中 AWS Trainium による学習コストの最適化現在プレビュー中 AWS Inferentia による推論コストの最適化 G4インスタンスと比較し最大2.3倍のスループット向上、推論処理当たり最大70%低価格を実現 AWS独自開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大 40％優れた価格性能を提供

Inferentia 搭載 ML推論向け Amazon EC2 Inf1インスタンス

EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンスクラウド上で高速かつ低価格な推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/

EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年3⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年3⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇料⾦改定（38%削減）

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習
推論⽤プロセッサ AWS Inferentia • AWS による独⾃設計推論プロセッサ • 4 Neuron コア / チップ • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージメモリハイアラーキー • ⼤容量オンチップキャッシュと8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリメモリメモリ https://aws.amazon.com/machine-learning/inferentia/

© 2022, Amazon Web Services, Inc. or its Affiliates. ワークロードに合わせて
Neuronコアを柔軟に構成 • Neuronコア間、チップ間をパイプラインモードで接続することにより、⼤規模モデルを各オンチップキャッシュメモリ上に展開し、⾼スループットと低レイテンシーを両⽴ • 複数の Neuronコアをグループモードで接続することにより、複数のモデルを同時処理、スループットの最⼤化を図る Neuronコアグループ Neuronコアパイプライン

Inferentia によるコスト最適化 $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -49% -68% Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) -42% *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載

Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイムプロファイリングツール主要なフレームワークを全てサポート各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアルサンプルコード

© 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを
同時処理 Neuronコアグループ AWS Neuron コンパイラ超低遅延と⾼いスループットの両⽴ Neuronコアパイプライン FP32で学習済みのモデルを取り込み BF16へ⾃動変換 FP32オートキャスティング⾃動的にニューラルネットワークの演算を最適化スマートパーティショニング

Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向けにコンパイル可能

マネージドサービスでの Inf1 対応 Amazon SageMaker • Inf1 インスタンスを開始するための最も簡単で迅速な⽅法 • Amazon SageMaker は機械学習モデルをすばやく構築、トレーニング、デプロイするためのフルマネージドサービス • Inf1 インスタンスと Neuron はモデルをワンクリックでデプロイできるよう SageMaker に統合 Amazon EKS & ECS • Inf1 は Amazon EKS 及び ECS 上で利⽤可能 • Inf1 インスタンス上にモデルをデプロイするのに最適なマネージドコンテナサービス AWS DLAMI & DL コンテナ • Neuron は AWS Deep Learning AMI 及び AWS Deep Learning コンテナにプリインストール AWS Deep Learning Containers AWS Deep Learning AMIs Amazon SageMaker AWS Elastic Kubernetes Service Amazon Elastic Container Service

© 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例
– ⾼スループットと低レイテンシーの両⽴ • 推論には⾼いスループットを求めるバッチ推論と、低いレイテンシーが求められるリアルタイム推論の２つの異なる処理⽅式が存在 • GPUでは⾼いスループットを達成するためには⼤きなバッチサイズが必要となり、レイテンシーも増⼤ • Inf1 ではパイプラインモードを活⽤することで、⾼いスループットと低いレイテンシーを両⽴、リアルタイム推論性能最適化を実現

© 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例
– ⾼スループットと低レイテンシーの両⽴ 0 40 80 120 160 0.00 0.30 0.60 0.90 1.20 p95 レイテンシー (mSec) 1M 推論当たりのコスト (USD) レイテンシー vs. 推論当たりのコスト G4dn Inf1 ターゲットレイテンシー (SLA) バッチサイズ 64 バッチサイズ 1 バッチサイズ 1 バッチサイズ 6 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for- pytorch-natural-language-processing-applications-out-of-the-box-on-aws-inferentia/

© 2022, Amazon Web Services, Inc. or its Affiliates. 様々なお客様でコストパフォーマンス最適化を実現
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition

© 2022, Amazon Web Services, Inc. or its Affiliates. Alexa
は、実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポートしています Inf1インスタンスにより、GPUインスタンスと⽐較して運⽤コストを約30％削減し、推論レイテンシを25％改善することができました AMAZON ALEXA © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

© 2022, Amazon Web Services, Inc. or its Affiliates. ⾳声合成
(Text-to-Speech) モデルの最適化例 Inferentia1 Inferentia2 TTS Process Vocoder 2 Vocoder 4 Vocoder 1 Vocoder 3 コンテキスト⽣成 Neuronコアグループで実⾏ Neuron Core cache Neuronコアパイプラインで実⾏ Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache Neuron Core cache

© 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声
AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイはスケーラブルで管理が簡単になりました。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、すでに 30% 低レイテンシーと 71% のコスト削減をベンチマークしています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS 推論ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できるだけでなく、エンドツーエンドのレイテンシーが 40% 以上改善されました。TensorFlow ベースのモデルに Amazon SageMaker を使用すると、Inf1 インスタンスへの切り替えプロセスが簡単で管理が簡単になりました。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition

「私たちは Snapchat の多くの側面において機械学習 (ML) を組み込んでおり、この分野のイノベーションを探求することを重要な優先事項としています。Inferentia について聞いた後、AWS とのコラボレーションを開始して Inf1/Inferentia インスタンスを採用し、パフォーマンスやコストなど、機械学習のデプロイを支援しました。私たちは推奨モデルから始めましたが、今後は Inf1 インスタンスでさらに多くのモデルを採用することを楽しみにしています」 - Nima Khajehnouri, VP Engineering, Snap Inc. https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Anthem は、米国を代表する医療保険会社の 1 つであり、数十州にわたり 4000 万人以上のメンバーの医療ニーズに対応しています。「デジタル医療プラットフォームの市場は目覚ましい速度で成長しています。この市場に関するインテリジェンスは、膨大な量の顧客の意見データと構造化されていないその性質のため、収集が困難です。当社のアプリケーションは、深層学習の自然言語モデル (トランスフォーマー) を介して顧客の意見から実用的な洞察を自動的に生成します。当社のアプリケーションは計算集約型であり、高性能な方法でデプロイする必要があります。AWS Inferentiaプロセッサを搭載した Amazon EC2 Inf1 インスタンスに深層学習推論ワークロードをシームレスにデプロイしました。新しい Inf1 インスタンスは、GPU ベースのインスタンスに比べ 2倍のスループットを提供し、推論ワークロードを合理化することができました」 - Numan Laanait PhD, Principal AI/Data Scientist - Miro Mihaylov PhD, Principal AI/Data Scientist

https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials 「Condé Nast のグローバルポートフォリオには、Wired、Vogue、Vanity Fair など 20 を超える主要なメディアブランドが含まれています。数週間で私たちのチームはレコメンデーションエンジンを AWS Inferentia チップと統合できました。この統合により SageMaker の Inf1インスタンスで最先端の自然言語モデルの複数のランタイム最適化が可能になります。その結果、以前にデプロイされた GPUインスタンスよりも 72% のコスト削減が見られました」 - Paul Fryzel, Principal Engineer, AI Infrastructure 「Autodesk は、Inferentia を使用して、AI を活用した仮想アシスタントである Autodesk Virtual Agent (AVA) の認知テクノロジーを進歩させています。AVA は、自然言語理解 (NLU) と深層学習技術を適用して、問い合わせの背後にあるコンテキスト、意図、および意味を抽出することにより、顧客の質問に毎月 100,000 件以上の回答を行っています。Inferentia をパイロットすると、NLU モデルで G4dn よりも 4.9 倍高いスループットを得ることができ、 Inferentia ベースの Inf1 インスタンスで多くのワークロードを実行できることを楽しみにしています」 - Binghui Ouyang, Sr Data Scientist, Autodesk

「INGA は、現在のビジネスパイプラインに簡単に統合できる、人工知能と深層学習技術に基づく高度なテキスト要約ソリューションを作成しています。テキストの要約は、企業がデータから有意義なインサイトを引き出す支援を行う上で重要になると考えます。AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスを迅速に立ち上げ、開発パイプラインに統合しました。あっという間に影響が広がり、またその影響は重大でした。Inf1 インスタンスの高いパフォーマンスで、推論モデルパイプラインの効率と効果を向上させることができます。これまでの GPU ベースのパイプラインと比較して、従来の常識を破って、スループットでは 4 倍、パイプライン全体のコストでは 30％の削減を実現しています。」 Yaroslav Shakula, Chief Business Development Officer, INGA Technologies https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials 「SkyWatch では、毎日、宇宙から送られる数百兆ピクセルもの地球観測データを処理しています。リアルタイムでのクラウド検出と画質のスコアリングに Amazon SageMaker を使った新しい AWS Inferentia ベースの Inf1 インスタンスの採用は、迅速かつ簡単でした。デプロイ設定でインスタンスタイプを切り替えるだけで済みました。インスタンスタイプを Inferentia ベースの Inf1 に切り替えることで、パフォーマンスが 40％向上し、全体のコストは 23％削減しました。大成功でした。これにより、エンジニアリングのオーバーヘッドを最小限に抑えて、高品質の衛星画像を提供しながら、全体的な運用コストを削減してきました。Inf1 インスタンスを使って、すべての推論エンドポイントとバッチ ML 処理を移行し、データの信頼性とカスタマーエクスペリエンスをさらに向上しようとしています。」 Adler Santos, Engineering Manager, SkyWatch

© 2022, Amazon Web Services, Inc. or its Affiliates. ⽇本国内のお客様の声
“物体検出に基づいて、従業員のいない実店舗のビデオから、入店する顧客の人数を推定することによって洞察を提供することもできます。Ciao Camera は、Inf1 インスタンスを商業的に採用し、YOLOv4 を搭載した G4dn よりも 40% 優れた価格性能比を実現しました。" Shinji Matsumoto, Software Engineer, Ciao Inc. “画像セグメンテーションモデルは、GPU ベースの G4 インスタンスと比べ、AWS Inferentia ベースの Inf1 インスタンスで 4倍高速で実行されることを認識しました。この高スループットと低コストにより、Inferentia を使用すると、車のドライブレコーダーのアプリケーションなど、AI ワークロードを大規模にデプロイすることができます。“ Hiroyuki Umeda, Director & General Manager, Sales & Marketing Group, Digital Media Professionals “PyTorchベースのテキスト要約 AIアプリケーションを検証しました。このアプリケーションは、過去30年間の記事で学習されたモデルを利用し、ヘッドラインと要約文を生成します。 Inferentiaを使用して、CPUベースのインスタンスよりもコストを1桁削減しました。以前はコスト面で実現できなかった複雑なモデルを大規模に展開可能となります。” Hideaki Tamori, PhD, Senior Administrator, Media Lab, The Asahi Shimbun Company https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials “高度な姿勢推定マシンラーニングモデルに基づいた動作分析 API プラットフォームサービス「AnyMotion」を開発しました。Amazon EC2 Inf1 に AnyMotion コンテナをデプロイすることで、現行の GPU ベースの EC2 インスタンスと比較して、4.5 倍のスループットを達成、推論レイテンシーが 25% 短縮され、コストも 90% 削減できました。" Toshiki Yanagisawa, Software Engineer - NTT PC Communications Incorporated

Trainium 搭載 ML学習向け Amazon EC2 Trn1インスタンス

© 2022, Amazon Web Services, Inc. or its Affiliates. ELMo
(2018) BERT-Large (2018) GPT-2 (2019) Turing NLG (2020) GPT-3 (2020) Switch-C (2021) … 100 B 1B 1T 10T 10B 100 M AI/ML インフラストラクチャの主要トレンド GROWTH IN MODEL COMPLEXITY (# of parameters) 1. 古典的な機械学習から深層学習（ディープラーニング）に移⾏しているため、モデルはより複雑化 2. モデルの学習にかかる時間とコストは、数⽇から数週間へと爆発的に増加中 3. データサイエンティストやMLエンジニアは、⾃分たちのユースケースや経験に適したソフトウェアツールやハードウェアプラットフォームを模索

EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud B F 1 6 / F P 1 6 F P 3 2 840 TFLOPS T F 3 2 3.4 PFLOPS 3.4 PFLOPS T R A N S I S T O R S P E R C H I P 55,000,000,000 Trn1 演算エンジン周波数 3 GHz アグリゲートアクセラレータメモリ 512 GB ピークメモリ帯域幅 13.1 TB/sec チップ間 N E U R O N LI N K 帯域幅 768 GB/sec ネットワークコネクティビティ 800 Gbps EFA

EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud • 60% 増強したアクセラレータメモリ(vs. P4d) • 2倍のネットワーク帯域幅 (vs. P4d) • PyTorch 及び TensorFlow をネイティブにサポート • Trn1上で学習し、デプロイ先は⾃由 • 2022前半での⼀般提供を予定インスタンスサイズ Trainium チップ数アクセラレータメモリ (GB) vCPU メモリ (GB) NeuronLink (GB/s) NW帯域 (Gbps) NVMe SSD (TB) Trn1.2xlarge 1 32 8 32 N/A 最⼤ 10 0.5 Trn1.32xlarge 16 512 128 512 768 800 8 https://aws.amazon.com/jp/ec2/instance-types/trn1/

© 2022, Amazon Web Services, Inc. or its Affiliates. Trainium
機械学習学習⽤プロセッサ AWS Trainium • AWS による第２世代独⾃設計機械学習プロセッサ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、計算と通信をオーバーラップ可能 • 32GB HBM2E メモリスタック • Configurable FP8、 Stochastic roundingにハードウェアで対応 https://aws.amazon.com/machine-learning/trainium/ HBM2E メモリ Collective compute エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン

© 2022, Amazon Web Services, Inc. or its Affiliates. 対応するデータタイプと性能⽐
FP32 P R E C I S I O N R A N G E S TF32 BF16 FP16 cFP8 UINT8 0 1 2 3 4 BF16/FP16 TF32 FP32 Normalized Performance P3dn P4d Trn1 データタイプごとの性能 ( T F L O P S ) ⽐ NLP/DLRM Computer vision >5x >2.5x 1.4x *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載性能 ( T F L O P S ) ⽐

© 2022, Amazon Web Services, Inc. or its Affiliates. Stochastic
rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数が0.5より⼩さいなら切り捨て、端数が0.5より⼤きいならは切り上げ • 重みのパラーメータ１に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 重みのパラーメータ1に0.2を加える場合、80%の確率で1、20%の確率で2として処理 https://arxiv.org/pdf/1502.02551.pdf

© 2022, Amazon Web Services, Inc. or its Affiliates. Petabits/s
throughput, billions of IOPS Trn1 10K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト EC2 UltraClusterごとに1万以上のTrainiumアクセラレータを搭載 2.1 ExaFLOPS の演算性能を持つ世界最⾼⽔準のスーパーコンピュータへのオンデマンドアクセス

© 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成
⼤容量インサーバアクセラレータメモリアクセラレータメモリ P3dn 256 GB 320 GB 512 GB P4d Trn1 ⾼帯域・低レイテンシーインターコネクトチップ間インターコネクト P3dn 300 GB/s 600 GB/s 768 GB/s P4d Trn1 ネットワーク帯域幅 (EFA) P3dn 100 Gb/s 400 Gb/s 800 Gb/s P4d Trn1 (NeuronLink) *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載

© 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成
演算と通信の並列化コア演算と通信を別々のエンジンで実現 0 0.4 0.8 1.2 1.6 16 32 64 128 256 512 1024 Relative performance Batch size Trn1.32xl P4d.24xl STRONG SCALIN G ⼩さなバッチサイズでも効率的に実⾏ Trainium Compute エンジン Compute エンジン Comm エンジン Computation Communication Time ストロングスケーリング* ⼩さなバッチサイズでも効率的に実⾏ *トータルバッチサイズをノード数で分割することで１ノード当たりのバッチサイズを減らし⾼速化性能⽐バッチサイズ演算フェーズ通信フェーズ

© 2022, Amazon Web Services, Inc. or its Affiliates. フレームワークの完全統合,
JIT, Eagerモード, collective compute フレームワークインテグレーション 10K以上のデバイスへのスケールアップ、分散型トレーニングライブラリの統合, EFAに対応分散トレーニングカスタムオペレータ, dynamic shapes, 新しいデータタイプ, stochastic rounding (確率的な丸め処理) に対応柔軟性と拡張性 Amazon SageMaker, Amazon EKS & ECS, AWS ParallelCluster, AMIs AWSサービスと連携 AWS Neuron

ポートフォリオとの統合ネットワーキング & ストレージフレームワーク & ワークフローサービスコンピュート & アクセラレーション Amazon FSx for Lustre Amazon S3 EC2 Trn1 UltraCluster Amazon EC2 Trn1 Amazon SageMaker AWS Deep Learning AMIs Amazon EKS Amazon ECS AWS Deep Learning Containers Elastic Fabric Adapter Amazon EBS Amazon EFS Pytorch TensorFlow

“Sprinklrの⾃然⾔語処理とコンピュータビジョンのMLモデルは、30以上のチャンネルで公開されているソーシャルメディアの投稿、ブログ投稿、ビデオコンテンツ、その他のパブリックドメインで利⽤できるコンテンツから得られるさまざまなデータ形式を分析します。これまでAWS Inferentia を利⽤し得られた価値に基づいて、我々は AWS Trainiumを試して、我々のモデルの学習時間を改善し、学習コストを削減することを切望しています。これらの⾼性能かつ低コストの学習向けインスタンスで我々のモデルを開発することを楽しみにしています” Vasant Srinivasan, Senior Vice President of Product Engineering at Sprinklr “当社の成功の鍵は、⼤規模な⾼性能ディープラーニングアクセラレータを搭載した最新のインフラストラクチャにアクセスできることです。AWS Trainium を搭載したAmazon EC2 Trn1インスタンスは、⾼いネットワーク帯域幅を持ち、数万ノードにわたって拡張できる前例のない性能により、コストを抑えながらより速い分散学習が可能になるため、楽しみにしています” Tom Brown, Co-Founder at Anthropic ※ Amazon EC2 Trn1 プレビューにお申し込み下さい https://pages.awscloud.com/EC2-Trn1-Preview.html

© 2022, Amazon Web Services, Inc. or its Affiliates. まとめ
• 独⾃設計チップを開発、チップからサーバー、データセンターのレイヤーまで最先端インフラストラクチャを提供 • 機械学習ワークロード向けに幅広い Amazon EC2 インスタンスの選択肢を提供 • 推論向け AWS Inferentia を搭載した Inf1 インスタンス • ⾼いスループットと低いレイテンシーを両⽴、ML推論で最⾼のコストパフォーマンスを実現 • 東京を含む23のリージョンにて利⽤可能 • 学習向け AWS Trainium を搭載した Trn1 インスタンス • ⼤規模モデルの分散学習に対応した⾼性能インフラストラクチャを低コストで提供 • プレビュー中機械学習ワークロードのコストパフォーマンス最適化をお試し下さい︕

© 2022, Amazon Web Services, Inc. or its Affiliates. 参考資料
• 機械学習推論⽤プロセッサ AWS Inferentia https://aws.amazon.com/jp/machine-learning/inferentia/ • Amazon EC2 Inf1 インスタンス https://aws.amazon.com/ec2/instance-types/inf1/ • AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ • AWS Neuron SDK https://github.com/aws/aws-neuron-sdk • Amazon EC2 Inf1 ワークショップ https://ec2-inf1.workshop.aws/ • 機械学習学習⽤プロセッサ AWS Trainium https://aws.amazon.com/jp/machine-learning/trainium/ • Amazon EC2 Trn1 インスタンス https://aws.amazon.com/ec2/instance-types/trn1/ • Amazon EC2 Trn1 プレビュー申し込みURL https://pages.awscloud.com/EC2-Trn1-Preview.html

© 2022, Amazon Web Services, Inc. or its Affiliates. 関連ブログ、記事
• Accelerate BERT inference with Hugging Face Transformers and AWS Inferentia https://huggingface.co/blog/bert-inferentia-sagemaker • Amazon Ads Uses PyTorch and AWS Inferentia to Scale Models for Ads Processing https://pytorch.org/blog/amazon-ads-case-study/ • 【お客様事例】株式会社 NTTPC 様 Amazon EC2 Inf1 インスタンス、姿勢推定推論サービスのコストパフォーマンス最適化の取り組み https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ • Amazon SageMaker でコンピュータビジョン推論に最適な AI アクセラレータとモデルコンパイルを選択 https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon- sagemaker/ • AWS Inferentiaを使⽤して Amazon EKS で 3,000種類のディープラーニングモデルを 1 時間あたり 50 USD 以下で提供 https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ • 機械学習と AWS Inferentia を使⽤した広告検証のスケーリング https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ • AWS Inferentia 上の PyTorch ⾃然⾔語処理アプリケーションにおいて、12倍のスループットと最⼩のレイテンシーを実現 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications- out-of-the-box-on-aws-inferentia/ • 【お客様事例】株式会社朝⽇新聞社様⾃然⾔語処理の取り組みと EC2 Inf1 インスタンスの検証 https://aws.amazon.com/jp/blogs/news/mediaseminar2021q1-asahi-shimbun-jpmne/ • Alexa の⼤部分で、より⾼速でコスト効率の⾼い Amazon EC2 Inf1 インスタンスによる実⾏を開始 https://aws.amazon.com/jp/blogs/news/majority-of-alexa-now-running-on-faster-more-cost-effective-amazon-ec2-inf1-instances/

EC2 Inf1 開発フロー • 開発（モデルのコンパイル）、ホスティングを EC2インスタンス上で実施 • モデルのコンパイルは TensorFlow, PyTorch フレームワーク上で実施 • コンパイルは Inf1 以外のインスタンスで実⾏することも可能 • 開発（モデルのコンパイル）、ホスティングを Amazon SageMaker 上で実施 • モデルのコンパイルは Amazon SageMaker Neo を利⽤

TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker Amazon EC2 Inf1インスタンスハンズオン

© 2022, Amazon Web Services, Inc. or its Affiliates. ⼿順
• 以下リンク先のワークショップの内容に沿って進めて頂きます • https://ec2-inf1.workshop.aws • [Japanese] を選択

• 「サービス」「コンピューティング」「EC2」と選択、「インスタンスを起動」 • AMI は Deep Learning AMI (Ubuntu 18.04) Version 58.0 を選択

• インスタンスタイプとして「inf1.2xlarge」を選択

• SSHアクセスを許可

© 2022, Amazon Web Services, Inc. or its Affiliates. インスタンスへSSHログイン
ブラウザ経由、AWS CloudShellでログインする場合 AWSサービス一覧の画面から、CloudShellを起動 KeyPair作成時に取得した秘密鍵ファイルをアップロードコマンドラインでログイン(事前にパーミッションを600に!) 54 $ chmod 600 ee-default-keypair.pem $ ssh -i ee-default-keypair.pem ubuntu@インスタンスホスト名リージョンを確認（us-west-2）秘密鍵ファイル（.pem）をアップロード

WindowsからTeraTermでログインする場合 TeraTerm (ttssh.exe) を起動 http://sourceforge.jp/projects/ttssh2/ 接続するインスタンスのホスト名を入力 SSH2を指定ユーザ名: ubuntu KeyPair作成時に取得した秘密鍵ファイルを選択して接続 centos 55

Mac/Linux からログインする場合 Terminalからコマンドラインでログイン(事前にパーミッションを600に!) $ chmod 600 ~/.ssh/ee-default-keypair.pem $ ssh -i ~/.ssh/ee-default-keypair.pem ubuntu@インスタンスホスト名 56

• インスタンスにログイン後はワークショップの内容に従って進めていきます

© 2022, Amazon Web Services, Inc. or its Affiliates. ワークショップの内容と最新版との差異
2011年11⽉時点でのワークショップの内容と本⽇時点の最新版との間にはいくつか差異があります 3.1 NEURON SDK 開発環境のセットアップ 3.2 TENSORFLOW 開発環境のセットアップ 3.3 PyTorch 開発環境のセットアップ

TensorFlow ResNet-50 モデルによる画像分類 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on EC2 • Hugging Face (PyTorch) BERT モデルによる⾃然⾔語処理 on SageMaker Amazon EC2 Inf1インスタンスハンズオン

• 検索窓に「sagemaker」と⼊⼒し、「SageMaker Studio」を選択 • 本ハンズオンで使⽤するアカウントでは、IAM等、本来必要となる設定が既に実⾏されています

• SageMaker Domain の画⾯から「アプリケーションを起動」「Studio」を選択、 Amazon SageMaker Studio を起動します

• 「System terminal」を起動し、必要なファイルをクローンします bash-4.2$ git clone https://github.com/aws/amazon-sagemaker-examples.git

• 以下のノートブックを開きます。 • ノートブック環境はデフォルトのままで問題ありません。 amazon-sagemaker-examples/sagemaker_neo_compilation_jobs/ deploy_huggingface_model_on_Inf1_instance/inf1_bert_compile_and_deploy.ipynb

• 実⾏にあたり、あらかじめ以下のセルを修正して下さい ※ アンコメント

© 2022, Amazon Web Services, Inc. or its Affiliates. Next
Step • AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ • AWS Neuron SDK https://github.com/aws/aws-neuron-sdk • Neuron Tutorials https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron- intro/tutorials.html • Bring Your Own Neuron Container to Sagemaker Hosting https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron-deploy/container- sm-hosting-devflow.html

EC2 Inf1 開発フロー（BYOC) • コンパイルした推論モデル環境をコンテナ化し、SageMaker、ECS、EKSにてホスティング • ベースとなる Neuron SDK搭載 DLC (Deep Learning Container) が⽤意されています https://github.com/aws/deep-learning-containers/blob/master/available_images.md#neuron-inference-containers

EC2 Inf1 開発フロー（BYOC) • コンパイルした推論モデル環境をコンテナ化し、SageMaker、ECS、EKSにてホスティング https://awsdocs-neuron.readthedocs-hosted.com/en/latest/neuron-deploy/index.html

Amazon EC2 Inf1 インスタンスハンズオン / Amazon EC2 Inf1 I...

Amazon EC2 Inf1 インスタンスハンズオン / Amazon EC2 Inf1 Instance Hands-on

More Decks by Hiroshi Tokoyo

Other Decks in Technology

Featured

Transcript