Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Accelerated Computing for NLP on AWS

Accelerated Computing for NLP on AWS

AWS で自然言語処理を高速化する方法

2022年言語処理学会のAWSスポンサーセッションで発表しました

4e10f0bc53073da7f55420c1a2021c8b?s=128

Shoko Utsunomiya

July 01, 2022
Tweet

More Decks by Shoko Utsunomiya

Other Decks in Technology

Transcript

  1. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Accelerated Computing on AWS for NLP AWS で⾃然⾔語処理を⾼速化する⽅法 Shoko Utsunomiya Sr. Machine Learning Solutions Architect Amazon Web Services Japan G.K.
  2. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS のオープンソースへの貢献 3
  3. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. オープンソースによる Builder ツールの改善
  4. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. マネージドサービス で OSS の実運⽤をサポート 5 Amazon Keyspaces for Apache Cassandra Amazon EKS (Kubernetes) FreeRTOS AWS RoboMaker (ROS) Amazon ElastiCache for Redis, Memcached AWS AppMesh (Envoy) TorchServe (Run PyTorch Models) AWS Lambda (Firecracker) Amazon OpenSearch Service
  5. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. AWS が貢献する AI/ML の オープンソース AutoGluon State of the art の AutoML auto.gluon.ai/ Apache MXNet 深層学習フレームワーク mxnet.apache.org/ Optimized DL Frameworks PyTorch, Tensorflow, Apache MXNet のサポート Hugging Face SageMaker Python SDK, DLC への統合 Kubernetes Support SageMaker Operators & Components による連携 Deep Graph Library (DGL) Graph Neural Networks www.dgl.ai/ TorchServe PyTorch の model server Deep Java Library (DJL) Java で深層学習 djl.ai/ Dive into Deep Learning インタラクティブな深層学習の教科書 d2l.ai/
  6. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. TorchServe はオープンソースの PyTorch モデルサービン グフレームワークで、カスタムコードを記述することなく、 トレーニング済みの PyTorch モデルを⼤規模かつ ⾼パフォーマンスで簡単にデプロイできます。 https://pytorch.org/serve/ TorchElastic Controller for Kubernetes は TorchElastic のネイティブ Kubernetes 実装で、 TorchElastic トレーニングに必要なポッドとサービス のライフサイクルを⾃動的に管理します。 PyTorch PyTorch に対する AWS の貢献 PyTorch は、 ユーザーフレンドリーな フロントエンド、分散学習などの ツールとエコシステムを通じて、 効率的なモデル作成と 迅速で柔軟な実験を 可能にします。
  7. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Meta、AWS を戦略的クラウドプロバイダーに選定 • これまで5年以上にわたるコラボレーション • AWS 上で PyTorch の深層学習モデルを 動かす際のパフォーマンス向上 • より簡単・素早くプロダクション導⼊ 「AWS によるグローバルなサービス展開と信頼性のもと、 Meta は今後も世界中で当社製品やサービスを利⽤する何 ⼗億⼈もの⼈々や、AWS 上で PyTorch を活⽤している顧 客に⾰新的な体験を提供していきます」 Jason Kalich, VP of Production Engineering at Meta https://press.aboutamazon.com/news-releases/news-release-details/meta-selects-aws-key-long-term-strategic-cloud-provider https://aws.amazon.com/jp/about-aws/whats-new/2021/12/meta-selects-aws-key-long-term-strategic-cloud-provider/
  8. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
  9. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. AWS の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi TensorFlow, PyTorch, Apache MXNet, Hugging Face Deep Learning Containers (DLC)
  10. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon SageMaker でのモデル開発フロー BUILD 1 TRAIN チューニングと 実験管理 2 DEPLOY 3 自前環境デプロイ用 には S3 からモデル をダウンロード SageMaker Python SDK でトレーニング・ デプロイを呼び出し SageMaker Python SDK または DLC でサポートされる OSS は簡単に使える SageMaker Endpoint へデプロイ Deep Learning Containers (DLC) でトレーニング SageMaker Studio Notebook でスクリプト開発
  11. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 12 Amazon SageMaker で深層学習フレームワークを利⽤する Deep Learning Containers (DLC) PyTorch, TensorFlow, MXNet, Hugging Face フレームワークなど、 トレーニングと推論、それぞれのために開発 SageMaker SDK の Deep Learning Framework Estimator Docker について気にすることなく、 スケーラブルで費⽤対効果の⾼い SageMaker トレーニングジョブの起動 Example ギャラリー Amazon SageMaker で動く深層学習フレームワークの⾼品質なサンプルスクリプト サポート AWS によるメンテナンスとサポート
  12. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon SageMaker で深層学習フレームワークを実⾏するメリット コスト効率 - SageMaker はスケール、パフォーマンス、効率性を最適化してコスト を削減。Managed Spot Training や Savings Plans でさらに節約 MLOps - SageMaker で の メ タ デ ー タ の 永 続 化 と 検 索 の ⾃ 動 化 、 Amazon CloudWatch へのログ抽出、SageMaker Debugger と Profiler によるモニタリング、 および実験管理 スケーラブル – Amazon SageMaker が提供する効率的なデータ並列およびモデル 並列で、 GPU クラスター上での分散学習が実⾏可能。API の⾮同期モードで、 複数ジョブを同時に起動 安全性 – 保管時および転送中のデータ暗号化、VPC 接続、きめ細かい IAM 権管理 限などのメカニズムにより、⾼いセキュリティレベルを実現
  13. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. SageMaker Studio IDE
  14. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Jupyter は、 ⼈々がコードとデータを 物語の⼀部として埋め込み、 それらの洞察を他の⼈に伝える computational narrative を作るツールです。 「AWS では、Jupyter をできる限り優れたものにし、オープン ソースコミュニティと関わり、お客様とすべての Jupyter ユー ザーに代わって Jupyter を改善したいと考えています」 Jupyter へのサポートと貢献 コミュニティへの貢献 • Jupyter Steering Council メンバー (Brian Granger, AWS) • JupyterLab, JupyterLab Git, Jupyter Server, Notebook, Kernel Gateway などへのコードコントリビューション • NumFOCUS Advisory Board メンバー Jupyter エクスペリエンスの向上 • Amazon SageMaker Studio など、 エンタープライズ Jupyter ユーザー向けの製品を構築 • SSO およびノートブック共有などの機能との統合
  15. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon SageMaker Studio Notebook でのモデル開発 • TensorFlow, PyTorch, MXNet な どのカーネルや独⾃イメージが 利⽤可能 • 利⽤可能な Amazon SageMaker Kernels はこちら https://docs.aws.amazon.com/sagemaker/l atest/dg/notebooks-available-kernels.html
  16. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon SageMaker の全体像 多様な機能を⽤途に応じて選択 PREPARE SageMaker Ground Truth Label training data for machine learning SageMaker Data Wrangler Aggregate and prepare data for machine learning SageMaker Processing Built-in Python, BYO R/Spark SageMaker Feature Store Store, update, retrieve, and share features SageMaker Clarify Detect bias and understand model predictions BUILD SageMaker Studio Notebooks Jupyter notebooks with elastic compute and sharing Built-in and Bring your-own Algorithms Dozens of optimized algorithms or bring your own Local Mode Test and prototype on your local machine SageMaker Autopilot Automatically create machine learning models with full visibility SageMaker JumpStart Pre-built solutions for common use cases TRAIN & TUNE Managed Training Distributed infrastructure management SageMaker Experiments Capture, organize, and compare every step Automatic Model Tuning Hyperparameter optimization Distributed Training Training for large datasets and models SageMaker Debugger Debug and profile training runs Managed Spot Training Reduce training cost by 90% DEPLOY & MANAGE Managed Deployment Fully managed, ultra low latency, high throughput Kubernetes & Kubeflow Integration Simplify Kubernetes-based machine learning Multi-Model Endpoints Reduce cost by hosting multiple models per instance SageMaker Model Monitor Maintain accuracy of deployed models SageMaker Edge Manager Manage and monitor models on edge devices SageMaker Pipelines Workflow orchestration and automation Amazon SageMaker SageMaker Studio Integrated development environment (IDE) for ML
  17. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    SageMakerの基本機能
  18. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    SageMaker の基本構成要素 学習スクリプト DL / ML 実⾏環境 学習データ Amazon SageMaker Amazon ECR Amazon S3 … SageMaker Python SDK
  19. © 2022, Amazon Web Services, Inc. or its Affiliates. 学習・推論環境をコンテナで素早く構築

    The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.
  20. © 2022, Amazon Web Services, Inc. or its Affiliates. 学習環境をコンテナで素早く構築

    The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.
  21. © 2022, Amazon Web Services, Inc. or its Affiliates. 学習環境をコンテナで素早く構築

    The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. 学習が終わると削除 学習時間のみ秒単位で課⾦
  22. © 2022, Amazon Web Services, Inc. or its Affiliates. 推論環境をコンテナで素早く構築

    The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. エンドポイント
  23. © 2022, Amazon Web Services, Inc. or its Affiliates. SageMaker

    でサポートする DL/ML コンテナ⼀覧 • 未対応バージョンについてもコン テナ持ち込みでご利⽤いただけま す ※ 2022年1⽉25⽇時点 Frameworks SageMaker container supported version Deep Learning TensorFlow Script mode: 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6 EIA, Graviton, Neuron対応 PyTorch 0.4.0, 1.0.0, 1.1.0, 1.2.0, 1.3.0 1.4.0 1.5, 1.6, 1.7.1, 1.8.0, 1.8.1, 1.9.1 EIA, Graviton, Neuron 対応 Hugging Face TensorFlow 2.3, 2.4, 2.5, PyTorch 1.7-1.10 MXNet 0.12.1, 1.0.0, 1.1.0, 1.2.1, 1.3.0, 1.4.0, 1.4.1, 1.6.0 1.3.0, 1.4.0, 1.4.1, … 1.6, 1.7, 1.8, (for Elastic Inference) EIA, Graviton, Neuron 対応 ML scikit-learn 0.23.1 https://github.com/aws/sagemaker-python-sdk TensorFlow:: https://github.com/aws/sagemaker-tensorflow-serving-container PyTorch: https://sagemaker.readthedocs.io/en/stable/using_pytorch.html MXNet: https://sagemaker.readthedocs.io/en/stable/using_mxnet.html Sklearn: https://sagemaker.readthedocs.io/en/stable/using_sklearn.html Hugging Face: https://github.com/aws/deep-learning-containers/tree/master/huggingface
  24. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. SageMaker Python SDK import sagemaker # 各フレームワークに対応した Estimator クラス from sagemaker.pytorch import PyTorch estimator = PyTorch("train.py", role=sagemaker.get_execution_role(), instance_count=1, instance_type="ml.p3.2xlarge", framework_version="1.8.0", py_version="py3") # モデルトレーニング estimator.fit(“s3://mybucket/data/train”) # デプロイ predictor = estimator.deploy(initial_instance_count=2, instance_type="ml.m5.xlarge") # 推論の実⾏ predictor.predict(data) https://sagemaker.readthedocs.io/en/stable/v2.html
  25. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. SageMaker JumpStart 事前構築済みモデルへの容易なアクセス • TensorFlow Hub, PyTorch Hub • テキスト: Hugging Face • 画像: GluonCV • テーブルデータ: LightGBM, CatBoost, XGBoost, Scikit-learn Linear Models • Amazon SageMaker JumpStart adds LightGBM and CatBoost Models for Tabular Data https://aws.amazon.com/about-aws/whats- new/2022/01/amazon-sagemaker-jumpstart-lightgbm- catboost-tabular/ • Documentation: SageMaker JumpStart https://docs.aws.amazon.com/sagemaker/latest/dg/studio- jumpstart.html
  26. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Hugging Face on Amazon SageMaker 27
  27. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Hugging Face 機械学習のリファレンス・ オープンソースを活⽤し、 最先端の NLP モデルの構築、 トレーニング、デプロイ Open souese Datasets, Tokenizers, and Transformers Popular 56,000+ の GitHub Star (2022年1⽉時点) 1 か⽉あたり 100+ 万回のダウンロード Intuitive PyTorch または TensorFlow に基づいた NLP 特化の Python フロントエンド State of the art Transformer ベースのモデルは最先端で、転移学習とスケーラビリティを実現 Inclusive 10,000+ のモデルアーキテクチャ、240+ ⾔語を備えた Model Hub Hugging Face ライブラリの特徴
  28. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. NLP をすべての⼈が簡単に利⽤できるようにする AWS との強⼒なパートナーシップ Hugging Face は、 最先端の NLP テクノロジーを提供する 最も⼈気のあるオープンソース企業 Hugging Face NLP モデルのトレーニングで 使⽤するための⾼性能なリソース を提供する SageMaker との統合 AWS
  29. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Hugging Face + PyTorch SageMaker Python SDK https://github.com/huggingface /notebooks/blob/master/sagem aker/02_getting_started_tensorfl ow/sagemaker-notebook.ipynb
  30. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Hugging Face + TensorFlow SageMaker Python SDK https://github.com/huggingface /notebooks/blob/master/sagem aker/01_getting_started_pytorch /sagemaker-notebook.ipynb
  31. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 33 NLP モデルのサイズは指数的に増加 最先端の NLP モデルサイズのトレンド Source: https://arxiv.org/abs/2104.04473
  32. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. ハードウェアのトレンド 34 インスタンスタイプ 発表時期 GPU GPU MEMORY P2.16xlarge September 2016 NVIDIA K80 12 GB P3.16xlarge October 2017 NVIDIA V100 16 GB P3dn.24xlarge December 2018 NVIDIA V100 32 GB P4d.24xlarge November 2020 NVIDIA A100 40 GB ハードウェアキャパシティも増加傾向だがモデルのパラメータ数変化には追いつかず
  33. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon SageMaker での分散学習 https://aws.amazon.com/sagemaker/distributed-training/ トレーニング時間 の削減 TensorFlow, PyTorch, HuggingFace を サポート ⾃動的・効率的な モデル分割 最⼩限の コード変更 効率的なパイプライン化 (マイクロバッチによる GPU 利⽤効率向上) AWS ネットワー ク・ハードウェア に最適化 モデル並列 データ並列
  34. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon SageMaker 分散学習ベンチマーク 36 ModelParallel training with T5-3B DataParallel training Model Instances Performance with modelparallel Performance without modelparallel T5-3B 8 P4d.24xlarge 299 seq/s OOM T5-3B 256 P4d.24xlarge 4.68 days OOM Model Instances Performance with dataparallel Speed up RoBERTa (1.3B) 30 P4d.24xlarge 1.85 iter/s 32.4% RoBERTa (1.3B) 16 P4d.24xlarge 2.00 iter/s 33.1%
  35. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. SageMaker Training Compiler は 多くの NLP モデルトレーニングを⾼速化 37 bert-base-uncased bert-large-uncased roberta-base gpt2 bert-base-cased xlm-roberta-base bert-base-chinese roberta-large distilbert-base- uncased distilbert-base- uncased-finetuned- sst-2-English cl-tohoku/bert- base-japanese- whole-word- masking bert-base- multilingual-cased distilgpt2 albert-base-v2 gpt2-large
  36. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 課⾦時間の 削減 BERT base distilBERT RoBERTa base GPT-2 38% 26% 27% 54% トレーニングスループット* (samples/second) PyTorch PyTorch with SageMaker Training Compiler 73 96 47 81 62 84 137 170 SageMaker Training Compiler で最⼤50%の速度向上
  37. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. SageMaker Training Compiler は数分で設定可能
  38. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 🤗 Hugging Face 連携の参考資料 AWS Machine Learning Summit • Accelerate NLP training with Amazon SageMaker https://youtu.be/1LwjUbzcJok Documentation • Use Hugging Face with Amazon SageMaker https://docs.aws.amazon.com/sagemaker/latest/dg/hugging-face.html • Hugging Face on Amazon SageMaker https://huggingface.co/docs/sagemaker/main • Deploying HuggingFace TorchScript models on AWS using the Neuron SDK https://huggingface.co/docs/transformers/master/en/serialization#deploying-huggingface-torchscript-models-on-aws- using-the-neuron-sdk Example Notebook • SageMaker で PyTorch と Hugging Face を使ってテキスト分類モデルをトレーニングしたい — PyTorch Getting Started Demo. • SageMaker で TensorFlow と Hugging Face を使ってテキスト分類モデルをトレーニングしたい — TensorFlow Getting Started example. • Hugging Face と SageMaker を使ってデータ並列処理による分散トレーニングを実行したい – Distributed Training example. • Hugging Face と SageMaker を使ってモデル並列処理による分散トレーニングを実行したい – Model Parallelism example. • SageMaker でスポットインスタンスを使用して Hugging Face のモデルをトレーニングしたい – Spot Instances example. • SageMaker で Hugging Face を使ってテキスト分類モデルをトレーニングするときに、カスタムメトリクスを取りたい – Training with Custom Metrics example. • SageMaker で Hugging Face を使って、TensorFlow の分散学習がしたい – Distributed TensorFlow Training example. • Hugging Face のモデルを Neuron Container で Inf1 にデプロイ – Inf1 Neuron Container example.
  39. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. AWS アクセラレータ インスタンス
  40. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. • コンピュータビジョン、⾃然⾔語 理解、レコメンデーションエンジ ン、異常検出 • ⼀般的に使⽤されるアクセラレー タインスタンスには、ML トレーニ ング⽤の G4dn, P3/P3dn, P4, DL1, G5, G5g, Trn1、ML 推論⽤ の G4dn, G5, G5g, Inf1 などがあ ります。 機械学習 • 地震探査、貯留層・油層シミュ レーション、極低温電⼦顕微鏡 (Cryo-EM)、分⼦動⼒学 (MD)、 数値流体⼒学 (CFD)、データ ベース解析 • ⼀般的に使⽤されるアクセラ レータインスタンスには、 G4dn, G5, G5g, P3/P3dn, P4d および F1 があります。 ハイパフォーマンス コンピューティング (HPC) • レンダリング、トランスコー ディング、コンテンツストリー ミング、プロダクトデザイン、 グラフィックワークステーショ ン、ゲームストリーミング • ⼀般的に使⽤されるアクセラ レータインスタンスには、 G4dn, G4ad, G5, G5g および VT1 があります。 グラフィックス アクセラレータが活⽤されるワークロード
  41. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 機械学習向け Amazon EC2 インス タンスの選択肢
  42. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon EC2 インスタンスタイプ 44 Linux, Windows, macOS Amazon EBS Amazon Elastic Inference Amazon Elastic GPU Elastic Fabric Adapter カ テ ゴ リ 機 能 イ ン ス タ ン ス サ イ ズ サイズ (.nano -.32xlarge) ベアメタル (.metal) バーストパフォーマンス (t3, t4) 汎⽤ (m5, m6, mac1) コンピューティング最適化 (c5, c6) メモリ最適化 (r5, r6, x1, x2) ストレージ最適化 (d3, i3, i4, im4, is4) ⾼速コンピューティング (アクセラレーテッド) (p4, g5, f1, inf1) CPUの選択 Intel (i), AMD (a), AWS Graviton (g) ⾼周波数 up to 4.5+ GHz (z) 追加メモリ up to 16 TiB (e) インスタンスストレージ Local NVMe disks (d) ⾼速ネットワーク up to 400 Gbps (n) EBSパフォーマンス強化 up to 60Gbps & 260,000 IOPS (b) インスタンス 事実上あらゆる ビジネスニーズ に対応 オ プ シ ョ ン examples: c6gn.8xlarge, m5zn.metal, g4ad.16xlarge, r5b.large 約 5 0 0 種 c6gn.8xlarge ファミリー 世代 機能 サイズ
  43. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. アクセラレーテッドコンピューティングとは 45 CPU: ⾼速、低効率 GPU/FPGA/ASICs: ⾼スループット、⾼効率 特定のカテゴリのアプリケーション(深層学習等)では、 GPU, FPGA, ASIC などを⽤いる事により超並列化と⾼効率化が可能 計算の⾼スループット化のためには、さらなる並列化が必要とされている
  44. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け

    Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn 1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
  45. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け

    Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn 1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習 ワークロードでは最⼤3倍⾼速に 現在プレビュー中 AWS Trainium による学習コストの 最適化 現在プレビュー中 AWS Inferentia による推論コストの最 適化 G4インスタンスと⽐較し最⼤2.3倍の スループット向上、推論処理当たり 最⼤70%低価格を実現 AWS独⾃開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと⽐較し最⼤ 40%優れた価格性能を提供
  46. © 2022, Amazon Web Services, Inc. or its Affiliates. MLトレーニング⽤の適切なインスタンスを特定するフローチャート

    どのユース ケース︖ ⾃然⾔語処理 リコメンド コンピュータ ビジョン (画像、動画解析) 時系列分析 中-⼤規模モデル ⼩-中規模モデル ⼩規模モデル ⽐較的⼤きなGPUメ モリ、インスタンス メモリ、ネットワー ク帯域を必要とする ⾃動運転、宇宙、メ ディア&エンタ、 HCLS等のアプリ ケーション その他 複数のGPUが 必要︖ 複数のGPUが 必要︖ アクセラレータ が必要︖ 分散トレーニン グを実⾏︖ 並⾏モデル開発 や実験 最適な価格、パ フォーマンスを 確認するための ベンチマーク 最適なvCPUを 確認するための ベンチマーク 並⾏モデル開発 や実験
  47. © 2022, Amazon Web Services, Inc. or its Affiliates. 適切な推論インスタンスを特定するフローチャート

    どのユース ケース︖ ⾃然⾔語処理 リコメンド コンピュータ ビジョン (画像、動画解析) 時系列解析 フレームワーク やモデルがInf1 でサポートされ ている︖ アクセラレータ が必要︖ 複数のアクセラレー タが必要︖ 複数のGPUが 必要︖ 最適なvCPUを 確認するための ベンチマーク 最適なvCPUを 確認するための ベンチマーク 複数のモデル、 並⾏モデル、分 散モデルのデプ ロイ⽤ 複数モデル、 並⾏モデル、 分散モデルの デプロイ⽤ g4dn.{x, 2x, 4x, 8x, 16}large g5.{x, 2x, 4x, 8x, 16x}large g5g.{x, 2x, 4x, 8x}large g4dn.12xlarge, g5.{12x, 24x, 48x}large, g5g.16xlarge, g4dn/g5g.metal (bare-metal)
  48. © 2022, Amazon Web Services, Inc. or its Affiliates. ELMo

    (2018) BERT-Large (2018) GPT-2 (2019) Turing NLG (2020) GPT-3 (2020) Switch-C (2021) … 100B 1B 1T 10T 10B 100 M AI/ML インフラストラクチャの主要トレンド GROWTH IN MODEL COMPLEXITY (# of parameters) 1. 古典的な機械学習から深層学習(ディープラーニング) に移⾏しているため、モデルはより複雑化 2. モデルの学習にかかる時間とコストは、数⽇から数週間 へと爆発的に増加中 3. データサイエンティストやMLエンジニアは、⾃分たち のユースケースや経験に適したソフトウェアツールや ハードウェアプラットフォームを模索
  49. © 2022, Amazon Web Services, Inc. or its Affiliates. Trn1:

    Amazon Trainium カスタムアクセラレーター • クラウドで最もコスト効率に優れた DL イン スタンス • 最⼤ 800 Gbps のネットワーキング (EFA)、 512 Gb/アクセラレータ、840 TFLOP • EC2 ウルトラクラスターは最⼤ 2.1 エクサフ ロップスのコンピューティングをサポート DL1: Intel Habana Gaudi アクセラレーター • ⼀般的に使⽤されるCV、NLP、レコメン ダーモデルのトレーニングコストパ フォーマンスが最⼤ 40% 向上 • 最⼤ 400 Gbps のネットワークと 32 Gb/ アクセラレータ P4 d G5: A10G GPU インスタンス • EC2 P3 (V100) インスタンスよりも 15% 低いコストで⼩規模から中規模のモデルを トレーニングできます • 最⼤ 8 個の NVIDIA A10G テンソルコア GPU と第 2 世代 AMD EPYC プロセッサー • 最⼤ 100 Gbps のネットワークと 24 GB/GPU メモリ P4d: A100 GPU インスタンス • 3億を超えるパラメータを持つ ⼤規模モデルの学習⽤ • 最⼤ 400 Gbps のネットワークと 40 GB/GPU メモリによる EC2 ウルトラクラス タのサポート MLトレーニング⽤のEC2インスタンス G4dn: T4 GPU インスタンス • 中⼩規模のモデルのトレーニング • 最⼤ 8 個の NVIDIA T4 テンソルコア GPU とIntel Xeon Scalable (Cascade Lake) プ ロセッサー P3/P3dn: V100 GPU インスタンス • P3 は中-⼤規模の学習、P3dn は⼤規模モデ ルの学習⽤ • それぞれ 16 GB, 32 GB GPU メモリの V100 GPU P3/ P3d n
  50. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 P4d インスタンス • NVIDIA A100 Tensor Core GPU を搭載 • 前世代のP3インスタンスと⽐較して、機械 学習モデルの学習コストを最⼤60%削減、 パフォーマンスは平均 2.5倍向上 • 2022年1⽉現在、⽶国東部 (バージニアおよ びオハイオ)、⽶国⻄部 (オレゴン)、欧州 (ア イルランドおよびフランクフルト)、アジア パシフィック (東京およびソウル) の各リー ジョンで利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/p4/ インスタンスサイズ GPU (A100) GPUメモリ (GB) vCPU メモリ (GB) NVSwitch (GB/s) NW帯域 (Gbps) NVMe SSD (TB) p4d.24xlarge 8 320 96 1152 600 400 8 0 2 4 6 8 10 12 FP64 TFLOPS FP32 TFLOPS FP16 TFLOPS INT8 TOPS GPU Memory BW (GB/s) GPU Memory (GB) NVLink BW (GB/s) V100 A100 Improvement (x)
  51. © 2022, Amazon Web Services, Inc. or its Affiliates. Wikipedia

    コーパスのデータセット でトレーニングされた PyTorch フレームワーク実装の BERT-Large モデル 3x P3 インスタンスよりも高速* Imagenet2012 データセットで トレーニングされた TensorFlow フレームワーク実装の ResNet50 モデル 2.1x P3 インスタンスよりも高速* LibrisPeech データセットで トレーニングされた PyTorch 実装の Jasper モデルの場合 2.3x P3 インスタンスよりも高速* * すべての比較は、単一の p4d.24xlarge インスタンスと p3.16xlarge インスタンス間で行われています。 P4d パフォーマンス
  52. © 2022, Amazon Web Services, Inc. or its Affiliates. P4d

    インスタンスの EC2 ULTRACLUSTERS • P4d の EC2 UltraClusters — スーパー コンピューティングクラスのパフォー マンスへのアクセスを⺠主化 • AWS の従量課⾦制モデルを介してオン デマンドで利⽤可能 • 4,000 個以上の A100 Tensor Core GPU • ペタビット規模のノンブロッキング ネットワーク • ⾼スループット、低レイテンシーのス トレージ、FSx for Lustre • S3 での無制限のストレージのサポート
  53. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 DL1 インスタンス • Intel Habana Labs が提供する Gaudi アクセラレータ を搭載 • 深層学習モデルのトレーニングに特化 • 各インスタンスには 8 つの Gaudi アクセラレーターを搭載 • 合計 256 GB の⾼帯域幅 (HBM2) アクセラレーターメモリを搭載 • 現⾏世代のGPUインスタンスよりも最⼤40%優れた価格パフォーマンス • TensorFlow および PyTorch と統合された Habana SynapseAI® SDK • 2022年1⽉現在、⽶国東部 (バージニア) 、⽶国⻄部 (オレゴン)で利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/dl1/ インスタンスサイズ Gaudi アクセラレータ メモリ (GB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (TB) dl1.24xlarge 8 256 96 768 400 19 4
  54. © 2022, Amazon Web Services, Inc. or its Affiliates.

  55. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud B F 1 6 / F P 1 6 F P 3 2 840 TFLOPS T F 3 2 3.4 PFLOPS 3.4 PFLOPS T R A N S I S T O R S P E R C H I P 55,000,000,000 Trn1 演 算 エ ン ジ ン 周 波 数 3 GHz ア グ リ ゲ ー ト ア ク セ ラ レ ー タ メ モ リ 512 GB ピ ー ク メ モ リ 帯 域 幅 13.1 TB/sec チ ッ プ 間 N E U R O N L I N K 帯 域 幅 768 GB/sec ネ ッ ト ワ ー ク コ ネ ク テ ィ ビ テ ィ 800 Gbps EFA プ レ ビ ュ ー
  56. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud • 60% 増強したアクセラレータメモリ(vs. P4d) • 2倍のネットワーク帯域幅 (vs. P4d) • PyTorch 及び TensorFlow をネイティブにサポート • Trn1上で学習、デプロイ先は⾃由 • 2022前半での⼀般提供を予定 インスタンスサイズ Trainium チップ数 アクセラレー タメモリ (GB) vCPU メモリ (GB) NeuronLink (GB/s) NW帯域 (Gbps) NVMe SSD (TB) Trn1.2xlarge 1 32 8 32 N/A 最⼤ 10 0.5 Trn1.32xlarge 16 512 128 512 768 800 8 プ レ ビ ュ ー https://aws.amazon.com/jp/ec2/instance-types/trn1/
  57. © 2022, Amazon Web Services, Inc. or its Affiliates. Trainium

    機械学習 学習⽤プロセッサ AWS Trainium • AWS による第2世代 独⾃設計機械学習プロセッサ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、計算と通信をオーバーラップさせ通信オーバー ヘッド最適化 • 32GB HBM2E メモリスタック (アクセラレータメモリ) • Configurable FP8、 Stochastic roundingにハードウェアで 対応 https://aws.amazon.com/machine-learning/trainium/ HBM2E メモリ Collective compute エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン
  58. © 2022, Amazon Web Services, Inc. or its Affiliates. Stochastic

    rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数が0.5より⼩さいなら切り捨て、端数が0.5より⼤きいならは切り上げ • 重みのパラーメータ1に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 重みのパラーメータ1に0.2を加える場合, 80%の確率で1, 20%の確率で2として処理 https://arxiv.org/pdf/1502.02551.pdf
  59. © 2022, Amazon Web Services, Inc. or its Affiliates. Petabits/s

    throughput, billions of IOPS Trn1 10K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト EC2 UltraCluster ごとに1万以上の Trainium アクセラレータを搭載 2.1 ExaFLOPS の演算性能を持つ世界最⾼⽔準のスー パーコンピュータへのオンデマンドアクセス
  60. © 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成

    ⼤容量インサーバアクセラレータメモリ アクセラレータメモリ P3dn 256 GB 320 GB 512 GB P4d Trn1 ⾼帯域・低レイテンシーインターコネクト チップ間インターコネクト P3dn 300 GB/s 600 GB/s 768 GB/s P4d Trn1 ネットワーク帯域幅 (EFA) P3dn 100 Gb/s 400 Gb/s 800 Gb/s P4d Trn1 (NeuronLink) *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載
  61. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリ インストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアル サンプルコード
  62. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    ポートフォリオとの統合 ネットワーキング & ストレージ フレームワーク & ワークフロー サービス コンピュート & アクセラレー ション Amazon FSx for Lustre Amazon S3 EC2 Trn1 UltraCluster Amazon EC2 Trn1 Amazon SageMaker AWS Deep Learning AMIs Amazon EKS Amazon ECS AWS Deep Learning Containers Elastic Fabric Adapter Amazon EBS Amazon EFS Pytorch TensorFlow
  63. © 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを

    同時処理 Neuronコア グループ AWS Neuron コンパイラ 超低遅延と⾼いス ループットの両⽴ Neuronコア パイプライン FP32で学習済みの モデルを取り込み BF16へ⾃動変換 FP32オート キャスティング ⾃動的にニューラル ネットワークの演算 を最適化 スマート パーティショニング
  64. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  65. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    “Sprinklrの⾃然⾔語処理とコンピュータビジョンのMLモデルは、30以上の チャンネルで公開されているソーシャルメディアの投稿、ブログ投稿、ビデオ コンテンツ、その他のパブリックドメインで利⽤できるコンテンツから得られ るさまざまなデータ形式を分析します。これまでAWS Inferentia を利⽤し得 られた価値に基づいて、我々は AWS Trainiumを試して、我々のモデルの学習 時間を改善し、学習コストを削減することを切望しています。これらの⾼性能 かつ低コストの学習向けインスタンスで我々のモデルを開発することを楽しみ にしています” Vasant Srinivasan, Senior Vice President of Product Engineering at Sprinklr “当社の成功の鍵は、⼤規模な⾼性能ディープラーニングアクセ ラレータを搭載した最新のインフラストラクチャにアクセスでき ることです。AWS Trainium を搭載したAmazon EC2 Trn1インスタン スは、⾼いネットワーク帯域幅を持ち、数万ノードにわたって拡張できる 前例のない性能により、コストを抑えながらより速い分散学習が可能に なるため、楽しみにしています” Tom Brown, Co-Founder at Anthropic ※ Amazon EC2 Trn1 プレビューにお申し込み下さい https://pages.awscloud.com/EC2-Trn1-Preview.html
  66. © 2022, Amazon Web Services, Inc. or its Affiliates. G5:

    A10G GPU インスタンス • 最⼤ 8 個の NVIDIA A10G Tensor Core GPU と第 2 世代 AMD EPYC プロセッサー • グラフィックを多⽤するワークロードや機械 学習のワークロードでは、G4dn インスタン スと⽐較して 3 倍のパフォーマンス向上 Inf1: カスタム ML アクセラレータ • クラウドで推論あたりのコストが最も低い • AWS が設計した Inferentia アクセラレー ターを使⽤した最⼤ 2,000 TOPs • ⾼スループットと低レイテンシー G5g: T4G GPU + Arm CPU インスタンス • Arm ベースの Graviton2 プロセッサと最⼤ 2 つの NVIDIA T4G Tensor Core GPU を搭載 • Android ゲームの 1 時間あたりのストリーム コストを最⼤ 30% 削減 G4dn: T4 GPU インスタンス • 最⼤ 8 個の NVIDIA T4 GPU とインテル Cascade Lake CPU により、CPU よりも 40 倍優れた低レイテンシスループットを実現 • 前世代の G3 インスタンスに⽐べて、グラ フィックパフォーマンスが最⼤ 1.8 倍向上 ML 推論のための EC2 インスタンス
  67. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するための インスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価 格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンス クラウド上で高速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
  68. © 2022, Amazon Web Services, Inc. or its Affiliates. Amazon

    EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年1⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plan インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年1⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇ 料⾦改定 (38%削減)
  69. © 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習

    推論⽤プロセッサ AWS Inferentia • AWS による独⾃設計推論プロセッサ • 4 Neuron コア / チップ • チップあたり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュと8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリ メモリ メモリ https://aws.amazon.com/machine-learning/inferentia/
  70. © 2022, Amazon Web Services, Inc. or its Affiliates. ワークロードに合わせて

    複数の Neuron コアを柔軟に構成 • Neuronコア間、チップ間をパイプラインモードで接続することで、⼤規模モデルを各オンチッ プキャッシュメモリ上に展開、⾼スループットと低レイテンシーを両⽴(⼤規模モデル向け) • 複数の Neuronコアをグループモードで接続することにより、スループットの最⼤化を図る (異なるモデルの同時処理、同⼀モデルの並列処理向け) Neuronコアグループ Neuronコアパイプライン
  71. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Inferentia によるコスト最適化 $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -49% -68% Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) -42% *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
  72. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリ インストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアル サンプルコード
  73. © 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを

    同時処理 Neuronコア グループ AWS Neuron コンパイラ 超低遅延と⾼いス ループットの両⽴ Neuronコア パイプライン FP32で学習済みの モデルを取り込み BF16へ⾃動変換 FP32オート キャスティング ⾃動的にニューラル ネットワークの演算 を最適化 スマート パーティショニング
  74. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  75. © 2022, Amazon Web Services, Inc. or its Affiliates. AWS

    マネージドサービスでの Inf1 対応 Amazon SageMaker • Inf1 インスタンスを開始するための最も簡単で迅速な⽅法 • Amazon SageMaker は機械学習モデルをすばやく構築、トレーニング、デプロイするためのフル マネージドサービス • Inf1 インスタンスと Neuron はモデルをワンクリックでデプロイできるよう SageMaker に統合 Amazon EKS & ECS • Inf1 は Amazon EKS 及び ECS 上で利⽤可能 • Inf1 インスタンス上にモデルをデプロイするのに最適なマネージドコンテナサービス AWS DLAMI & DL コンテナ • Neuron は AWS Deep Learning AMI 及び AWS Deep Learning コンテナ にプリインストール AWS Deep Learning Containers AWS Deep Learning AMIs Amazon SageMaker AWS Elastic Kubernetes Service Amazon Elastic Container Service
  76. © 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例

    – ⾼スループットと低レイテンシーの両⽴ • 推論には⾼いスループットを求めるバッチ推論と、低いレイテンシーが求められ るリアルタイム推論の2つの異なる処理⽅式が存在 • GPUでは⾼いスループットを達成するためには⼤きなバッチサイズが必要とな り、レイテンシーも増⼤ • Inf1 ではパイプラインモードを活⽤することで、 ⾼いスループットと低いレイ テンシーを両⽴、リアルタイム推論性能最適化を実現
  77. © 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例

    – ⾼スループットと低レイテンシーの両⽴ 0 40 80 120 160 0.00 0.30 0.60 0.90 1.20 p95 レイテンシー (mSec) 1M 推論当たりのコスト (USD) レイテンシー vs. 推論当たりのコスト G4dn Inf1 ターゲットレイテンシー (SLA) バッチサイズ 64 バッチサイズ 1 バッチサイズ 1 バッチサイズ 6 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch- natural-language-processing-applications-out-of-the-box-on-aws-inferentia/
  78. © 2022, Amazon Web Services, Inc. or its Affiliates. 様々なお客様でコストパフォーマンス最適化を実現

    https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition
  79. © 2022, Amazon Web Services, Inc. or its Affiliates. Alexa

    は、実際の⼈間の会話のような⾃然 な⾳声を⽣成する⾮常に複雑な⾳声合成モ デルを導⼊しており、全世界で1億台以上 の Alexa デバイスをサポートしています Inf1インスタンスにより、GPUインスタン スと⽐較して運⽤コストを約30%削減し、 推論レイテンシを25%改善することができ ました AMAZON ALEXA © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  80. © 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声

    AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モ デルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテン シーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで 、デプロイはスケーラブルで管理が簡単になりました。これらのモデルでは、同 等の GPU ベースのインスタンスと比較して、すでに 30% 低レイテンシーと 71% のコスト削減をベンチマークしています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタンス から AWS 推論ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できるだけでなく、エンドツーエンドのレイテンシーが 40% 以上改善され ました。TensorFlow ベースのモデルに Amazon SageMaker を使用すると、Inf1 インスタンスへの切り替えプロセスが簡単で管理が簡単になりました。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition
  81. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. Amazon EC2 DL1 インスタンス • Intel Habana Labsが提供する Gaudi アクセラレータ を搭載 • 深層学習モデルのトレーニングに特化 • 各インスタンスには 8 つの Gaudi アクセラレーターを搭載 • 合計 256 GB の⾼帯域幅 (HBM2) アクセラレーターメモリを搭載 • 現⾏世代のGPUインスタンスよりも最⼤40%優れた価格パフォーマンス • TensorFlow および PyTorch と統合された SDK • 2022年1⽉現在、⽶国東部 (バージニア) 、⽶国⻄部 (オレゴン)で利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/dl1/ インスタンスサイズ Gaudi アクセラレータ メモリ (GB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (TB) dl1.24xlarge 8 256 96 768 400 19 4
  82. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 参考情報 • https://aws.amazon.com/jp/machine-learning/inferentia/ • https://aws.amazon.com/ec2/instance-types/inf1/ • https://awsdocs-neuron.readthedocs-hosted.com/ • https://github.com/aws/aws-neuron-sdk • https://ec2-inf1.workshop.aws/ https://github.com/aws-samples/aws-reinvent21-inf1-workshop
  83. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 参考情報 – AWSブログ • https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ • • https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/ • • https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ • • https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ • • https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of-the-box-on-aws-inferentia/ • • https://aws.amazon.com/jp/blogs/news/majority-of-alexa-now-running-on-faster-more-cost-effective-amazon-ec2-inf1-instances/ • • https://aws.amazon.com/blogs/machine-learning/improving-performance-for-deep-learning-based-object-detection-with-an-aws-neuron-compiled-yolov4-model-on-aws-inferentia/ • • https://aws.amazon.com/blogs/machine-learning/deploying-tensorflow-openpose-on-aws-inferentia-based-inf1-instances-for-significant-price-performance-improvements/
  84. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. 教育・研究機関向けプログラム等 90
  85. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 教育プログラム クラウド技術者を⽬指す学⽣向けの授業を⾏う 教育機関向け 無料カリキュラムパッケージ https://aws.amazon.com/jp/training/awsacademy/ 講師トレーニング、教材、学⽣が無料でアクセスできる AWS 実習環境 LearnerLab を含む教 育機関向けカリキュラムパッケージ。受講者は各加盟教育機関の授業を受講する。 【コース】 初級コース (20時間分の授業⽤コンテンツ) ・ AWS Academy Cloud Foundations ・ AWS Academy Machine Learning Foundations 中級コース(40時間分の授業⽤コンテンツ) ・ AWS Academy Cloud Architecting ・ AWS Academy Cloud Developing
  86. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 機械学習の無料お試し環境 https://aws.amazon.com/jp/sagemaker/studio-lab/ JupyterLab ベース、AWS 上のコンピューティングリソースに無料でアクセスして機械学習の学習 と実験をすぐに始められる。 クレジットカード登録不要。 ユーザーセッション 1 回あたり12 時間の CPU または 4 時間の GPU のいずれかを選択して利 ⽤でき、利⽤できるユーザーセッションの数は無制限。 プロジェクトごとに最低 15 GB の永続的ストレージを利⽤可能。セッションの期限が切れると、 SageMaker Studio Lab は環境のスナップショットを取得します。これにより、中断したところか らすぐに再開可能。 GitHub と緊密に統合されており、Git コマンドラインを完全にサポート。
  87. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. AWS Cloud Credit for Research 93 üクラウドでホストされるサービス、 ソフトウェア、ツールの構築、研 究プロセスのクラウド移⾏等の新 しいプロジェクトをサポートする プログラム。 ü申請は四半期ごとに審査されます。 ü申請⾦額に上限はありません。 ü研究環境のオンプレミスからクラ ウドへの移行の検証 ü研究プロジェクトのメンバーのト レーニング ü研究の公開のための基盤構築など の目的で応募可能。 https://aws.amazon.com/jp/government-education/research- and-technical-computing/cloud-credit-for-research/ 研究助成プログラム
  88. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. DeepRacer学⽣リーグ 16歳以上個⼈参加可能、費⽤はかかりません(クレジットカード登録不要) クラウド上での機械学習の実践 上位リーグに勝ち進めばグローバルチャンピオンシップへの参加可能 https://aws.amazon.com/jp/deepracer/student/japan-student-championship/
  89. 第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its

    affiliates. 採⽤ https://aws.amazon.com/jp/careers/newgraduate/ 問い合わせ︓aws-ect-japan@amazon.co.jp AWS・amazonでは新卒・キャリア採⽤ともに積極的におこなっています。