Accelerated Computing for NLP on AWS

第 28回年次⼤会(NLP2022) © 2022, Amazon Web Services, Inc. or its
affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Accelerated Computing on AWS for NLP AWS で⾃然⾔語処理を⾼速化する⽅法 Shoko Utsunomiya Sr. Machine Learning Solutions Architect Amazon Web Services Japan G.K.

affiliates. オープンソースによる Builder ツールの改善

affiliates. マネージドサービスで OSS の実運⽤をサポート 5 Amazon Keyspaces for Apache Cassandra Amazon EKS (Kubernetes) FreeRTOS AWS RoboMaker (ROS) Amazon ElastiCache for Redis, Memcached AWS AppMesh (Envoy) TorchServe (Run PyTorch Models) AWS Lambda (Firecracker) Amazon OpenSearch Service

affiliates. AWS が貢献する AI/ML のオープンソース AutoGluon State of the art の AutoML auto.gluon.ai/ Apache MXNet 深層学習フレームワーク mxnet.apache.org/ Optimized DL Frameworks PyTorch, Tensorflow, Apache MXNet のサポート Hugging Face SageMaker Python SDK, DLC への統合 Kubernetes Support SageMaker Operators & Components による連携 Deep Graph Library (DGL) Graph Neural Networks www.dgl.ai/ TorchServe PyTorch の model server Deep Java Library (DJL) Java で深層学習 djl.ai/ Dive into Deep Learning インタラクティブな深層学習の教科書 d2l.ai/

affiliates. TorchServe はオープンソースの PyTorch モデルサービングフレームワークで、カスタムコードを記述することなく、トレーニング済みの PyTorch モデルを⼤規模かつ⾼パフォーマンスで簡単にデプロイできます。 https://pytorch.org/serve/ TorchElastic Controller for Kubernetes は TorchElastic のネイティブ Kubernetes 実装で、 TorchElastic トレーニングに必要なポッドとサービスのライフサイクルを⾃動的に管理します。 PyTorch PyTorch に対する AWS の貢献 PyTorch は、ユーザーフレンドリーなフロントエンド、分散学習などのツールとエコシステムを通じて、効率的なモデル作成と迅速で柔軟な実験を可能にします。

affiliates. Meta、AWS を戦略的クラウドプロバイダーに選定 • これまで5年以上にわたるコラボレーション • AWS 上で PyTorch の深層学習モデルを動かす際のパフォーマンス向上 • より簡単・素早くプロダクション導⼊「AWS によるグローバルなサービス展開と信頼性のもと、 Meta は今後も世界中で当社製品やサービスを利⽤する何⼗億⼈もの⼈々や、AWS 上で PyTorch を活⽤している顧客に⾰新的な体験を提供していきます」 Jason Kalich, VP of Production Engineering at Meta https://press.aboutamazon.com/news-releases/news-release-details/meta-selects-aws-key-long-term-strategic-cloud-provider https://aws.amazon.com/jp/about-aws/whats-new/2021/12/meta-selects-aws-key-long-term-strategic-cloud-provider/

affiliates. AWS の AI/ML スタック広範かつ最も充実した機械学習の機能群 AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)

affiliates. AWS の AI/ML スタック広範かつ最も充実した機械学習の機能群 AI SERVICES Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML SERVICES Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML FRAMEWORKS & INFRASTRUCTURE Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi TensorFlow, PyTorch, Apache MXNet, Hugging Face Deep Learning Containers (DLC)

affiliates. Amazon SageMaker でのモデル開発フロー BUILD 1 TRAIN チューニングと実験管理 2 DEPLOY 3 自前環境デプロイ用には S3 からモデルをダウンロード SageMaker Python SDK でトレーニング・デプロイを呼び出し SageMaker Python SDK または DLC でサポートされる OSS は簡単に使える SageMaker Endpoint へデプロイ Deep Learning Containers (DLC) でトレーニング SageMaker Studio Notebook でスクリプト開発

affiliates. 12 Amazon SageMaker で深層学習フレームワークを利⽤する Deep Learning Containers (DLC) PyTorch, TensorFlow, MXNet, Hugging Face フレームワークなど、トレーニングと推論、それぞれのために開発 SageMaker SDK の Deep Learning Framework Estimator Docker について気にすることなく、スケーラブルで費⽤対効果の⾼い SageMaker トレーニングジョブの起動 Example ギャラリー Amazon SageMaker で動く深層学習フレームワークの⾼品質なサンプルスクリプトサポート AWS によるメンテナンスとサポート

affiliates. Amazon SageMaker で深層学習フレームワークを実⾏するメリットコスト効率 - SageMaker はスケール、パフォーマンス、効率性を最適化してコストを削減。Managed Spot Training や Savings Plans でさらに節約 MLOps - SageMaker でのメタデータの永続化と検索の⾃動化、 Amazon CloudWatch へのログ抽出、SageMaker Debugger と Profiler によるモニタリング、および実験管理スケーラブル – Amazon SageMaker が提供する効率的なデータ並列およびモデル並列で、 GPU クラスター上での分散学習が実⾏可能。API の⾮同期モードで、複数ジョブを同時に起動安全性 – 保管時および転送中のデータ暗号化、VPC 接続、きめ細かい IAM 権管理限などのメカニズムにより、⾼いセキュリティレベルを実現

affiliates. SageMaker Studio IDE

affiliates. Jupyter は、⼈々がコードとデータを物語の⼀部として埋め込み、それらの洞察を他の⼈に伝える computational narrative を作るツールです。「AWS では、Jupyter をできる限り優れたものにし、オープンソースコミュニティと関わり、お客様とすべての Jupyter ユーザーに代わって Jupyter を改善したいと考えています」 Jupyter へのサポートと貢献コミュニティへの貢献 • Jupyter Steering Council メンバー (Brian Granger, AWS) • JupyterLab, JupyterLab Git, Jupyter Server, Notebook, Kernel Gateway などへのコードコントリビューション • NumFOCUS Advisory Board メンバー Jupyter エクスペリエンスの向上 • Amazon SageMaker Studio など、エンタープライズ Jupyter ユーザー向けの製品を構築 • SSO およびノートブック共有などの機能との統合

affiliates. Amazon SageMaker Studio Notebook でのモデル開発 • TensorFlow, PyTorch, MXNet などのカーネルや独⾃イメージが利⽤可能 • 利⽤可能な Amazon SageMaker Kernels はこちら https://docs.aws.amazon.com/sagemaker/l atest/dg/notebooks-available-kernels.html

affiliates. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon SageMaker の全体像多様な機能を⽤途に応じて選択 PREPARE SageMaker Ground Truth Label training data for machine learning SageMaker Data Wrangler Aggregate and prepare data for machine learning SageMaker Processing Built-in Python, BYO R/Spark SageMaker Feature Store Store, update, retrieve, and share features SageMaker Clarify Detect bias and understand model predictions BUILD SageMaker Studio Notebooks Jupyter notebooks with elastic compute and sharing Built-in and Bring your-own Algorithms Dozens of optimized algorithms or bring your own Local Mode Test and prototype on your local machine SageMaker Autopilot Automatically create machine learning models with full visibility SageMaker JumpStart Pre-built solutions for common use cases TRAIN & TUNE Managed Training Distributed infrastructure management SageMaker Experiments Capture, organize, and compare every step Automatic Model Tuning Hyperparameter optimization Distributed Training Training for large datasets and models SageMaker Debugger Debug and profile training runs Managed Spot Training Reduce training cost by 90% DEPLOY & MANAGE Managed Deployment Fully managed, ultra low latency, high throughput Kubernetes & Kubeflow Integration Simplify Kubernetes-based machine learning Multi-Model Endpoints Reduce cost by hosting multiple models per instance SageMaker Model Monitor Maintain accuracy of deployed models SageMaker Edge Manager Manage and monitor models on edge devices SageMaker Pipelines Workflow orchestration and automation Amazon SageMaker SageMaker Studio Integrated development environment (IDE) for ML

© 2022, Amazon Web Services, Inc. or its Affiliates. Amazon
SageMakerの基本機能

SageMaker の基本構成要素学習スクリプト DL / ML 実⾏環境学習データ Amazon SageMaker Amazon ECR Amazon S3 … SageMaker Python SDK

© 2022, Amazon Web Services, Inc. or its Affiliates. 学習・推論環境をコンテナで素早く構築
The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.

© 2022, Amazon Web Services, Inc. or its Affiliates. 学習環境をコンテナで素早く構築
The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.

© 2022, Amazon Web Services, Inc. or its Affiliates. 学習環境をコンテナで素早く構築
The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. 学習が終わると削除学習時間のみ秒単位で課⾦

© 2022, Amazon Web Services, Inc. or its Affiliates. 推論環境をコンテナで素早く構築
The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. エンドポイント

© 2022, Amazon Web Services, Inc. or its Affiliates. SageMaker
でサポートする DL/ML コンテナ⼀覧 • 未対応バージョンについてもコンテナ持ち込みでご利⽤いただけます ※ 2022年1⽉25⽇時点 Frameworks SageMaker container supported version Deep Learning TensorFlow Script mode: 2.0, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6 EIA, Graviton, Neuron対応 PyTorch 0.4.0, 1.0.0, 1.1.0, 1.2.0, 1.3.0 1.4.0 1.5, 1.6, 1.7.1, 1.8.0, 1.8.1, 1.9.1 EIA, Graviton, Neuron 対応 Hugging Face TensorFlow 2.3, 2.4, 2.5, PyTorch 1.7-1.10 MXNet 0.12.1, 1.0.0, 1.1.0, 1.2.1, 1.3.0, 1.4.0, 1.4.1, 1.6.0 1.3.0, 1.4.0, 1.4.1, … 1.6, 1.7, 1.8, (for Elastic Inference) EIA, Graviton, Neuron 対応 ML scikit-learn 0.23.1 https://github.com/aws/sagemaker-python-sdk TensorFlow:: https://github.com/aws/sagemaker-tensorflow-serving-container PyTorch: https://sagemaker.readthedocs.io/en/stable/using_pytorch.html MXNet: https://sagemaker.readthedocs.io/en/stable/using_mxnet.html Sklearn: https://sagemaker.readthedocs.io/en/stable/using_sklearn.html Hugging Face: https://github.com/aws/deep-learning-containers/tree/master/huggingface

affiliates. SageMaker Python SDK import sagemaker # 各フレームワークに対応した Estimator クラス from sagemaker.pytorch import PyTorch estimator = PyTorch("train.py", role=sagemaker.get_execution_role(), instance_count=1, instance_type="ml.p3.2xlarge", framework_version="1.8.0", py_version="py3") # モデルトレーニング estimator.fit(“s3://mybucket/data/train”) # デプロイ predictor = estimator.deploy(initial_instance_count=2, instance_type="ml.m5.xlarge") # 推論の実⾏ predictor.predict(data) https://sagemaker.readthedocs.io/en/stable/v2.html

affiliates. SageMaker JumpStart 事前構築済みモデルへの容易なアクセス • TensorFlow Hub, PyTorch Hub • テキスト: Hugging Face • 画像: GluonCV • テーブルデータ: LightGBM, CatBoost, XGBoost, Scikit-learn Linear Models • Amazon SageMaker JumpStart adds LightGBM and CatBoost Models for Tabular Data https://aws.amazon.com/about-aws/whats- new/2022/01/amazon-sagemaker-jumpstart-lightgbm- catboost-tabular/ • Documentation: SageMaker JumpStart https://docs.aws.amazon.com/sagemaker/latest/dg/studio- jumpstart.html

affiliates. Hugging Face 機械学習のリファレンス・オープンソースを活⽤し、最先端の NLP モデルの構築、トレーニング、デプロイ Open souese Datasets, Tokenizers, and Transformers Popular 56,000+ の GitHub Star (2022年1⽉時点) 1 か⽉あたり 100+ 万回のダウンロード Intuitive PyTorch または TensorFlow に基づいた NLP 特化の Python フロントエンド State of the art Transformer ベースのモデルは最先端で、転移学習とスケーラビリティを実現 Inclusive 10,000+ のモデルアーキテクチャ、240+ ⾔語を備えた Model Hub Hugging Face ライブラリの特徴

affiliates. NLP をすべての⼈が簡単に利⽤できるようにする AWS との強⼒なパートナーシップ Hugging Face は、最先端の NLP テクノロジーを提供する最も⼈気のあるオープンソース企業 Hugging Face NLP モデルのトレーニングで使⽤するための⾼性能なリソースを提供する SageMaker との統合 AWS

affiliates. Hugging Face + PyTorch SageMaker Python SDK https://github.com/huggingface /notebooks/blob/master/sagem aker/02_getting_started_tensorfl ow/sagemaker-notebook.ipynb

affiliates. Hugging Face + TensorFlow SageMaker Python SDK https://github.com/huggingface /notebooks/blob/master/sagem aker/01_getting_started_pytorch /sagemaker-notebook.ipynb

affiliates. 33 NLP モデルのサイズは指数的に増加最先端の NLP モデルサイズのトレンド Source: https://arxiv.org/abs/2104.04473

affiliates. ハードウェアのトレンド 34 インスタンスタイプ発表時期 GPU GPU MEMORY P2.16xlarge September 2016 NVIDIA K80 12 GB P3.16xlarge October 2017 NVIDIA V100 16 GB P3dn.24xlarge December 2018 NVIDIA V100 32 GB P4d.24xlarge November 2020 NVIDIA A100 40 GB ハードウェアキャパシティも増加傾向だがモデルのパラメータ数変化には追いつかず

affiliates. Amazon SageMaker での分散学習 https://aws.amazon.com/sagemaker/distributed-training/ トレーニング時間の削減 TensorFlow, PyTorch, HuggingFace をサポート⾃動的・効率的なモデル分割最⼩限のコード変更効率的なパイプライン化 (マイクロバッチによる GPU 利⽤効率向上) AWS ネットワーク・ハードウェアに最適化モデル並列データ並列

affiliates. Amazon SageMaker 分散学習ベンチマーク 36 ModelParallel training with T5-3B DataParallel training Model Instances Performance with modelparallel Performance without modelparallel T5-3B 8 P4d.24xlarge 299 seq/s OOM T5-3B 256 P4d.24xlarge 4.68 days OOM Model Instances Performance with dataparallel Speed up RoBERTa (1.3B) 30 P4d.24xlarge 1.85 iter/s 32.4% RoBERTa (1.3B) 16 P4d.24xlarge 2.00 iter/s 33.1%

affiliates. SageMaker Training Compiler は多くの NLP モデルトレーニングを⾼速化 37 bert-base-uncased bert-large-uncased roberta-base gpt2 bert-base-cased xlm-roberta-base bert-base-chinese roberta-large distilbert-base- uncased distilbert-base- uncased-finetuned- sst-2-English cl-tohoku/bert- base-japanese- whole-word- masking bert-base- multilingual-cased distilgpt2 albert-base-v2 gpt2-large

affiliates. 課⾦時間の削減 BERT base distilBERT RoBERTa base GPT-2 38% 26% 27% 54% トレーニングスループット* (samples/second) PyTorch PyTorch with SageMaker Training Compiler 73 96 47 81 62 84 137 170 SageMaker Training Compiler で最⼤50%の速度向上

affiliates. SageMaker Training Compiler は数分で設定可能

affiliates. 🤗 Hugging Face 連携の参考資料 AWS Machine Learning Summit • Accelerate NLP training with Amazon SageMaker https://youtu.be/1LwjUbzcJok Documentation • Use Hugging Face with Amazon SageMaker https://docs.aws.amazon.com/sagemaker/latest/dg/hugging-face.html • Hugging Face on Amazon SageMaker https://huggingface.co/docs/sagemaker/main • Deploying HuggingFace TorchScript models on AWS using the Neuron SDK https://huggingface.co/docs/transformers/master/en/serialization#deploying-huggingface-torchscript-models-on-aws- using-the-neuron-sdk Example Notebook • SageMaker で PyTorch と Hugging Face を使ってテキスト分類モデルをトレーニングしたい — PyTorch Getting Started Demo. • SageMaker で TensorFlow と Hugging Face を使ってテキスト分類モデルをトレーニングしたい — TensorFlow Getting Started example. • Hugging Face と SageMaker を使ってデータ並列処理による分散トレーニングを実行したい – Distributed Training example. • Hugging Face と SageMaker を使ってモデル並列処理による分散トレーニングを実行したい – Model Parallelism example. • SageMaker でスポットインスタンスを使用して Hugging Face のモデルをトレーニングしたい – Spot Instances example. • SageMaker で Hugging Face を使ってテキスト分類モデルをトレーニングするときに、カスタムメトリクスを取りたい – Training with Custom Metrics example. • SageMaker で Hugging Face を使って、TensorFlow の分散学習がしたい – Distributed TensorFlow Training example. • Hugging Face のモデルを Neuron Container で Inf1 にデプロイ – Inf1 Neuron Container example.

affiliates. • コンピュータビジョン、⾃然⾔語理解、レコメンデーションエンジン、異常検出 • ⼀般的に使⽤されるアクセラレータインスタンスには、ML トレーニング⽤の G4dn, P3/P3dn, P4, DL1, G5, G5g, Trn1、ML 推論⽤の G4dn, G5, G5g, Inf1 などがあります。機械学習 • 地震探査、貯留層・油層シミュレーション、極低温電⼦顕微鏡 (Cryo-EM)、分⼦動⼒学 (MD)、数値流体⼒学 (CFD)、データベース解析 • ⼀般的に使⽤されるアクセラレータインスタンスには、 G4dn, G5, G5g, P3/P3dn, P4d および F1 があります。ハイパフォーマンスコンピューティング (HPC) • レンダリング、トランスコーディング、コンテンツストリーミング、プロダクトデザイン、グラフィックワークステーション、ゲームストリーミング • ⼀般的に使⽤されるアクセラレータインスタンスには、 G4dn, G4ad, G5, G5g および VT1 があります。グラフィックスアクセラレータが活⽤されるワークロード

affiliates. Amazon EC2 インスタンスタイプ 44 Linux, Windows, macOS Amazon EBS Amazon Elastic Inference Amazon Elastic GPU Elastic Fabric Adapter カテゴリ機能インスタンスサイズサイズ (.nano -.32xlarge) ベアメタル (.metal) バーストパフォーマンス (t3, t4) 汎⽤ (m5, m6, mac1) コンピューティング最適化 (c5, c6) メモリ最適化 (r5, r6, x1, x2) ストレージ最適化 (d3, i3, i4, im4, is4) ⾼速コンピューティング（アクセラレーテッド） (p4, g5, f1, inf1) CPUの選択 Intel (i), AMD (a), AWS Graviton (g) ⾼周波数 up to 4.5+ GHz (z) 追加メモリ up to 16 TiB (e) インスタンスストレージ Local NVMe disks (d) ⾼速ネットワーク up to 400 Gbps (n) EBSパフォーマンス強化 up to 60Gbps & 260,000 IOPS (b) インスタンス事実上あらゆるビジネスニーズに対応オプション examples: c6gn.8xlarge, m5zn.metal, g4ad.16xlarge, r5b.large 約 5 0 0 種 c6gn.8xlarge ファミリー世代機能サイズ

affiliates. アクセラレーテッドコンピューティングとは 45 CPU: ⾼速、低効率 GPU/FPGA/ASICs: ⾼スループット、⾼効率特定のカテゴリのアプリケーション（深層学習等）では、 GPU, FPGA, ASIC などを⽤いる事により超並列化と⾼効率化が可能計算の⾼スループット化のためには、さらなる並列化が必要とされている

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け
Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn 1 Elastic Inference 従来の機械学習推論学習深層学習学習 + 推論

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習向け
Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C5a M6g M6i M6a R6g R6i R5a F1 Inf1 G5g G5 P4 DL1 Trn 1 Elastic Inference 従来の機械学習推論学習深層学習学習 + 推論最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習ワークロードでは最⼤3倍⾼速に現在プレビュー中 AWS Trainium による学習コストの最適化現在プレビュー中 AWS Inferentia による推論コストの最適化 G4インスタンスと⽐較し最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格を実現 AWS独⾃開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと⽐較し最⼤ 40％優れた価格性能を提供

© 2022, Amazon Web Services, Inc. or its Affiliates. MLトレーニング⽤の適切なインスタンスを特定するフローチャート
どのユースケース︖ ⾃然⾔語処理リコメンドコンピュータビジョン (画像、動画解析) 時系列分析中-⼤規模モデル⼩-中規模モデル⼩規模モデル⽐較的⼤きなGPUメモリ、インスタンスメモリ、ネットワーク帯域を必要とする⾃動運転、宇宙、メディア&エンタ、 HCLS等のアプリケーションその他複数のGPUが必要︖ 複数のGPUが必要︖ アクセラレータが必要︖ 分散トレーニングを実⾏︖ 並⾏モデル開発や実験最適な価格、パフォーマンスを確認するためのベンチマーク最適なvCPUを確認するためのベンチマーク並⾏モデル開発や実験

© 2022, Amazon Web Services, Inc. or its Affiliates. 適切な推論インスタンスを特定するフローチャート
どのユースケース︖ ⾃然⾔語処理リコメンドコンピュータビジョン (画像、動画解析) 時系列解析フレームワークやモデルがInf1 でサポートされている︖ アクセラレータが必要︖ 複数のアクセラレータが必要︖ 複数のGPUが必要︖ 最適なvCPUを確認するためのベンチマーク最適なvCPUを確認するためのベンチマーク複数のモデル、並⾏モデル、分散モデルのデプロイ⽤複数モデル、並⾏モデル、分散モデルのデプロイ⽤ g4dn.{x, 2x, 4x, 8x, 16}large g5.{x, 2x, 4x, 8x, 16x}large g5g.{x, 2x, 4x, 8x}large g4dn.12xlarge, g5.{12x, 24x, 48x}large, g5g.16xlarge, g4dn/g5g.metal (bare-metal)

© 2022, Amazon Web Services, Inc. or its Affiliates. ELMo
(2018) BERT-Large (2018) GPT-2 (2019) Turing NLG (2020) GPT-3 (2020) Switch-C (2021) … 100B 1B 1T 10T 10B 100 M AI/ML インフラストラクチャの主要トレンド GROWTH IN MODEL COMPLEXITY (# of parameters) 1. 古典的な機械学習から深層学習（ディープラーニング）に移⾏しているため、モデルはより複雑化 2. モデルの学習にかかる時間とコストは、数⽇から数週間へと爆発的に増加中 3. データサイエンティストやMLエンジニアは、⾃分たちのユースケースや経験に適したソフトウェアツールやハードウェアプラットフォームを模索

© 2022, Amazon Web Services, Inc. or its Affiliates. Trn1:
Amazon Trainium カスタムアクセラレーター • クラウドで最もコスト効率に優れた DL インスタンス • 最⼤ 800 Gbps のネットワーキング (EFA)、 512 Gb/アクセラレータ、840 TFLOP • EC2 ウルトラクラスターは最⼤ 2.1 エクサフロップスのコンピューティングをサポート DL1: Intel Habana Gaudi アクセラレーター • ⼀般的に使⽤されるCV、NLP、レコメンダーモデルのトレーニングコストパフォーマンスが最⼤ 40% 向上 • 最⼤ 400 Gbps のネットワークと 32 Gb/ アクセラレータ P4 d G5: A10G GPU インスタンス • EC2 P3 (V100) インスタンスよりも 15% 低いコストで⼩規模から中規模のモデルをトレーニングできます • 最⼤ 8 個の NVIDIA A10G テンソルコア GPU と第 2 世代 AMD EPYC プロセッサー • 最⼤ 100 Gbps のネットワークと 24 GB/GPU メモリ P4d: A100 GPU インスタンス • 3億を超えるパラメータを持つ⼤規模モデルの学習⽤ • 最⼤ 400 Gbps のネットワークと 40 GB/GPU メモリによる EC2 ウルトラクラスタのサポート MLトレーニング⽤のEC2インスタンス G4dn: T4 GPU インスタンス • 中⼩規模のモデルのトレーニング • 最⼤ 8 個の NVIDIA T4 テンソルコア GPU とIntel Xeon Scalable (Cascade Lake) プロセッサー P3/P3dn: V100 GPU インスタンス • P3 は中-⼤規模の学習、P3dn は⼤規模モデルの学習⽤ • それぞれ 16 GB, 32 GB GPU メモリの V100 GPU P3/ P3d n

EC2 P4d インスタンス • NVIDIA A100 Tensor Core GPU を搭載 • 前世代のP3インスタンスと⽐較して、機械学習モデルの学習コストを最⼤60%削減、パフォーマンスは平均 2.5倍向上 • 2022年1⽉現在、⽶国東部 (バージニアおよびオハイオ)、⽶国⻄部 (オレゴン)、欧州 (アイルランドおよびフランクフルト)、アジアパシフィック (東京およびソウル) の各リージョンで利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/p4/ インスタンスサイズ GPU (A100) GPUメモリ (GB) vCPU メモリ (GB) NVSwitch (GB/s) NW帯域 (Gbps) NVMe SSD (TB) p4d.24xlarge 8 320 96 1152 600 400 8 0 2 4 6 8 10 12 FP64 TFLOPS FP32 TFLOPS FP16 TFLOPS INT8 TOPS GPU Memory BW (GB/s) GPU Memory (GB) NVLink BW (GB/s) V100 A100 Improvement (x)

© 2022, Amazon Web Services, Inc. or its Affiliates. Wikipedia
コーパスのデータセットでトレーニングされた PyTorch フレームワーク実装の BERT-Large モデル 3x P3 インスタンスよりも高速* Imagenet2012 データセットでトレーニングされた TensorFlow フレームワーク実装の ResNet50 モデル 2.1x P3 インスタンスよりも高速* LibrisPeech データセットでトレーニングされた PyTorch 実装の Jasper モデルの場合 2.3x P3 インスタンスよりも高速* * すべての比較は、単一の p4d.24xlarge インスタンスと p3.16xlarge インスタンス間で行われています。 P4d パフォーマンス

© 2022, Amazon Web Services, Inc. or its Affiliates. P4d
インスタンスの EC2 ULTRACLUSTERS • P4d の EC2 UltraClusters — スーパーコンピューティングクラスのパフォーマンスへのアクセスを⺠主化 • AWS の従量課⾦制モデルを介してオンデマンドで利⽤可能 • 4,000 個以上の A100 Tensor Core GPU • ペタビット規模のノンブロッキングネットワーク • ⾼スループット、低レイテンシーのストレージ、FSx for Lustre • S3 での無制限のストレージのサポート

EC2 DL1 インスタンス • Intel Habana Labs が提供する Gaudi アクセラレータを搭載 • 深層学習モデルのトレーニングに特化 • 各インスタンスには 8 つの Gaudi アクセラレーターを搭載 • 合計 256 GB の⾼帯域幅 (HBM2) アクセラレーターメモリを搭載 • 現⾏世代のGPUインスタンスよりも最⼤40％優れた価格パフォーマンス • TensorFlow および PyTorch と統合された Habana SynapseAI® SDK • 2022年1⽉現在、⽶国東部 (バージニア) 、⽶国⻄部 (オレゴン)で利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/dl1/ インスタンスサイズ Gaudi アクセラレータメモリ (GB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (TB) dl1.24xlarge 8 256 96 768 400 19 4

EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud B F 1 6 / F P 1 6 F P 3 2 840 TFLOPS T F 3 2 3.4 PFLOPS 3.4 PFLOPS T R A N S I S T O R S P E R C H I P 55,000,000,000 Trn1 演算エンジン周波数 3 GHz アグリゲートアクセラレータメモリ 512 GB ピークメモリ帯域幅 13.1 TB/sec チップ間 N E U R O N L I N K 帯域幅 768 GB/sec ネットワークコネクティビティ 800 Gbps EFA プレビュー

EC2 Trn1 インスタンス The most cost-efficient DL instance in the cloud • 60% 増強したアクセラレータメモリ(vs. P4d) • 2倍のネットワーク帯域幅 (vs. P4d) • PyTorch 及び TensorFlow をネイティブにサポート • Trn1上で学習、デプロイ先は⾃由 • 2022前半での⼀般提供を予定インスタンスサイズ Trainium チップ数アクセラレータメモリ (GB) vCPU メモリ (GB) NeuronLink (GB/s) NW帯域 (Gbps) NVMe SSD (TB) Trn1.2xlarge 1 32 8 32 N/A 最⼤ 10 0.5 Trn1.32xlarge 16 512 128 512 768 800 8 プレビュー https://aws.amazon.com/jp/ec2/instance-types/trn1/

© 2022, Amazon Web Services, Inc. or its Affiliates. Trainium
機械学習学習⽤プロセッサ AWS Trainium • AWS による第２世代独⾃設計機械学習プロセッサ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、計算と通信をオーバーラップさせ通信オーバーヘッド最適化 • 32GB HBM2E メモリスタック（アクセラレータメモリ） • Configurable FP8、 Stochastic roundingにハードウェアで対応 https://aws.amazon.com/machine-learning/trainium/ HBM2E メモリ Collective compute エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン Neuronコア Vector エンジン Scalar エンジン DSP Tensor エンジン

© 2022, Amazon Web Services, Inc. or its Affiliates. Stochastic
rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数が0.5より⼩さいなら切り捨て、端数が0.5より⼤きいならは切り上げ • 重みのパラーメータ１に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 重みのパラーメータ1に0.2を加える場合, 80%の確率で1, 20%の確率で2として処理 https://arxiv.org/pdf/1502.02551.pdf

© 2022, Amazon Web Services, Inc. or its Affiliates. Petabits/s
throughput, billions of IOPS Trn1 10K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト EC2 UltraCluster ごとに1万以上の Trainium アクセラレータを搭載 2.1 ExaFLOPS の演算性能を持つ世界最⾼⽔準のスーパーコンピュータへのオンデマンドアクセス

© 2022, Amazon Web Services, Inc. or its Affiliates. スケールアウトのための構成
⼤容量インサーバアクセラレータメモリアクセラレータメモリ P3dn 256 GB 320 GB 512 GB P4d Trn1 ⾼帯域・低レイテンシーインターコネクトチップ間インターコネクト P3dn 300 GB/s 600 GB/s 768 GB/s P4d Trn1 ネットワーク帯域幅 (EFA) P3dn 100 Gb/s 400 Gb/s 800 Gb/s P4d Trn1 (NeuronLink) *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載

© 2022, Amazon Web Services, Inc. or its Affiliates. AWS
Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイムプロファイリングツール主要なフレームワークを全てサポート各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアルサンプルコード

ポートフォリオとの統合ネットワーキング & ストレージフレームワーク & ワークフローサービスコンピュート & アクセラレーション Amazon FSx for Lustre Amazon S3 EC2 Trn1 UltraCluster Amazon EC2 Trn1 Amazon SageMaker AWS Deep Learning AMIs Amazon EKS Amazon ECS AWS Deep Learning Containers Elastic Fabric Adapter Amazon EBS Amazon EFS Pytorch TensorFlow

© 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを
同時処理 Neuronコアグループ AWS Neuron コンパイラ超低遅延と⾼いスループットの両⽴ Neuronコアパイプライン FP32で学習済みのモデルを取り込み BF16へ⾃動変換 FP32オートキャスティング⾃動的にニューラルネットワークの演算を最適化スマートパーティショニング

Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向けにコンパイル可能

© 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声
“Sprinklrの⾃然⾔語処理とコンピュータビジョンのMLモデルは、30以上のチャンネルで公開されているソーシャルメディアの投稿、ブログ投稿、ビデオコンテンツ、その他のパブリックドメインで利⽤できるコンテンツから得られるさまざまなデータ形式を分析します。これまでAWS Inferentia を利⽤し得られた価値に基づいて、我々は AWS Trainiumを試して、我々のモデルの学習時間を改善し、学習コストを削減することを切望しています。これらの⾼性能かつ低コストの学習向けインスタンスで我々のモデルを開発することを楽しみにしています” Vasant Srinivasan, Senior Vice President of Product Engineering at Sprinklr “当社の成功の鍵は、⼤規模な⾼性能ディープラーニングアクセラレータを搭載した最新のインフラストラクチャにアクセスできることです。AWS Trainium を搭載したAmazon EC2 Trn1インスタンスは、⾼いネットワーク帯域幅を持ち、数万ノードにわたって拡張できる前例のない性能により、コストを抑えながらより速い分散学習が可能になるため、楽しみにしています” Tom Brown, Co-Founder at Anthropic ※ Amazon EC2 Trn1 プレビューにお申し込み下さい https://pages.awscloud.com/EC2-Trn1-Preview.html

© 2022, Amazon Web Services, Inc. or its Affiliates. G5:
A10G GPU インスタンス • 最⼤ 8 個の NVIDIA A10G Tensor Core GPU と第 2 世代 AMD EPYC プロセッサー • グラフィックを多⽤するワークロードや機械学習のワークロードでは、G4dn インスタンスと⽐較して 3 倍のパフォーマンス向上 Inf1: カスタム ML アクセラレータ • クラウドで推論あたりのコストが最も低い • AWS が設計した Inferentia アクセラレーターを使⽤した最⼤ 2,000 TOPs • ⾼スループットと低レイテンシー G5g: T4G GPU + Arm CPU インスタンス • Arm ベースの Graviton2 プロセッサと最⼤ 2 つの NVIDIA T4G Tensor Core GPU を搭載 • Android ゲームの 1 時間あたりのストリームコストを最⼤ 30% 削減 G4dn: T4 GPU インスタンス • 最⼤ 8 個の NVIDIA T4 GPU とインテル Cascade Lake CPU により、CPU よりも 40 倍優れた低レイテンシスループットを実現 • 前世代の G3 インスタンスに⽐べて、グラフィックパフォーマンスが最⼤ 1.8 倍向上 ML 推論のための EC2 インスタンス

EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンスクラウド上で高速かつ低価格な推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/

EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年1⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plan インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年1⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇料⾦改定（38%削減）

© 2022, Amazon Web Services, Inc. or its Affiliates. 機械学習
推論⽤プロセッサ AWS Inferentia • AWS による独⾃設計推論プロセッサ • 4 Neuron コア / チップ • チップあたり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージメモリハイアラーキー • ⼤容量オンチップキャッシュと8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリメモリメモリ https://aws.amazon.com/machine-learning/inferentia/

© 2022, Amazon Web Services, Inc. or its Affiliates. ワークロードに合わせて
複数の Neuron コアを柔軟に構成 • Neuronコア間、チップ間をパイプラインモードで接続することで、⼤規模モデルを各オンチップキャッシュメモリ上に展開、⾼スループットと低レイテンシーを両⽴（⼤規模モデル向け） • 複数の Neuronコアをグループモードで接続することにより、スループットの最⼤化を図る（異なるモデルの同時処理、同⼀モデルの並列処理向け） Neuronコアグループ Neuronコアパイプライン

Inferentia によるコスト最適化 $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -49% -68% Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) -42% *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載

Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイムプロファイリングツール主要なフレームワークを全てサポート各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアルサンプルコード

© 2022, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを
同時処理 Neuronコアグループ AWS Neuron コンパイラ超低遅延と⾼いスループットの両⽴ Neuronコアパイプライン FP32で学習済みのモデルを取り込み BF16へ⾃動変換 FP32オートキャスティング⾃動的にニューラルネットワークの演算を最適化スマートパーティショニング

Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向けにコンパイル可能

マネージドサービスでの Inf1 対応 Amazon SageMaker • Inf1 インスタンスを開始するための最も簡単で迅速な⽅法 • Amazon SageMaker は機械学習モデルをすばやく構築、トレーニング、デプロイするためのフルマネージドサービス • Inf1 インスタンスと Neuron はモデルをワンクリックでデプロイできるよう SageMaker に統合 Amazon EKS & ECS • Inf1 は Amazon EKS 及び ECS 上で利⽤可能 • Inf1 インスタンス上にモデルをデプロイするのに最適なマネージドコンテナサービス AWS DLAMI & DL コンテナ • Neuron は AWS Deep Learning AMI 及び AWS Deep Learning コンテナにプリインストール AWS Deep Learning Containers AWS Deep Learning AMIs Amazon SageMaker AWS Elastic Kubernetes Service Amazon Elastic Container Service

© 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例
– ⾼スループットと低レイテンシーの両⽴ • 推論には⾼いスループットを求めるバッチ推論と、低いレイテンシーが求められるリアルタイム推論の２つの異なる処理⽅式が存在 • GPUでは⾼いスループットを達成するためには⼤きなバッチサイズが必要となり、レイテンシーも増⼤ • Inf1 ではパイプラインモードを活⽤することで、⾼いスループットと低いレイテンシーを両⽴、リアルタイム推論性能最適化を実現

© 2022, Amazon Web Services, Inc. or its Affiliates. 最適化例
– ⾼スループットと低レイテンシーの両⽴ 0 40 80 120 160 0.00 0.30 0.60 0.90 1.20 p95 レイテンシー (mSec) 1M 推論当たりのコスト (USD) レイテンシー vs. 推論当たりのコスト G4dn Inf1 ターゲットレイテンシー (SLA) バッチサイズ 64 バッチサイズ 1 バッチサイズ 1 バッチサイズ 6 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch- natural-language-processing-applications-out-of-the-box-on-aws-inferentia/

© 2022, Amazon Web Services, Inc. or its Affiliates. 様々なお客様でコストパフォーマンス最適化を実現
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition

© 2022, Amazon Web Services, Inc. or its Affiliates. Alexa
は、実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポートしています Inf1インスタンスにより、GPUインスタンスと⽐較して運⽤コストを約30％削減し、推論レイテンシを25％改善することができました AMAZON ALEXA © 2021, Amazon Web Services, Inc. or its affiliates. All rights reserved.

© 2022, Amazon Web Services, Inc. or its Affiliates. お客様の声
AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モデルを実行すると、GPU でこれらのモデルを実行する場合と比較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使用してモデルを Inf1 インスタンスにデプロイすることで、デプロイはスケーラブルで管理が簡単になりました。これらのモデルでは、同等の GPU ベースのインスタンスと比較して、すでに 30% 低レイテンシーと 71% のコスト削減をベンチマークしています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS 推論ベースの Inf1 インスタンスに移行することで、推論コストを 60% 削減できるだけでなく、エンドツーエンドのレイテンシーが 40% 以上改善されました。TensorFlow ベースのモデルに Amazon SageMaker を使用すると、Inf1 インスタンスへの切り替えプロセスが簡単で管理が簡単になりました。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition

affiliates. Amazon EC2 DL1 インスタンス • Intel Habana Labsが提供する Gaudi アクセラレータを搭載 • 深層学習モデルのトレーニングに特化 • 各インスタンスには 8 つの Gaudi アクセラレーターを搭載 • 合計 256 GB の⾼帯域幅 (HBM2) アクセラレーターメモリを搭載 • 現⾏世代のGPUインスタンスよりも最⼤40％優れた価格パフォーマンス • TensorFlow および PyTorch と統合された SDK • 2022年1⽉現在、⽶国東部 (バージニア) 、⽶国⻄部 (オレゴン)で利⽤可能 https://aws.amazon.com/jp/ec2/instance-types/dl1/ インスタンスサイズ Gaudi アクセラレータメモリ (GB) vCPU メモリ (GiB) NW帯域 (Gbps) EBS帯域 (Gbps) NVMe SSD (TB) dl1.24xlarge 8 256 96 768 400 19 4

affiliates. 参考情報 • https://aws.amazon.com/jp/machine-learning/inferentia/ • https://aws.amazon.com/ec2/instance-types/inf1/ • https://awsdocs-neuron.readthedocs-hosted.com/ • https://github.com/aws/aws-neuron-sdk • https://ec2-inf1.workshop.aws/ https://github.com/aws-samples/aws-reinvent21-inf1-workshop

affiliates. 参考情報 – AWSブログ • https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ • • https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/ • • https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ • • https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ • • https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of-the-box-on-aws-inferentia/ • • https://aws.amazon.com/jp/blogs/news/majority-of-alexa-now-running-on-faster-more-cost-effective-amazon-ec2-inf1-instances/ • • https://aws.amazon.com/blogs/machine-learning/improving-performance-for-deep-learning-based-object-detection-with-an-aws-neuron-compiled-yolov4-model-on-aws-inferentia/ • • https://aws.amazon.com/blogs/machine-learning/deploying-tensorflow-openpose-on-aws-inferentia-based-inf1-instances-for-significant-price-performance-improvements/

affiliates. 教育プログラムクラウド技術者を⽬指す学⽣向けの授業を⾏う教育機関向け無料カリキュラムパッケージ https://aws.amazon.com/jp/training/awsacademy/ 講師トレーニング、教材、学⽣が無料でアクセスできる AWS 実習環境 LearnerLab を含む教育機関向けカリキュラムパッケージ。受講者は各加盟教育機関の授業を受講する。【コース】初級コース (20時間分の授業⽤コンテンツ) ・ AWS Academy Cloud Foundations ・ AWS Academy Machine Learning Foundations 中級コース(40時間分の授業⽤コンテンツ) ・ AWS Academy Cloud Architecting ・ AWS Academy Cloud Developing

affiliates. 機械学習の無料お試し環境 https://aws.amazon.com/jp/sagemaker/studio-lab/ JupyterLab ベース、AWS 上のコンピューティングリソースに無料でアクセスして機械学習の学習と実験をすぐに始められる。クレジットカード登録不要。ユーザーセッション 1 回あたり12 時間の CPU または 4 時間の GPU のいずれかを選択して利⽤でき、利⽤できるユーザーセッションの数は無制限。プロジェクトごとに最低 15 GB の永続的ストレージを利⽤可能。セッションの期限が切れると、 SageMaker Studio Lab は環境のスナップショットを取得します。これにより、中断したところからすぐに再開可能。 GitHub と緊密に統合されており、Git コマンドラインを完全にサポート。

affiliates. AWS Cloud Credit for Research 93 üクラウドでホストされるサービス、ソフトウェア、ツールの構築、研究プロセスのクラウド移⾏等の新しいプロジェクトをサポートするプログラム。 ü申請は四半期ごとに審査されます。 ü申請⾦額に上限はありません。 ü研究環境のオンプレミスからクラウドへの移行の検証 ü研究プロジェクトのメンバーのトレーニング ü研究の公開のための基盤構築などの目的で応募可能。 https://aws.amazon.com/jp/government-education/research- and-technical-computing/cloud-credit-for-research/ 研究助成プログラム

affiliates. DeepRacer学⽣リーグ 16歳以上個⼈参加可能、費⽤はかかりません（クレジットカード登録不要）クラウド上での機械学習の実践上位リーグに勝ち進めばグローバルチャンピオンシップへの参加可能 https://aws.amazon.com/jp/deepracer/student/japan-student-championship/

affiliates. 採⽤ https://aws.amazon.com/jp/careers/newgraduate/ 問い合わせ︓[email protected] AWS・amazonでは新卒・キャリア採⽤ともに積極的におこなっています。

Accelerated Computing for NLP on AWS

Accelerated Computing for NLP on AWS

More Decks by Shoko Utsunomiya

Other Decks in Technology

Featured

Transcript