Upgrade to Pro — share decks privately, control downloads, hide ads and more …

JAWS-UG AIML支部 第14回勉強会 Amazon EC2 Trn1 GA ! ~ A...

JAWS-UG AIML支部 第14回勉強会 Amazon EC2 Trn1 GA ! ~ AWSが提供するML向けインスタンスの豊富な品揃えと専用チップによるコスパ最適化のご紹介 ~ / 20221018 JAWS-AIML-EC2-Instances-for-ML

概要:AWSでは約500種類にも上るAmazon EC2インスタンスを提供しています。豊富な品揃えを提供する一方、MLワークロードの要件に合わせてどのインスタンスを選択したらよいか悩まれる事もあるかと思います。本セッションでは、ML向けインスタンスの豊富な選択肢を紹介するとともに、AWSが独自に設計開発した専用チップ AWS Inferentia 、AWS Trainium を搭載したインスタンスをデモや事例と共に紹介します。 ※ 10月10日一般提供開始されたばかりの AWS Trainium 搭載 Trn1 インスタンスをいち早くライブで紹介します!

Hiroshi Tokoyo

October 18, 2022
Tweet

More Decks by Hiroshi Tokoyo

Other Decks in Technology

Transcript

  1. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. Amazon EC2 Trn1 GA ! 〜 AWS が提供する ML 向けインスタンスの豊富な品揃えと 専⽤チップによるコスパ最適化のご紹介 〜 常世 ⼤史 (Hiroshi Tokoyo) アマゾンウェブサービスジャパン合同会社 2022年10⽉18⽇
  2. © 2022, Amazon Web Services, Inc. or its affiliates. 本日お話しすること

    • AWS が提供する ML 向けインスタンスの豊富な品揃え • AWS 専⽤チップによるコスパ最適化 § 10⽉10⽇⼀般提供開始 AWS Trainium 搭載 Trn1 インスタンス
  3. © 2022, Amazon Web Services, Inc. or its affiliates. ⾃⼰紹介

    名前︓常世 ⼤史 (とこよ ひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援 経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボ に参加。2015年2⽉の買収に伴い AWS の⼀員に 好きなAWSサービス︓ EC2 Inf1, Trn1, F1インスタンス 2021 AWS Summit Online Japan Keynote Annapurna labs (アンナプルナラボ) とは... AWS 内の半導体開発部⾨。 Graviton 64bit ARM プロセッサや Inferentia, Trainium 深層学習専⽤ チップを開発
  4. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. AWS が提供する ML 向けインスタンスの 豊富な品揃え
  5. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC)
  6. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    の AI/ML スタック 広 範 か つ 最 も 充 実 し た 機 械 学 習 の 機 能 群 AI サービス Code + DevOps Amazon CodeGuru Amazon DevOps Guru Business processes Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon Lookout for Metrics Search Amazon Kendra Industrial Amazon Monitron Amazon Lookout for Equipment Amazon Lookout for Vision Healthcare Amazon HealthLake Amazon Comprehend Medical Amazon Transcribe Medical SPECIALIZED Chatbots Amazon Lex Text & Documents Amazon Translate Amazon Comprehend Amazon Textract Speech Amazon Polly Amazon Transcribe Amazon Transcribe Call Analytics Vision Amazon Rekognition AWS Panorama CORE ML サービス Manage edge devices Learn ML No-code ML for business analysts Prepare data Store features Detect bias Build with notebooks Manage & monitor Train models Deploy in production Tune parameters Explain predictions CI/CD Label data SAGEMAKER CANVAS SAGEMAKER STUDIO LAB AMAZON SAGEMAKER STUDIO IDE ML フレームワーク & インフラストラクチャ TensorFlow, PyTorch, Apache MXNet, Hugging Face Amazon EC2 CPUs GPUs AWS Trainium Elastic inference AWS Inferentia FPGA Habana Gaudi Deep Learning Containers (DLC) Amazon EC2 インスタンス • ⽤途に合わた 500種類にも上る選択肢 • AI サービス、ML サービスを⽀える基盤 • 機械学習の環境を⾃在に構築して利⽤
  7. © 2022, Amazon Web Services, Inc. or its affiliates. 機械学習向け

    Amazon EC2 インスタンスの選択肢 Ice Lake CPU Cascade Lake CPU Habana accelerator EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA アクセラレーテッドコンピューティング C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 Inf1 G5g G5 P4 DL1 Trn1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論
  8. © 2022, Amazon Web Services, Inc. or its affiliates. GPUインスタンスの変遷

    GPGPU 機械学習 グラフィック 機械学習(推論) 2017 2016 2010 NVIDIA Tesla M2050 2013 2018 2019 NVIDIA Grid K2 NVIDIA Tesla M60 NVIDIA Tesla T4 NVIDIA Tesla V100 32GB NVIDIA Tesla V100 16GB NVIDIA Tesla K80 2020 2021 CG1 G2 NVIDIA Tesla A100 AMD Radeon Pro V520 G5 NVIDIA Tesla A10G G5g NVIDIA Tesla T4G (ARM CPU) 2022年6⽉ 東京リージョンGA 2022年5⽉ P4de GPU インスタンスのプレビューを発表
  9. © 2022, Amazon Web Services, Inc. or its affiliates. Trn1

    Inf1 機械学習向け Amazon EC2 インスタンスの選択肢 EPYC CPU A100, A10G, T4G GPUs Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA C7g C6g C6i C6a M6g M6i M6a R6g R6i R6a F1 G5g G5 P4 DL1 Elastic Inference 従来の機械学習 推論 学習 深層学習 学習 + 推論 最新 Graviton3 プロセッサ搭載 bfloat16 と fp16 に対応し機械学習 ワークロードでは最大3倍高速に AWS Trainium による学習コストの最適化 AWS クラウドで最高の性能、P4dインスタ ンスと比較し最大50%低価格を実現 AWS Inferentia による推論コストの最 適化 G4インスタンスと比較し最大2.3倍の スループット向上、推論処理当たり 最大70%低価格を実現 AWS独自開発プロセッサ Graviton2 によるコスト最適化 M/C/R6gインスタンスはx86ベースの M/C/R5インスタンスと比較し最大 40%優れた価格性能を提供
  10. © 2022, Amazon Web Services, Inc. or its affiliates. 推論ワークロードの要件

    • 軽めのMLモデル、性能要件は低め • CPUインスタンスでは性能要件を満たせないが、推論リクエストは 散発的に発⽣するためGPUインスタンスでは⾮効率 • 性能要件が⾼めのDLモデル(推論リクエストは常時発⽣ or ⼀度に まとめてバッチ処理可能) • NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブ ラリを利⽤したアプリケーションの最適化を想定 • 低遅延が求められ、カスタムでの前処理、後処理のハードウェア化 が必要、IP資産を保持(or 開発リソースあり) • プロダクション時のコストとパフォーマンスの最適化が重要 • リアルタイム性能、低遅延が重要 Amazon EC2 インスタンスの選択指針(推論ワークロード) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に CPUインスタンス CPUインスタンス +Elastic Inference GPUインスタンス F1インスタンス Inf1インスタンス
  11. © 2022, Amazon Web Services, Inc. or its affiliates. 学習ワークロードの要件

    • ⼩規模モデルで性能要件は低め • NVIDIA社のGPU対応ライブラリ、 エコシステムを活⽤ • 開発容易性が重要 • 中⼤規模モデル • 複数GPUを利⽤ • ⼩中規模モデル • 単⼀GPUを利⽤ • コストパフォーマンス最適化が重 要 • GPUインスタンスに選択肢を追加、 プロダクション時の可⽤性を向上 • PyTorch, TensorFlowフレーム ワークを利⽤ • 中⼤規模モデル • 複数インスタンスの利⽤も 視野に • ⼩中規模モデル Amazon EC2 インスタンスの選択指針(学習ワークロード) CPU インスタンス GPU インスタンス (p3.8/16xlarge, p3dn.24xlarge p4d.24xlarge g5.12/24/48xlarge) GPU インスタンス (p3.2xlarge, g5.xlarge ~ 16xlarge) DL1 インスタンス (dl1.24xlarge) Trn1 インスタンス (trn1.32xlarge) Trn1 インスタンス (trn1.2xlarge) • 全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない • 可⽤性向上を⽬的とした複数種類のインスタンス利⽤も視野に
  12. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. AWS 専⽤チップによるコスパ最適化
  13. © 2020, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2016 re:Invent 2017 re:Invent 2018 re:Invent 2019
  14. © 2020, Amazon Web Services, Inc. or its Affiliates. All

    rights reserved. Amazon Confidential and Trademark. AWS におけるシリコンイノベーション re:Invent 2021 re:Invent 2020
  15. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    独⾃設計 ML チップ搭載インスタンス Amazon EC2 Inf1 Amazon EC2 Trn1 AWS Inferentia によるML推論の最適化 G4インスタンスと比較し最大 2.3倍のスルー プット向上、推論処理当たり最大 70%低価格 を実現 AWS Trainium によるML学習の最適化 GPUインスタンスと比較し最大 50%低価格 を実現 2022年10⽉10⽇⼀般提供開始
  16. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon

    EC2 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するための インスタンス • AWS が独⾃設計した機械学習推論チップ AWS Inferentia を搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価 格を実現 • GPUインスタンスと⽐較し最⼤2.3倍のスループット 向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、 最⼩限のコード変更のみですぐに利⽤開始可能 EC2 Inf1インスタンス クラウド上で高速かつ低価格な 推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/
  17. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon

    EC2 Inf1 インスタンス • 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個の Inferentia 推論チップを搭載 • 6xlarge、24xlargeでは複数の Inferentia チップを⾼速チップ間通信で接続 • 最⼤ 100Gbps のネットワークインタフェース • 2022年10⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plans インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
  18. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Inferentia • AWS による独⾃設計 ML 推論チップ • 4 Neuron コア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓ReLU等の活性化関数に最適化 • Vector エンジン︓Batch Normalization や Pooling 処理に最適化 • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージ メモリハイアラーキー • ⼤容量オンチップ キャッシュと 8GB DRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • NeuronLink ⾼速チップ間通信 https://aws.amazon.com/machine-learning/inferentia/
  19. © 2022, Amazon Web Services, Inc. or its affiliates. 最新G5インスタンスと⽐較し、最⼤68%の低コストを実現

    $0.000 $0.150 $0.300 $0.450 G4dn.xl G5.xl Inf1.xl Bert-Large $0.000 $0.300 $0.600 $0.900 G4dn.xl G5.xl Inf1.xl Yolov5 $0.000 $0.025 $0.050 $0.075 G4dn.xl G5.xl Inf1.xl Resnet50 $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -64% -42% -49% -68% Bert-Large Bert-Base Yolov5 Resnet50 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載
  20. © 2022, Amazon Web Services, Inc. or its affiliates. 0

    400 800 1200 inf1.xl G5.xl g4dn.xl Bert-Base ⾼性能と低コストを両⽴ $0.000 $0.100 $0.200 $0.300 G4dn.xl G5.xl Inf1.xl Bert-Base -68% Cost / Million Inferences G4 と⽐較し、2.74倍のスループット G5 と⽐較し、24% ⾼いスループットを実現 Throughput (seq/sec) G4 と⽐較し、84% の低コスト G5 と⽐較し、68% の低コストを実現 -24% 1M 推論当たりのコスト (USD) *G4dn: NVIDIA T4 GPU 搭載 G5: NVIDIA A10G GPU 搭載 スループット (seq/sec)
  21. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Neuron • Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイム プロファイリングツール 主要なフレームワークを全てサポート 各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)に プリインストール https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード
  22. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向け にコンパイル可能
  23. © 2022, Amazon Web Services, Inc. or its affiliates. 様々なお客様でコストパフォーマンス最適化を実現

    https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Hotpot.ai Amazon Rekognition
  24. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon内での

    Inf1 活用事例 Amazon Alexa 実際の⼈間の会話のような⾃然な⾳声を⽣成する⾮常に複雑な⾳声合成 モデルを導⼊しており、全世界で1億台以上の Alexa デバイスをサポー トしています。Inf1インスタンスにより、GPUインスタンスと⽐較して 運⽤コストを約30%削減し、推論レイテンシを25%改善することがで きました Amazon Robotics 私たちのシステムは 2022 年に 1,000 台以上の SageMaker ホストを使 ⽤する予定です。AWS Inferentia は、私たちの機械学習モデルを再ト レーニングすることなく、35% 低いコストと 20% ⾼いスループット で、急速に増加するトラフィックに対応する機会を与えてくれます」 Amazon Prime Video EC2 Inf1 インスタンスに画像分類機械学習モデルをデプロイしたところ、 パフォーマンスが 4 倍向上し、コストも最⼤ 40% 削減することができ ました。
  25. © 2022, Amazon Web Services, Inc. or its affiliates. ⽇本国内のお客様の声

    Money Forward, Inc. 「当社の AI チャットボットサービスを Amazon EC2 Inf1 イン スタンスに移⾏するのは簡単でした。2 か⽉以内に移⾏を完了し、 Amazon Elastic Container Service(ECS)を使⽤して AWS Inf1 インスタンスで⼤規模なサービスを開始しました。Inf1 イ ンスタンスあたり複数のモデルを提供することで、 (同等の GPU ベースのインスタンスに⽐べて) 推論レイテンシを 97% 削減し、 推論コストを 50% 以上削減できました。」 https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/
  26. © 2022, Amazon Web Services, Inc. or its affiliates. 2022年10⽉10⽇

    EC2 Trn1 インスタンス⼀般提供開始
  27. © 2022, Amazon Web Services, Inc. or its affiliates. Amazon

    EC2 Trn1 インスタンス • AWSによってカスタム設計された⾼性能機械学習トレーニング チップ AWS Trainium を搭載したインスタンス • 最も費⽤効果の⾼いMLトレーニング性能を実現 • GPUインスタンスと⽐較し最⼤ 50%低価格を実現 • 最⼤16個の AWS Trainium アクセラレータ、512GB の⾼速 HBM2メモリ、8TB のローカル NVMe SSDを搭載 • 最⼤800Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域 • Trainium 間は超⾼速 NeuronLink で接続 • Tensorflow、PyTorchなど主要MLフレームワークをサポート • Trn1上で学習し、デプロイ先は⾃由 インスタンスサイズ Trainium アクセラレータ メモリ (GB) vCPU メモリ (GB) NVMe SSD (TB) EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) Trn1.2xlarge 1 32 8 32 0.5 最⼤ 20 最⼤ 12.5 1.34 Trn1.32xlarge 16 512 128 512 8 80 800 21.50 https://aws.amazon.com/jp/ec2/instance-types/trn1/ *2022年10⽉時点の⽶国東部 (バージニア北部)の価格
  28. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Trainium • AWS による第2世代 独⾃設計 ML トレーニングチップ • 2 Neuronコア / チップ • Tensor エンジン︓畳み込み等、⾏列演算に最適化 • Scalar エンジン︓RELU等の活性化関数に最適化 • Vector エンジン︓Batch Normalizationやプーリング処理に最適化 • 組込型汎⽤DSP︓カスタムオペレータに対応 • 専⽤ collective compute エンジン • 分散学習を⾏う際に、演算と通信をオーバーラップ • 32GB HBM2E メモリスタック • FP32, TF32, FP16, BF16, INT8 データタイプをサポート • Configurable FP8、 Stochastic roundingにハードウェアで 対応 https://aws.amazon.com/machine-learning/trainium/
  29. © 2022, Amazon Web Services, Inc. or its affiliates. 対応するデータタイプと性能⽐

    FP32 P R E C I S I O N R A N G E S TF32 BF16 FP16 cFP8 UINT8 0 1 2 3 4 BF16/FP16 TF32 FP32 Normalized Performance P3dn P4d Trn1 デ ー タ タ イ プ ご と の 性 能 ( T F L O P S ) ⽐ NLP/DLRM Computer vision >5x >2.5x 1.4x *P3dn: NVIDIA V100 GPU 搭載 P4d: NVIDIA A100 GPU 搭載 性 能 ( T F L O P S ) ⽐
  30. © 2022, Amazon Web Services, Inc. or its affiliates. Petabits/s

    throughput, billions of IOPS Trn1 30K+ Trainium Chips Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 Trn1 EC2 UltraClusters Petabit non- blocking TOR 超⼤型モデルのための UltraCluster スケールアウト • EC2 UltraClusterごとに3万以上のTrainiumアクセラレータを搭載 6.3 ExaFLOPS の演算性能を持つ世界最⾼⽔準の スーパーコンピュータへのオンデマンドアクセス
  31. © 2022, Amazon Web Services, Inc. or its affiliates. Stochastic

    rounding (確率的な丸め処理) • Round nearest even (標準的な丸め処理の⼿法) • 端数は四捨五⼊ • 例)整数1に対して0.2を何度加えても結果は変わらない • Stochastic rounding (確率的な丸め処理) • 例)整数1に0.2を加える場合、80%の確率で1、20%の確率で2として丸め処理 実行例)BERT-Large pre-training BF16 SRでは FP32 と同様の精度を維持 BF16 SRでは BF16 RNE と同様のスピードを達成 精度 (Loss) スループット
  32. © 2022, Amazon Web Services, Inc. or its affiliates. AWS

    Neuron • Trainium 上での⾼性能MLトレーニングを実現するためのSDK https://github.com/aws-neuron/aws-neuron-samples https://awsdocs-neuron.readthedocs-hosted.com AWS Neuron SDK ドキュメント サンプルコード 主要なフレームワークを全てサポート Neuron コンパイラ Neuron ランタイム プロファイリングツール
  33. © 2022, Amazon Web Services, Inc. or its affiliates. Example:

    BERT-Large pre-training • Bring your own model
  34. © 2022, Amazon Web Services, Inc. or its affiliates. Example:

    BERT-Large pre-training • Bring your own model • JIT-compile to Trainium
  35. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. Live Demo !!
  36. © 2022, Amazon Web Services, Inc. or its affiliates. ©

    2022, Amazon Web Services, Inc. or its affiliates. 参考情報
  37. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報

    https://aws.amazon.com/jp/ec2/instance-types/inf1/ https://aws.amazon.com/jp/machine-learning/inferentia/ https://aws.amazon.com/jp/ec2/instance-types/trn1/ https://aws.amazon.com/jp/machine-learning/trainium/ https://awsdocs-neuron.readthedocs-hosted.com/
  38. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報

    – AWS ブログ https://aws.amazon.com/jp/blogs/news/aws-trainium-amazon-ec2-trn1-ml-training-part1/ https://aws.amazon.com/jp/builders-flash/202209/create-large-scale-inference-environment/ https://aws.amazon.com/jp/solutions/case-studies/amazon-robotics-case-study/ https://aws.amazon.com/jp/blogs/machine-learning/how-amazon-search-reduced-ml-inference-costs-by-85-with-aws-inferentia/ https://aws.amazon.com/jp/solutions/case-studies/finchcomputing-case-study/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part1/ https://aws.amazon.com/jp/blogs/news/inference-environment-using-aws-inferentia-and-amazon-ecs-with-aws-cdk-part2/ https://medium.com/pytorch/democratizing-gpr-ground-penetrating-radar-with-deep-learning-feddd9d2286d
  39. © 2022, Amazon Web Services, Inc. or its affiliates. 参考情報

    – AWS ブログ https://aws.amazon.com/jp/blogs/news/how-infojobs-adevinta-improves-nlp-model-prediction-performance-with-aws-inferentia-and-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/startup/event-report-deep-learning-accelerator-instances/ https://aws.amazon.com/jp/blogs/news/ec2-event-nttpc-anymotion-inf1-costperformance-optimization/ https://aws.amazon.com/jp/blogs/news/choose-the-best-ai-accelerator-and-model-compilation-for-computer-vision-inference-with-amazon-sagemaker/ https://aws.amazon.com/jp/blogs/news/serve-3000-deep-learning-models-on-amazon-eks-with-aws-inferentia-for-under-50-an-hour/ https://aws.amazon.com/jp/blogs/news/scaling-ad-verification-with-machine-learning-and-aws-inferentia/ https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch-natural-language-processing-applications-out-of- the-box-on-aws-inferentia/