Amazon EC2 機械学習ワークロードの選択肢 / Amazon EC2 ML Workload Options

© 2021, Amazon Web Services, Inc. or its Affiliates. アマゾンウェブサービスジャパン株式会社
Annapurna Labs 常世大史 Amazon EC2 ⼤活⽤ Amazon EC2 機械学習ワークロードの選択肢

© 2021, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介
名前︓常世⼤史 (とこよひろし) 所属︓Annapurna labs (アンナプルナラボ) 職務︓アンナプルナラボ発信技術の拡販、技術⽀援経歴︓外資半導体企業を経て、2013年7⽉アンナプルナラボに参加。2015年2⽉の買収に伴い AWSの⼀員に好きなAWSサービス︓ EC2 Inf1, F1インスタンスアンナプルナラボとは... AWS内の半導体開発部⾨。 Inferentia推論専⽤チップやGraviton 64bit ARMプロセッサを開発 2021 AWS Summit Online Japan

© 2021, Amazon Web Services, Inc. or its Affiliates. •
AWSの機械学習 • Amazon EC2 機械学習ワークロードの選択肢 • Amazon EC2 Inf1インスタンスによるコストパフォーマンス最適化本⽇のアジェンダ

© 2021, Amazon Web Services, Inc. or its Affiliates. あらゆる規模や業界のお客様が
AWS上で機械学習を実⾏しています数万ものお客様が機械学習のワークロードにAWSを選択

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS
の機械学習スタック VISION SPEECH TEXT SEARCH CHATBOTS PERSONALIZATION FORECASTING FRAUD CONTACT CENTERS Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Trainium Inferentia FPGA DeepGraphLibrary Amazon Rekognition Amazon Polly Amazon Transcribe +Medical Amazon Lex Amazon Personalize Amazon Forecast Amazon Comprehend +Medical Amazon Textract Amazon Kendra Amazon CodeGuru Amazon Fraud Detector Amazon Translate INDUSTRIAL AI CODE AND DEVOPS NEW Amazon DevOps Guru Voice ID For Amazon Connect Contact Lens NEW Amazon Monitron NEW AWS Panorama + Appliance NEW Amazon Lookout for Vision NEW Amazon Lookout for Equipment NEW Amazon HealthLake HEALTH AI NEW Amazon Lookout for Metrics ANOMALY DETECTION Amazon Transcribe Medical Amazon Comprehend Medical Amazon SageMaker Label data NEW Aggregate & prepare data NEW Store & share features Auto ML Spark/R NEW Detect bias Visualize in notebooks Pick algorithm Train models Tune parameters NEW Debug & profile Deploy in production Manage & monitor NEW CI/CD Human review NEW: Model managementfor edge devices NEW: SageMakerJumpStart SAGEMAKER STUDIO IDE AI サービス: 機械学習の深い知識なしに利⽤可能 ML サービス: 機械学習のプロセス全体を効率化するマネージドサービス ML フレームワークとインフラストラクチャ: 機械学習の環境を⾃在に構築して利⽤

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon
EC2 機械学習ワークロードの選択肢

© 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習ワークロードに求められる要件
幅広い要件が存在 • 推論︖学習︖ • 機械学習モデル（決定⽊︖深層学習︖） • フレームワーク（TensorFlow︖PyTorch︖カスタム︖） • バッチ推論 vs リアルタイム推論 • スループット • レイテンシー • 精度 • コスト • 開発容易性 • 等々 ASIC GPU CPU コストパフォーマンスアプリケーション全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない

© 2020, Amazon Web Services, Inc. or its Affiliates. M5
M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習学習＋推論 Habana Gaudi 2021 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 機械学習向けAmazon EC2インスタンスの幅広い選択肢推論 Inf1 学習 F1 G4 深層学習

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference CPUインスタンス〜従来の機械学習向け選択肢〜 Inf1 F1 G4 CPU (M/C/R) インスタンス • 軽いモデルや⾼い性能を求めない場合に利⽤ • ⽐較的に安価な選択肢。開発容易性は最も⾼い • CPU性能及びメモリの要件に合わせた様々なインスタンスタイプ、サイズの選択肢 Elastic Inference • 幅広いラインナップのAmazon EC2インスタンスにGPUリソースをネットワーク経由でアタッチすることで深層学習の推論処理を⾼速化する安価なアクセラレータオプション • 深層学習の推論処理を最⼤75%コスト削減 • 8TFLOPsから32TFLOPs(Mixed precision)性能まで２ファミリー x ３つのサイズが選択可能 • CPUインスタンス単体では推論性能が不⾜、GPUインスタンスではコスト⾼の場合の選択肢 https://aws.amazon.com/machine-learning/elastic-inference/

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference F1インスタンス〜FPGAによる超低遅延実装〜 Inf1 F1 G4 *FPGA (Field Programmable Gate Array) • FPGAとは事前定義された命令セットを持たない書換え可能なハードウェア • 必要な前処理、後処理とともにFPGA上にハードウェア実装する事で超低遅延を実現 • 開発難易度は⾼め • Xilinx社はAI推論開発向けプラットフォーム VitisTM AI を提供 F1 インスタンス • 最⼤8つの Xilinx UltraScale+ VU9P FPGA を搭載 • 各FPGAは200万個以上のロジックセルと5000以上のDSPブロックを搭載 • FPGA開発環境がプリインストール済みのFPGA Developer AMIを提供 https://aws.amazon.com/ec2/instance-types/f1/

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference Inf1インスタンス〜AWS独⾃設計推論チップ搭載〜 Inf1 F1 G4 Inf1 インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス • AWSが独⾃設計した機械学習推論チップAWS Inferentiaを搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格を実現 • GPUインスタンスと⽐較し、最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格 https://aws.amazon.com/ec2/instance-types/inf1/ *ASIC (Application Specific Integrated Circuit) • 特定⽤途向けの専⽤チップは、⾼い性能と低いコストを両⽴可能 • 特にInferentiaでは、⾼いスループット（バッチ推論）と低レイテンシー（リアルタイム推論）を両⽴ • ⼀般的には汎⽤CPU、GPUと⽐較すると開発容易性の点で劣る⾯も

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference G4インスタンス〜GPUによる推論の⾼速化〜 Inf1 F1 G4 G4 インスタンス • 最⼤8つの NVIDIA T4 GPU を搭載。シングル GPU 搭載の g4dn.xlarge〜16xlarge、マルチGPU 搭載の g4dn.12xlarge (4 GPU)、g4dn.metal (8 GPU)まで、複数のインスタンスタイプを提供 • 機械学習の推論と⼩規模トレーニングのための GPU をベースとしたインスタンス • CUDA, CuDNN, TensorRT等、NVIDIA社のライブラリを利⽤したアプリケーションに最適 https://aws.amazon.com/jp/ec2/instance-types/g4/ *GPU (Graphics Processing Unit) • 元々は名前の通りグラフィックスを描画する際に必要な計算処理に特化したプロセッサ • NVIDIAのGPUでは機械学習向けにTensorコアを実装 • ⾼いスループット性能（バッチ推論）向けのアーキテクチャで、GPUの利⽤効率を上げるためにはバッチサイズを⼤きくする必要がある • カスタムオペレータであっても、CUDAで直接記述することによりアクセラレート可能

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference P3・P4インスタンス〜GPUによる学習の⾼速化〜 Inf1 F1 G4 P4 インスタンス • 最新の NVIDIA A100 Tensor Core GPU を搭載 • 8つの A100 GPUを搭載した p4d.24xlarge を提供中。GPU間は、NVIDIA NVSwitchにより各リンク600GB/s のフルメッシュ構成で接続。⾼速でスケーラブルな分散学習環境を実現 • P3インスタンスと⽐較し、パフォーマンスは平均 2.5倍向上、学習コストを最⼤60%削減 P3 インスタンス • NVIDIA V100 GPUを搭載 • シングルGPU搭載のp3.2xlargeから８つのGPUを搭載したp3.16xlarge, p3dn.24xlargeまで、要件に合わせた複数のインスタンスタイプを提供 • NVIDIA NVLinkによる300GB/s GPU間通信性能。分散学習に対応 https://aws.amazon.com/jp/ec2/instance-types/p3/ https://aws.amazon.com/jp/ec2/instance-types/p4/

M5a M6i Habana Gaudi 2021 M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 2021年内提供予定学習向けインスタンスの新たな選択肢 Inf1 F1 G4 Habana Gaudi 搭載インスタンス • 深層学習モデルのトレーニング⽤に特別に設計された、Habana Labs (an Intel company) の Gaudi アクセラレータを搭載したAmazon EC2 インスタンス • 8カードのGaudiアクセラレーターでの深層学習トレーニングにより、現在のGPUベースのEC2 インスタンスよりも最⼤40％優れたコストパフォーマンスを提供 AWS Trainium 搭載インスタンス • AWSが独⾃設計した第２世代機械学習チップ AWS Trainium を搭載したAmazon EC2インスタンス • クラウドで深層学習モデルを学習するための最⾼のコストパフォーマンスを提供 https://aws.amazon.com/ec2/instance-types/habana-gaudi/ https://developer.habana.ai https://aws.amazon.com/machine-learning/trainium/

M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習学習＋推論 Habana Gaudi 2021 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g P3 P4 Trainium 2021 Elastic Inference 機械学習向けAmazon EC2インスタンスの幅広い選択（再掲）推論 Inf1 学習 F1 G4 深層学習

© 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードの要件
⼿軽にAIサービスを実装したい軽めのMLモデル、性能要件は低め CPUインスタンスでは性能要件を満たせないが、推論リクエストは散発的に発⽣するためGPUインスタンスでは⾮効率性能要件が⾼めのDLモデル（推論リクエストは常時発⽣ or ⼀度にまとめてバッチ処理可能） NVIDIA CUDA, CuDNN, TensorRT、DALI等、NVIDIA社のライブラリを利⽤したアプリケーションの最適化を想定超低遅延が求められ、カスタムでの前処理、後処理のハードウェア化が必要、IP資産を保持（or 開発リソースあり）プロダクション時のコストとパフォーマンスの最適化が重要 Amazon EC2 インスタンスの選択指針（推論ワークロード）全ての機械学習ワークロードに対してベストとなるインスタンスの選択肢は存在しない AWS AIサービスをご検討下さい CPUインスタンス CPUインスタンス + Elastic Inference GPUインスタンス F1インスタンス Inf1インスタンス

M5a M6i Ice Lake CPU Cascade Lake CPU Skylake CPU Habana accelerator EPYC CPU A100, V100, T4 GPUs 従来の機械学習学習＋推論深層学習 Habana Gaudi 2021 推論 Graviton CPU Inferentia Chip Trainium Chip UltraScale+ FPGA M6g C5 C5a C6g R5 R5a R6g F1 Inf1 G4 P3 P4 Trainium 2021 学習 Elastic Inference AWS独⾃設計チップによるコストパフォーマンス最適化 64-bit Arm Neoverseコアを搭載した AWS独⾃開発プロセッサ Graviton2 によるコスト最適化同等の現⾏世代x86ベースのインスタンスと⽐較し最⼤40％優れた価格性能を提供 AWS独⾃設計ASICによる学習コストの最適化 ※2021年内に利⽤可能予定 AWS独⾃設計ASICによる推論コストの最適化 G4インスタンスと⽐較し最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格を実現

EC2 Inf1インスタンスによるコストパフォーマンス最適化

EC2 Inf1インスタンス • 機械学習の推論を⾼性能かつ低価格で実⾏するためのインスタンス • AWSが独⾃設計した機械学習推論チップAWS Inferentiaを搭載 • クラウド上で深層学習モデルを実⾏する上で最も低価格を実現 • GPUインスタンスと⽐較し、最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格 • ソフトウェアは主要な機械学習フレームワーク (TensorFlow, PyTorch, MXNet)とシームレスに統合、最⼩限のコード変更のみですぐに利⽤開始可能 AWS Inferentia AWSが独⾃設計した⾼性能機械学習推論チップ EC2 Inf1インスタンスクラウド上で⾼速かつ低価格な推論を実現 https://aws.amazon.com/ec2/instance-types/inf1/

© 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習
推論⽤プロセッサ AWS Inferentia • AWSによる独⾃設計推論プロセッサ • 4 Neuronコア / チップ • チップ当たり最⼤128 TOPS (2,000 TOPS @24xlarge) • 2ステージメモリハイアラーキー • ⼤容量オンチップキャッシュとDRAMメモリ • FP16, BF16, INT8 データタイプをサポート • FP32で構築された学習モデルをBF16で実⾏可能 • ⾼速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリメモリメモリ https://aws.amazon.com/machine-learning/inferentia/

© 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードに合わせてNeuronコアを柔軟に構成
Neuronコアグループ Neuronコアパイプライン • Neuronコア間、チップ間をパイプラインモードで接続することにより、⼤規模モデルを各オンチップキャッシュメモリ上に展開し、⾼スループットと低レイテンシーを両⽴ • 複数のNeuronコアをグループモードで接続することにより、複数のモデルを同時処理、スループットの最⼤化を図る

© 2021, Amazon Web Services, Inc. or its Affiliates. Inf1インスタンスの選択肢
• 4つのインスタンスサイズから選択可能 • インスタンス毎に1~16個のInferentia推論チップを搭載 • 6xlarge、24xlargeでは複数のInferentiaチップを⾼速チップ間通信で接続 • 最⼤100Gbpsのネットワークインタフェース • Amazon SageMaker, Amazon ECS, Amazon EKSからも利⽤可能 • 2021年10⽉現在、東京を含む23のリージョンにて利⽤可能 • 他のEC2同様、複数の⽀払いオプションを⽤意 • オンデマンド、リザーブドインスタンス、スポットインスタンス、Savings Plan インスタンスサイズ Inferentia vCPU メモリ (GiB) ストレージ EBS帯域 (Gbps) NW帯域 (Gbps) オンデマンド価格 (USD/時間) inf1.xlarge 1 4 8 EBS Only 最⼤ 3.5 最⼤ 25 0.228 inf1.2xlarge 1 8 16 EBS Only 最⼤ 3.5 最⼤ 25 0.362 inf1.6xlarge 4 24 48 EBS Only 3.5 25 1.18 inf1.24xlarge 16 96 192 EBS Only 19 100 4.721 *2021年10⽉時点の⽶国東部 (バージニア北部)の価格 2021年6⽉1⽇料⾦改定（38%削減）

© 2021, Amazon Web Services, Inc. or its Affiliates. クラウド上のML推論でベストプライスパフォーマンスを提供
※HuggingFace BERT-base モデルをPyTorchで実⾏した結果 (seqlen=128, batch size g4dn:64, inf1:6) インスタンスタイプスループット (Seq/Sec) OD価格 ($/Hr) 1M 推論当たりのコストスループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 985 $0.228 $0.064 2.3倍向上 81% 削減 g4dn.xlarge 422 $0.526 $0.346 インスタンスタイプスループット (img/Sec) OD価格 ($/Hr) 1M 推論当たりのコストスループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 2,226 $0.228 $0.028 24% 向上 65% 削減 g4dn.xlarge 1,792 $0.526 $0.082 ⾃然⾔語 ※ResNet-50 モデルをTensorFlowで実⾏した結果画像分類 ※YoloV4モデルをTensorFlowで実⾏した結果インスタンスタイプスループット (img/Sec) OD価格 ($/Hr) 1M 推論当たりのコストスループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.2xlarge 118 $0.362 $0.852 1.82倍向上 62% 削減 g4dn.xlarge 65 $0.526 $2.248 物体検出 G4インスタンスと⽐較し、最⼤2.3倍のスループット向上、推論処理当たり最⼤70%低価格を実現

Neuron Inferentia上での⾼性能推論を実現するためのSDK Neuron コンパイラ Neuron ランタイムプロファイリングツール主要なフレームワークを全てサポート各フレームワーク、Neuron SDKは DLAMI (AWS Deep Learning AMI)にプリインストール AWS Neuron SDK ドキュメント https://awsdocs-neuron.readthedocs-hosted.com/ https://github.com/aws/aws-neuron-sdk チュートリアルサンプルコード

© 2020, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを
同時処理 Neuronコアグループ AWS Neuron コンパイラ超低遅延と⾼いスループットの両⽴ Neuronコアパイプライン FP32で学習済みのモデルを取り込み BF16へ⾃動変換 FP32オートキャスティング⾃動的にニューラルネットワークの演算を最適化スマートパーティショニング

Neuron コンパイラ • わずか数⾏のコードの変更のみで、事前学習済みモデルをInferentiaチップ向けにコンパイル可能

© 2021, Amazon Web Services, Inc. or its Affiliates. リアルタイム推論性能最適化
インスタンスタイプスループット (Seq/Sec) レイテンシー (mSec) 1M 推論当たりのコストスループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.xlarge 985 24.9 $0.064 2.3倍向上 81% 削減 g4dn.xlarge 422 153.3 $0.346 バッチ推論性能（コストパフォーマンス）最適化 ※バッチサイズ = 6 (inf1), 64 (g4dn) インスタンスタイプスループット (Seq/Sec) レイテンシー (mSec) 1M 推論当たりのコストスループット Inf1 vs. G4 推論当たりのコスト Inf1 vs. G4 inf1.6xlarge 1793 6.9 $0.183 12.0倍向上 81% 削減 g4dn.xlarge 149 8.2 $0.981 リアルタイム推論性能最適化 ※バッチサイズ = 1 https://aws.amazon.com/jp/blogs/news/achieve-12x-higher-throughput-and-lowest-latency-for-pytorch- natural-language-processing-applications-out-of-the-box-on-aws-inferentia/ コンパイル時にパイプラインモードを指定し、 BERTモデルでリアルタイム推論性能最適化を実現

サービス内での Inf1 インスタンス活⽤事例 AWS Inferentia ベースの Inf1 インスタンスでは、物体分類などの Rekognition モデルを実⾏すると、GPU でこれらのモデルを実⾏する場合と⽐較して、レイテンシーが 8 倍低くなり、スループットが 2 倍になります。 – Rajneesh Singh, Director, SW Engineering, Rekognition and Video https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon SageMaker を使⽤してモデルを Inf1 インスタンスにデプロイすることで、スケーラブルかつ管理が容易になりました。これらのモデルでは、同等の GPU ベースのインスタンスと⽐較して、すでに 30% 低レイテンシーと 71% のコスト削減を達成しています。 - Yashal Kanungo, Applied Scientist, Amazon Advertising ウェブベースの質問回答 (WBQA) ワークロードを GPU ベースの P3 インスタンスから AWS 推論ベースの Inf1 インスタンスに移⾏することで、推論コストを 60% 削減できただけでなく、エンドツーエンドのレイテンシーを 40% 以上改善し、お客様の Q&A エクスペリエンスの向上に貢献しています。 - Eric Lind, Software Development Engineer, Alexa AI. Amazon Rekognition

© 2021, Amazon Web Services, Inc. or its Affiliates. お客様の声
https://aws.amazon.com/ec2/instance-types/inf1/#Customer_Testimonials Amazon Rekognition

© 2021, Amazon Web Services, Inc. or its Affiliates. ©
2020, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ • AWS では機械学習ワークロード向けに幅広い Amazon EC2 インスタンスの選択肢を提供中 • 推論ワークロード向けには、複数の選択肢を提供中。AWS独⾃開発の推論プロセッサ AWS Inferentia を搭載した Inf1インスタンスではクラウド上での ML推論でコストパフォーマンスの最適化を実現 • 学習ワークロード向けには、最新 NVIDIA A100 Tensor Core GPU を搭載した P4d インスタンスを提供中。2021年内には新たな選択肢として、Habana Gaudi 搭載インスタンス、AWS Trainium 搭載インスタンスを提供予定是⾮皆さんの機械学習ワークロードを AWS上で動かしてみてください︕

Amazon EC2 機械学習ワークロードの選択肢 / Amazon EC2 ML Workl...

Amazon EC2 機械学習ワークロードの選択肢 / Amazon EC2 ML Workload Options

Hiroshi Tokoyo

More Decks by Hiroshi Tokoyo

Other Decks in Technology

Featured

Transcript

© 2021, Amazon Web Services, Inc. or its Affiliates. アマゾンウェブサービスジャパン株式会社

© 2021, Amazon Web Services, Inc. or its Affiliates. ⾃⼰紹介

© 2021, Amazon Web Services, Inc. or its Affiliates. •

© 2021, Amazon Web Services, Inc. or its Affiliates. AWSの機械学習

© 2021, Amazon Web Services, Inc. or its Affiliates. ©

© 2021, Amazon Web Services, Inc. or its Affiliates. あらゆる規模や業界のお客様が

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

© 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習ワークロードに求められる要件

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードの要件

© 2020, Amazon Web Services, Inc. or its Affiliates. M5

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

© 2021, Amazon Web Services, Inc. or its Affiliates. 機械学習

© 2021, Amazon Web Services, Inc. or its Affiliates. 推論ワークロードに合わせてNeuronコアを柔軟に構成

© 2021, Amazon Web Services, Inc. or its Affiliates. Inf1インスタンスの選択肢

© 2021, Amazon Web Services, Inc. or its Affiliates. クラウド上のML推論でベストプライスパフォーマンスを提供

© 2021, Amazon Web Services, Inc. or its Affiliates. AWS

© 2020, Amazon Web Services, Inc. or its Affiliates. 複数のモデルを

© 2021, Amazon Web Services, Inc. or its Affiliates. AWS

© 2021, Amazon Web Services, Inc. or its Affiliates. リアルタイム推論性能最適化

© 2021, Amazon Web Services, Inc. or its Affiliates. Amazon

© 2021, Amazon Web Services, Inc. or its Affiliates. お客様の声

© 2021, Amazon Web Services, Inc. or its Affiliates. ©