AWS Startup.fm #8. ML Cost Optimization

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS Well-Architected Framework Machine Learning Lens コスト最適化の柱設計原則 • 総所有コスト (TCO) を削減するためマネージドサービスを使う • 小さいデータセットで実験する • 正しいタイプ・サイズのインスタンスを選ぶ • 消費パターンに基づいた推論アーキテクチャ設計 • 全体の費用対効果 (ROI) と機会費用を定義 https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine- Learning-Lens.pdf

Slide 6

Slide 6 text

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS の機械学習スタック幅広く完全な機械学習のサービス群コンピュータビジョン音声テキスト検索チャットボットパーソナライズ予測不正検知開発コンタクトセンター Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Inferentia FPGA Amazon Rekognition Amazon Polly Amazon Transcribe +Medical Amazon Comprehend +Medical Amazon Translate Amazon Lex Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon CodeGuru AI サービス ML サービス深層学習フレームワーク & インフラ Amazon Textract Amazon Kendra Contact Lens For Amazon Connect DeepGraphLibrary Ground Truth AWS Marketplace for ML Neo Augmented AI Built-in algorithms Notebooks Experiments Processing Model training & tuning Debugger Autopilot Model hosting Model Monitor SageMaker Studio IDE Amazon SageMaker

Slide 7

Slide 7 text

Slide 8

Slide 8 text

© 2020, Amazon Web Services, Inc. or its Affiliates. TCO の考え方: 3種類のコスト Capability 考慮事項インフラストラクチャ • インスタンス単価 • スポットインスタンスなどの活用によるコスト削減運用 • インスタンスのプロビジョン、環境構築 • パッチ適用等のメンテナンス • パフォーマンス最適化 • トレーニングジョブ毎の独立したパフォーマンス • 分散学習に適したストレージやネットワークのチューニング • 推論のための最適なインフラ選択とチューニング • データやモデル成果物の可用性・耐久性 • トレーニング・推論環境のモニタリング、ログの取得や管理 • 推論環境の可用性 (Multi-AZ 対応やオートスケーリング) セキュリティ & コンプライアンス • 転送時・保管時のデータ暗号化 • 権限管理と証跡管理 • SOC, PCI, ISO, FedRAMP, HIPAA などのコンプライアンス対応

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

© 2020, Amazon Web Services, Inc. or its Affiliates. 全体の費用対効果 (ROI) と機会費用 • 費用対効果 (ROI) • 費用は各サービスの料金ページから試算。 • 例えば「SageMaker 料金」や「Personalize 料金」などと検索。 • 料金の例が載っているので参考にする。 • ビジネスインパクトは何の指標を向上させるかで考える。 • 機会費用 • そもそも ML を利用すべきか否か、最適な選択肢を選ぶ。

Slide 13

Slide 13 text

Slide 14

Slide 14 text

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS Well-Architected Framework Machine Learning Lens コスト最適化の柱ベストプラクティス • 費用対効果の高いリソース • 需要と供給を合わせる • 支出意識 • 継続的な最適化 https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine- Learning-Lens.pdf

Slide 15

Slide 15 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Managed Spot Training • オンデマンドに比べて最大90%のコスト削減 • 中断が発生する可能性があるので checkpoints に途中経過を書き出し • 最大で待てる時間を指定呼び出し方: estimator = PyTorch("train.py", role=sagemaker.get_execution_role(), train_instance_count=1, train_instance_type="ml.p3.2xlarge", framework_version="1.5.0", train_use_spot_instances=True, train_max_wait=2*24*60*60, # >= train_max_run (デフォルト1日) checkpoint_s3_uri="s3://mybucket/checkpoints", checkpoint_local_path="/opt/ml/checkpoints/" ) estimator.fit("s3://mybucket/data/train") # fit でトレーニング

Slide 16

Slide 16 text

Slide 17

Slide 17 text

© 2020, Amazon Web Services, Inc. or its Affiliates. 推論コストを抑えるための選択肢 1. Amazon Elastic Inference • 推論に必要な分だけ適切な量の計算リソースをアタッチ 2. Multi-Model Endpoint • 一つのエンドポイントの裏に複数モデルをデプロイ 3. AWS Inferentia • 推論のための専用チップ 4. Amazon SageMaker Neo • モデルのコンパイルによる軽量化と高速化

Slide 18

Slide 18 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Amazon Elastic Inference 低い推論コストアクセラレーターごと 1 - 32 TFLOPS 需要に合わせたキャパシティ TensorFlow, Apache MXNet, PyTorch をサポート Amazon EC2, Amazon SageMaker と統合単精度・混合精度演算深層学習の推論コストを最大75%削減

Slide 19

Slide 19 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Elastic Inference PyTorch Elastic Inference G4 インスタンス (T4 GPU) 安い https://aws.amazon.com/blogs/machine-learning/reduce-inference-costs-on-amazon-ec2-for-pytorch-models-with-amazon-elastic-inference/

Slide 20

Slide 20 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Multi-Model Endpoint • 単一のエンドポイントの裏に複数のモデルを置くことができる • 動的にモデルを追加することも可能 S3 model storage tokyo.tar.gz kanagawa.tar.gz osaka.tar.gz aichi.tar.gz S3://bucket/our-endpoint-models/ S3://bucket/our-endpoint-models Load

Slide 21

Slide 21 text

© 2020, Amazon Web Services, Inc. or its Affiliates. 機械学習推論用プロセッサ AWS Inferentia • AWS による独自設計推論プロセッサ • 4 Neuron コア / チップ • チップ当たり最大128 TOPS • (2,000 TOPS @inf1.24xlarge) • 2ステージメモリ階層 • 大容量オンチップキャッシュと DRAM メモリ • FP16, BF16, INT8 データタイプをサポート • FP32 で構築された学習モデルを BF16 で実行可能 • 高速なチップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリメモリメモリ

Slide 22

Slide 22 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Neuronコアパイプライン - 大規模モデルを低遅延で推論 • 大規模モデルを低遅延で推論 • Neuron コア間、チップ間をパイプラインモードで接続することにより、大規模モデルを各オンチップキャッシュメモリ上に展開し、高スループット・低レイテンシを実現 CACHE Memory CACHE Memory CACHE Memory CACHE Memory Neuron コアパイプライン

Slide 23

Slide 23 text

© 2020, Amazon Web Services, Inc. or its Affiliates. AWS Neuron SDK https://github.com/aws/aws-neuron-sdk コンパイル Neuron コンパイラ (NCC) NEFF を出⼒ Neuron バイナリ (NEFF) デプロイ Neuron ランタイム (NRT) プロファイル Neuron ツール C:\>code --version 1.1.1

Slide 24

Slide 24 text

© 2020, Amazon Web Services, Inc. or its Affiliates. 一度のトレーニングで、どこでも 2x のパフォーマンス Amazon SageMaker Neo Neo Broad framework support Broad hardware support Open-source Neo-AI device runtime and compiler 1/10th the size of original frameworks https://github.com/neo-ai/ Inf1 Inferentia

Slide 25

Slide 25 text

© 2020, Amazon Web Services, Inc. or its Affiliates. Parse Model Optimize Tensors Generate Code Optimize Graph TensorFlow, MXNet, PyTorch, XGBoost のモデルを共通フォーマットに変換 ML モデル (NN) 中のパターンを認識し、実行コストを削減するようグラフ構造の最適化入力データの shape からパターンを抽出し、効率的にメモリを割り当てるターゲットデバイス用に低レベルコンパイラを用いて機械語を生成 Neo コンパイラ (TVM / treelite) Pruning Operator fusion Nested loop tiling Vectorization / Tensorization Data layout transform

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

© 2020, Amazon Web Services, Inc. or its Affiliates. 費用対効果の高いリソーストレーニング 1. Managed Spot Training 推論 1. Amazon Elastic Inference • 推論に必要な分だけ適切な量の計算リソースをアタッチ 2. Multi-Model Endpoint • 一つのエンドポイントの裏に複数モデルをデプロイ 3. AWS Inferentia • 推論のための専用チップ 4. Amazon SageMaker Neo • モデルのコンパイルによる軽量化と高速化