Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon SageMaker Hands-on Workshop

Amazon SageMaker Hands-on Workshop

Yoshitaka Haribara

November 22, 2021
Tweet

More Decks by Yoshitaka Haribara

Other Decks in Technology

Transcript

  1. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker Hands-on Workshop Yoshitaka Haribara, Ph.D. AWS Startup Solutions Architect @_hariby 2021-11-22
  2. Yoshitaka Haribara, Ph.D. AWS Startup Solutions Architect Tokyo, Japan 2018年

    AWS Japan 入社。 ソリューションアーキテクトとして日本の スタートアップに対する AWS 導入支援を行っており、 特に機械学習基盤の設計・構築や、 開発体制の整備にまつわる相談を手掛ける。 趣味はドラム。好きなドラマーは Dave Weckl, Chad Smith (Red Hot Chili Peppers) など。
  3. 3 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS ML stack 最も広範かつ充実した機械学習のサービス群 VISION SPEECH TEXT SEARCH CHATBOTS PERSONALIZATION FORECASTING FRAUD DEVELOPMENT CONTACT CENTERS Ground Truth AWS Marketplace for ML Neo Augmented AI Built-in algorithms Notebooks Experiments Processing Model training & tuning Debugger Autopilot Model hosting Model Monitor Deep Learning AMIs & Containers GPUs & CPUs Elastic Inference Inferentia FPGA Amazon Rekognition Amazon Polly Amazon Transcribe +Medical Amazon Comprehend +Medical Amazon Translate Amazon Lex Amazon Personalize Amazon Forecast Amazon Fraud Detector Amazon CodeGuru AI SERVICES ML SERVICES ML FRAMEWORKS & INFRASTRUCTURE Amazon Textract Amazon Kendra Contact Lens For Amazon Connect SageMaker Studio IDE Amazon SageMaker DeepGraphLibrary Deep Java Library
  4. 4 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 機械学習のワークフローは反復的かつ複雑 トレーニングデータを収集して準備 MLアルゴリズムを選択また は独自モデルを持ち込み トレーニング環境の 設定と管理 モデルのトレーニング、 デバッグ、チューニング トレーニング 実行の管理 本番環境での モデルの展開 モデルの モニタリング 予測の検証 本番環境の拡張と管理
  5. 5 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker でモデル構築、トレーニング、デプロイ トレーニングデータを収集して準備 完全マネージド型データ処理ジョブ/ データラベル付けのワークフロー MLアルゴリズムを選択または 独自モデルを持ち込み コラボレーティブ・ノートブック ビルトインアルゴリズム/モデル トレーニング環境の設定と管理 ワンクリックでトレーニング モデルのトレーニング、 デバッグ、チューニング デバッグと 最適化 トレーニング実行の 管理 実験を視覚的に追跡して 比較する 本番環境での モデルの展開 ワンクリック展開と 自動スケーリング モデルの モニタリング コンセプトのドリフ トを自動的に検出 予測の検証 予測のヒューマンレ ビューを追加 本番環境の拡張と管理 完全マネージド型 自動スケーリングで 75% 削減 ML用ウェブベースのIDE モデルの自動構築とトレーニング
  6. 6 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | ML を簡単に ワンクリックでトレーニング/デプロイ、 ビルトインアルゴリズム、 自動チューニング 拡張可能なパフォーマンス パワフルな GPU へのオンデマンドアクセス 自動拡張、分散トレーニング 費用対効果の高さ データラベリングのコストを最大70% 削減、マ ネージされたスポットトレーニング、クラウド 市場において最安値の推論モデル セキュリティ セキュリティ機能の充実したセット: ネットワーク分離、アクセス制御、暗号 化、コンプライアンス DevOps 対応 Kubernetes で実行するオプションを備えた 完全マネージド型の MLOps 少なくとも 54% 他のクラウドベースのオプショ ンとの比較で 低い TCO 効率的に 100台 のGPUに拡張可能 単一 IDE Webベースのビジュアルイ ンターフェイスですべての MLステップを実行する 幅広い コンプライアンス: SOC | PCI | ISO | フェドラム | HIPAA | GDPR | FIPS KUBERNETES と Kubebflow の統合 6 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved | Amazon SageMaker ML向け エンド to エンド ソリューション
  7. 7 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 10倍 開発者の生産性を 向上させます 詳細については、ブログ記事をご参照ください http://bit.ly/mlTCO 3年間にわたり、最低 54% 低い TCO を 提供します Amazon SageMaker Security Compliance Operations ML infrastructure
  8. 10 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 典型的な SageMaker ユースケース 予知保全 製造、自動車、IoT 需要予測 小売、消費財、製造 不正行為 検出機能 金融サービス、 オンライン小売 信用リスク予測 金融サービス、小売 文書からのデータ 抽出と分析 医療、法務、メディア/ エンターテイメント、 教育 コンピュータ ビジョン ヘルスケア、製薬、製 造 自動運転 自動車、輸送 パーソナライズされた 推奨事項 メディア&エンターテインメ ント、小売、教育 チャーン 予測 小売、教育、ソフトウェ ア、インターネット http://bit.ly/ sagemaker-use-cases
  9. 11 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | カスタマイズされたソリューション : データセット、AWS CloudFormation テンプレート 及び参照アーキテクチャを使用して、数回のクリックで SageMaker に簡単にデプロイできます Amazon SageMaker でトップユースケース向けに カスタマイズされた ソリューション すぐに使えるモデルを使用することも、 特定のユースケースに合わせてカスタマイズ することもできます 数回のクリックで SageMaker にデプロイ 簡単にデータセットをポイント 詳細については、下記リンクをご覧ください https://aws.amazon.com/ sagemaker/getting-started/ MLソリューションを 1 日以内に立ち上げ
  10. 12 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 12 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved | お客様事例
  11. 13 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Lyftは、米国とカナダで最大の交通ネットワークの一つであり、2017年に Level 5の自動運転車 (Autonomous Vehicle) 部門を立ち上げ、数百万人ものライダーを支援する自動運転システムを開発しました。 Amazon SageMaker 分散トレーニングを使用して、モデルのトレーニング時間を数日から数時間に短縮しま した。AWS で機械学習過程を標準化することで、開発サイクルを合理化し、コストを削減し、最終的に自動 運転機能をお客様に提供するというミッションを加速しました。 —アレックス・ベイン Lyft Level 5のMLシステムのリード
  12. 14 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | バラバラな ML ソリューションの乱立 チーム間での共同作業が困難 開発サイクルの長期化、コストの増加 PROBLEM トレーニングを SageMaker で標準化 オンデマンドまたはマネージドスポットイ ンスタンスを使用した単一ノードおよび分 散トレーニング SOLUTION モデルトレーニング時間を数日から数時間 未満に短縮 (分散トレーニングクラスターを使用) エンジニアリングコストの削減 IMPACT 14 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved |
  13. 15 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SOLUTION ARCHITECTURE Lyft Level 5 トレーニングデータ Amazon S3 に保存さ れたモデル成果物 コンテナ マネージドスポット、 分散型および単一ノード トレーニング Training jobs Amazon SageMaker GPUs
  14. 16 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 3TB以上のデータ、週 1,500時間以上の再生時間 リアルタイム統計のMLソリューションが必要、 リーンチーム、データ・サイエンスの専門知識なし PROBLEM Next Gen Stats (NGS) 選手やゲームボールの RFID タグから AWS に ライブデータを配信 1秒未満で100ステップ以上のデータ処理 リアルタイム予測 APIとオンスクリーングラフィック経由で公開 される統計情報の出力及び画面上のグラフィック SOLUTION 20以上の統計を即座に起動 スポーツアナウンサーはファンを惹きつける興味 深いデータポイントを取得 IMPACT 16 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved |
  15. 17 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SOLUTION ARCHITECTURE Next Gen Stats ソリューション全体を AWS で実行 Amazon SageMaker では、MLモデルを 既存の分析パイプラインにデプロイで きます ストリーミングデータアーキテクチャ 150ms Apache Kafka Real-time data Data distributors Stadium Stats FTP Tracking data Traditional stats NGS processors Amazon SageMaker ML processors NGS Datastore Websites NGS API Club tools 1000ms
  16. 18 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | トムソン・ロイター様は、大規模な ML を活用 したいと考えていました。 セキュリティポリシーへのコンプライアンスを確 保しながら、データへの安全なアクセスが必要。 PROBLEM Secure Content Workspaces (SCW) SCWは、社内セキュリティ標準に準拠したデータ へのアクセスを提供。 Amazon SageMaker は、SCW を通じて有効化さ れ、完全マネージド型の機械学習環境を提供。 SOLUTION データサイエンティストは、トムソン・ロイター様 のポリシーに従い、安全に大規模な実験をできるよ うになりました。 クラウド・コンピューティング・リソースへのス ムーズなアクセスにより、トムソン・ロイター様の 顧客にインテリジェントでタイムリーなソリュー ションを提供できます。 IMPACT ビジネスおよびプロフェッショナル向けの、 インテリジェントで信頼性の高い情報のリーディングソース 18 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved |
  17. 19 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SOLUTION ARCHITECTURE Thomson Reuters Amazon SageMaker の SCW では、 適切な権限、セキュリティ、 ユーザーロールなどのデータへの アクセスを許可できます。 コンピューティングオプションへの 完全マネージドアクセス: CPU、GPU、スポットインスタンス。 Reads models Amazon SageMaker Model Building TR content owner Scientist Managed Spot Training Scientist’s secure storage TR content SageMaker Notebook environment SCW Github Enterprise Amazon SageMaker Training Amazon SageMaker Hosting GPUs Scientist’s secure storage Creates “workspace” and “services” Requests access to TR data Grants access to TR content Provisions Notebook environment Provisions Grants Launches (start, stop, open) Data science Discovery Interactive model building Launches training at scale Writes models
  18. 20 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 「Cinnamon AI は、Amazon SageMaker マネージドスポットトレーニングで ML モデルのトレーニングコストを 70% 節約」 https://aws.amazon.com/jp/blogs/news/cinnamon-ai-saves-70-on-ml-model- training-costs-with-amazon-sagemaker-managed-spot-training/
  19. 21 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 「効率的にインテル® FPGA エッジデバイス上の深層学習推論を実行する」 https://aws.amazon.com/jp/blogs/startup/using-fewer-resources-to-run-deep-learning- inference-on-intel-fpga-edge-devices/ AWS Cloud AWS IoT Greengrass Certified DE10-Nano Amazon SageMaker Amazon SageMaker Ground Truth Optimized Model AWS IoT Core Amazon Kinesis Data Firehose Camera AWS IoT Greengrass Image Inference Results LeapMind Deep Learning Accelerator IP Cyclone® V SoC FPGA Training Data Amazon ECR Blueoil Docker Image Label Lambda function Training Output
  20. 22 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | “Making Amazon SageMaker and TensorFlow Work for You — Mobileye guest post” https://medium.com/@julsimon/making-amazon-sagemaker-and-tensorflow- work-for-you-893365184233
  21. 23 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 「AWS IoT & Amazon SageMakerを使った魚群食欲解析システムの実現」 https://speakerdeck.com/umitron/aws-iot-and-amazon-sagemakerwoshi- tutayu-qun-shi-yu-jie-xi-sisutemufalseshi-xian-number-awsdevday ػցֶशͷύΠϓϥΠϯ • σʔληοτ࡞੒ɺϞσϧఆٛɺτϨʔχϯάɾνϡʔχϯάɺσϓϩΠ·ͰίʔυͰ؅ཧ • ϨϏϡʔͯ͠ɺ඼࣭Λอͭ • UMITRONͷαʔϏεͱͯ͠ར༻͢ΔϞσϧ͸ҰͭͷGitHubͰ؅ཧ • ଞͷϓϩμΫτͰ࢖͏ػցֶशʹؔ͢Δෳ਺ͷϞσϧ΋؅ཧ 36
  22. 24 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Startup ブログ「日本のスタートアップにおける AI/ML 事例」 https://aws.amazon.com/jp/blogs/startup/tech-case-study-jp- startup-ai-ml/
  23. 25 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 25 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved | Amazon SageMaker の 主な機能
  24. 26 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker: 機能の概要 SageMaker Ground Truth 完全マネージド型 データのラベル付け SageMaker Studio Notebooks エラスティック・コンピュー ティングによるワンクリック のノートブック One-click Training 簡単に トレーニングジョブを実行 Automatic Model Tuning ワンクリックでハイパーパ ラメータの最適化 One-click Deployment リアルタイム、バッチおよび マルチモデルをサポート Model Monitor コンセプトドリフトを 自動検出 SageMaker Processing ビルトインの Python、 BYO R/Spark Built-in and bring your-own algorithms 監視付き/ 監視なしアルゴリズム SageMaker Experiments すべてのステップを キャプチャ、整理、比較 SageMaker Neo 一度のトレーニングで どこにでも展開 AWS Marketplace 事前構築されたアルゴリズム およびモデル SageMaker Debugger トレーニング実行を デバッグ Inf1/Amazon Elastic Inference 高パフォーマンスを 最低コストで提供 Managed Spot training トレーニングコストを 90%削減 Amazon Augmented AI モデル予測のヒューマンレ ビュー機能を追加 SageMaker Studio SageMaker Autopilot 自動的にモデルを構築・ トレーニング SageMaker Studio以外のコンポーネント SageMaker Studioに含まれるコンポーネント
  25. 27 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Studio 完全に統合された 機械学習の開発環境 (IDE) 大規模なコラボレーション コードの依存性を追跡する必要なし 簡単な実験管理 数千件の実験を整理、追跡、比較 自動モデル生成 コードを書かずに完全な可視化と制御が可能 高品質な ML モデル 自動的にエラーをデバッグ、モデルを監視、高品質を維持 生産性の向上 統合されたビジュアルインターフェイス上で、コード、構 築、トレーニング、デプロイ、および監視を実行
  26. 28 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Studio を使用した モデル構築と品質管理
  27. 29 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Autopilot 完全な可視性と制御を伴う モデルの自動作成 クイックスタート データを表形式で提供し、対象予測を指定 モデルの自動作成 フィーチャエンジニアリングでMLモデルを取得すると モデルのチューニングが自動的に完了 Visibility and control ソースコードでモデル用のノートブックを入手 推奨事項と最適化 リーダーボードを入手し、モデルの改善を継続
  28. 31 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SageMaker Autopilot でテーブルデータの回帰・分類 データ分析 特徴量 エンジニアリング モデル チューニング モデル完成
  29. 32 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker は、Kubernetes と統合できます Amazon SageMaker Operators for Kubernetes 2 Amazon SageMaker Components for Kubeflow Pipelines 1 Pipelines
  30. 33 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker セキュリティ機能で アイデアから本番稼働までの 時間を短縮 インフラストラクチャとネットワークの分離 プライベートネットワーク経由で SageMaker コンポーネント間の データ通信を制御し、シングルテナンシーで適切な入出力を確保 認証と承認 Amazon SageMaker リソースを使用するために、誰が認証・ 承認され得るユーザーであるかを定義、実行、監査 データ保護 保管中および移動中のデータの自動暗号化を確実にし、 独自のキーを柔軟に使用可能 監視と監査可能性 すべての API コール・イベント・データアクセス/インタラクションを、 ユーザーと IPレベルまで追跡・トレース・監査し、迅速な修復を確実に コンプライアンス認定 最も包括的なコンプライアンス管理を継承し、 お客様の業界の法的要件を遵守します
  31. 37 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | トレーニングデータの収集と準備 トレーニングデータの収集と準備 フルマネージド型のデータ処理ジョブ/ データラベル付けのワークフロー Choose or bring your own ML algorithm Collaborative notebooks, built-in algorithms/models Set up and manage environments for training One-click training Train, debug, and tune models Debugging and optimization Manage training runs Visually track and compare experiments Deploy model in production One-click deployment and autoscaling Monitor models Automatically spot concept drift Validate predictions Add human review of predictions Scale and manage the production environment Fully managed with auto-scaling for 75% less ML用ウェブベースのIDE モデルの自動構築とトレーニング
  32. 38 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Ground Truth 機械学習を使用して高精度な トレーニングデータセットを 構築 データラベル付けのコストを削減 最大 70% アノテータにアクセス Amazon Mechanical Turk (クラウドソーシング)、 アマゾン認定ベンダー、または自社のアノテータ 正確な結果を迅速に実現 ビルトインのデータラベル付けワークフロー 3D ポイントクラウド、ビデオ、画像、テキストをサポート
  33. 39 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 良いモデルには高品質のデータが必要です
  34. 40 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Ground Truth の仕組み Raw data Amazon S3への 未加工データの入力 Labeling カスタムまたは ビルトインの ワークフローを使用し ラベル付けジョブを作成 Worker 異なる アノテーター グループから選択 Assistive labeling アノテーターは、ラベリング 支援機能を備えたラベリング UI を使用してタスクを完了 正確な トレーニング データセット Amazon SageMaker Ground Truth 機械学習のトレーニング データのラベル付けを 大規模かつ簡単に実行
  35. 41 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Processing データ処理とモデル評価の ための分析ジョブ 完全マネージド型 クラスタの分散処理の実現 カスタム処理 フィーチャエンジニアリング用の独自のスクリプトをご持参 ください コンテナサポート SageMaker のビルトインコンテナを使用するか、独自のコ ンテナをご持参ください セキュリティとコンプライアンス SageMaker のセキュリティ機能とコンプライアンス機能を活用 自動作成と自動終了 リソースは自動的に作成、設定、終了
  36. 42 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | アルゴリズムの選択または構築 Collect and prepare training data Fully managed data processing jobs/ data labeling workflows Set up and manage environments for training One-click training Train, debug, and tune models Debugging and optimization Manage training runs Visually track and compare experiments Deploy model in production One-click deployment and autoscaling Monitor models Automatically spot concept drift Validate predictions Add human review of predictions Scale and manage the production environment Fully managed with auto-scaling for 75% less ML用ウェブベースのIDE モデルの自動構築とトレーニング 独自のMLアルゴリズム を選択または持参 コラボレーティブ・ノートブック ビルトインアルゴリズム/モデル
  37. 43 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Studio Notebooks 共有可能・高速起動 ノートブック シングルサインオン (SSO) で簡単アクセス ノートブックに数秒でアクセス 完全マネージド型で安全 管理者によるアクセスと権限の管理 迅速なセットアップ コンピューティングリソースを稼働させずに ノートブックを起動 簡単なコラボレーション ワンクリックでノートブックの共有 柔軟性 コンピューティングリソースを起動・シャットダウン
  38. 44 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 分類 リニアラーナー | XGBoost | KNN Amazon SageMaker にはアルゴリズムが組み込まれ ています 独自のアルゴリズムの 持込みも可能です テキストの操作 BlazingText | 監視対象 | 監視なし シーケンス変換 Seq2Seq コンピュータビジョン 画像分類 | オブジェクト検出 | セマンティックセグメンテーション 回帰分析 リニアラーナー | XGBoost | KNN 異常検出 ランダムにカットされたフォレスト | IPインサ イト クラスタリング KMeans 機能削減 PCA レコメンデーション 因数分解機 トピックモデリング LDA | NTM 予測 DeepAR
  39. 45 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Marketplace for Machine Learning ML 向け AWS Marketplace で アルゴリズム、モデル、 およびデータを購入 AWS マーケットプレイスを参照または検索 ワンクリックで購入 Amazon SageMaker で利用可能 https://aws.amazon.com/marketplace /solutions/machine-learning
  40. 47 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | モデルのトレーニングとチューニング Collect and prepare training data Fully managed data processing jobs/ data labeling workflows Deploy model in production One-click deployment and autoscaling Monitor models Automatically spot concept drift Validate predictions Add human review of predictions Scale and manage the production environment Fully managed with auto-scaling for 75% less Choose or bring your own ML algorithm Collaborative notebooks, built-in algorithms/models トレーニング環境の設定と管理 ワンクリックでトレーニング モデルのトレーニング、 デバッグ、チューニング デバッグと 最適化 トレーニング実行 の管理 実験を視覚的に追跡して 比較する ML用ウェブベースのIDE モデルの自動構築とトレーニング
  41. 48 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker は 1クリック で お客様のモデルを トレーニング シングルパス トレーニング メモリに縛られない 再トレーニング用 チェックポイント お客様独自のア ルゴリズムをト レーニング デフォルトで 分散型 データストリーム上 でのトレーニング
  42. 49 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon EC2 P4d インスタンス (NVIDIA A100 Tensor Core GPU) • 前世代の P3/P3dn インスタンスと比較し、 平均 2.5x のパフォーマンス、60% 低いコスト • p4d.24xlarge • 8x A100 GPU • 96 vCPU, 1152 GB Memory • GPU間は 600 GB/s の NVSwitch/NVLink • インスタンスあたり 400 Gbps ENA/EFA • ローカルストレージ: 8x 1 TB NVMe SSD • オンデマンド価格 $32.77 / hour • cf. p3dn.24xlarge: $31.212 / hour https://aws.amazon.com/jp/ec2/instance-types/p4/
  43. 50 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon EC2 DL1 インスタンス (Habana Gaudi) • 最新世代の GPU インスタンスに比べ 40% 良いコストパフォーマンス • dl1.24xlarge • 8x Gaudi Accelerator from Habana Labs (an Intel company) • 96 vCPU, 768 GB Memory • Accelerator 間 100 GB/s (双方向) • インスタンスあたり 400 Gbps ENA/EFA • ローカルストレージ: 4x 1 TB NVMe SSD • オンデマンド価格 $13.11 / hour • cf. p4d.24xlarge: $32.77 / hour p3dn.24xlarge: $31.212 / hour • Habana SynapseAI® SDK を利用
  44. 51 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Trainium (Preview) • AWS により設計された機械学習トレーニングチップ • クラウドで ML モデルをトレーニングするための 最も良いコスト効率と最大の TFLOPS 性能を提供 • AWS Inferentia 同様 Neuron SDK を利用し、 TensorFlow, MXNet, PyTorch などのフレームワーク をサポート • Trainium チップは、画像分類、セマンティック検 索、翻訳、音声認識、自然言語処理、レコメンデー ションエンジンなど、アプリケーションの深層学習 ワークロード向けに特別に最適化 • Amazon EC2 (AWS Deep Learning AMI) に加え、 Amazon SageMaker, Amazon ECS, EKS, AWS Batch などのマネージドサービスで利用可能予定 Coming in 2021!
  45. 53 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker の 自動モデルチューニング (HPO) お客様のアルゴリズムの ハイパーパラメーターを自動調整 大規模チューニング 何千もの異なるアルゴリズムパラメータ の組み合わせを調整 自動化 MLを使用して最適なパラメータを見つける 高速化 数日または数週間の面倒な手作業を排除 決定木 決定木の深さ | 最大の葉ノード | Gamma | Eta | Lambda | Alpha ニューラルネットワーク レイヤー数 | 隠れ層の幅 | 学習率 | 埋め込み次元 | ドロップアウト EXAMPLES
  46. 54 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 3rd party の HPO フレームワークも利用可能 「Amazon SageMaker で Optuna を用いたハイパーパラメータ最適化を実装する」 https://aws.amazon.com/jp/blogs/news/amazon-sagemaker-optuna-hpo/
  47. 55 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Experiments トレーニング実験の整理、 追跡、比較 大規模トラッキング 実験とユーザー間でパラメーターと指標をトラッキング 整理のカスタム チーム、目標、仮説による実験の整理 可視化 実験を簡単に視覚化し、比較 メトリックとロギング Python SDKおよびAPIを使用したカスタムメトリックの記録 高速反復 迅速に反復し、高品質を維持
  48. 56 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Experiments を使用し 何千もの実験を追跡・管理
  49. 57 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Debugger 分析とデバッグ、 説明可能性、アラート生成 関連するデータキャプチャ 分析用にデータを自動キャプチャ データ分析とデバッグ コード変更無しのデータ分析とデバッグ 自動エラー検出 エラーはルールに基づき自動検出 アラートによる生産性向上 アラートに基づき修正措置を実行 ビジュアル分析とデバッグ SageMaker Studio による視覚的分析とデバッグ
  50. 58 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Debugger を使用し 勾配消失などの問題を特定
  51. 59 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | モデルの展開と管理 Collect and prepare training data Fully managed data processing jobs/ data labeling workflows Choose or bring your own ML algorithm Collaborative notebooks, built-in algorithms/models Set up and manage environments for training One-click training Train, debug, and tune models Debugging and optimization Manage training runs Visually track and compare experiments 本番環境での モデル展開 ワンクリックの展開 と自動スケーリング モニタリング モデル スポットコンセプ トドリフトの自動 検知 予測の検証 予測への ヒューマンレビューを 追加 本番環境の拡張と管理 フルマネージドの自動スケーリン グを75%のコスト削減で提供 ML用ウェブベースのIDE モデルの自動構築とトレーニング
  52. 60 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker フルマネージド型: ワンクリックでモデル展開 自動スケーリング 低レイテンシーと高スループット BYOL Python SDK エンドポイントに複数のモデルの展開
  53. 61 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Multi-Model Endpoint 単一のエンドポイントの裏に複数のモデルを置くことができ、 動的にモデルを追加することも可能 S3 model storage tokyo.tar.gz kanagawa.tar.gz osaka.tar.gz aichi.tar.gz S3://bucket/our-endpoint-models/ S3://bucket/our-endpoint-models Load
  54. 62 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Model Monitor 稼働中モデルの継続モニタリング 自動データ収集 データはエンドポイントから自動収集 継続モニタリング 監視スケジュールを定義し、事前に定義された ベースラインに対する品質の変化を検出 ルールによる柔軟性 組み込みルールを使用してデータドリフトを検出するか、 カスタム分析のための独自ルールを記述 視覚的データ分析 SageMaker Studio 内の監視結果、データ統計、 違反レポートを参照 CloudWatch統合 Amazon CloudWatch アラームに基づいて更新処理を自動化
  55. 63 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | モデルドリフト検出後、対策を講じるために Amazon SageMaker Model Monitor を使用
  56. 64 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Neo 1回のトレーニングで、どこでも2倍のパフォーマンスで実行 オープンソースの Neo-AI デ バイスランタイム およびコンパイラ 元のフレームワークの 1/10のサイズ 幅広いハードウェア サポート Neo 幅広いフレームワーク サポート
  57. 66 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 66 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved | 90% 推論 (予測) 10% トレーニング 推論の 複雑さとコスト
  58. 67 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 費用対効果の高い推論のための幅広いオプション ネットワーク接続 推論アクセラレータ eia1.medium 中規模モデル、低レイテンシ 許容限界のある予算 Elastic Inference M5 大型モデル、高スループット、 CUDAへ低レイテンシアクセス GPU インスタンス P3 G4 小型モデル、 低スループット CPU インスタンス C5 Inf1: 高スループット、高パフォーマンス、 クラウドコスト抑制 カスタムチップ Inf1 G5
  59. 68 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Inf1 インスタンスは AWS に よってゼロから構築され、 高性能で費用対効果の高い 推論を提供 https://aws.amazon.com/ec2/instance-types/inf1 ハイパフォーマンス 低コスト AWS専用第2世代インテル Xeon Scalable Processor AWS Nitro AWS Inferentia ML推論の カスタムビルド 100Gbps ネットワーク
  60. 69 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Inferentia • AWS による独自設計の推論用プロセッサ • 4 Neuron コア / チップ • チップ当たり最大128 TOPS • (2,000 TOPS @inf1.24xlarge) • 2ステージ メモリ階層 • 大容量オンチップ キャッシュと DRAM メモリ • FP16, BF16, INT8 データタイプをサポート • FP32 で構築された学習モデルを BF16 で実行可能 • 高速チップ間通信 Inferentia Neuron コア cache Neuron コア cache メモリ Neuron コア cache Neuron コア cache メモリ メモリ メモリ
  61. 70 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Neuronコア パイプライン - 大規模モデルを低遅延で推論 • 大規模モデルを低遅延で推論 • Neuron コア間・チップ間をパイプラインモードで接続することにより、 大規模モデルを各オンチップキャッシュメモリ上に展開し、 高スループット・低レイテンシを実現 CACHE Memory CACHE Memory CACHE Memory CACHE Memory Neuron コア パイプライン
  62. © 2020, Amazon Web Services, Inc. or its Affiliates. AWS

    Neuron SDK https://github.com/aws/aws-neuron-sdk コンパイル Neuron コンパイラ (NCC) NEFF を出⼒ Neuron バイナリ (NEFF) デプロイ Neuron ランタイム (NRT) プロファイル Neuron ツール C:\>code --version 1.1.1
  63. 73 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon Augmented AI (A2I) 推論結果の ヒューマンレビューに必要な ワークフローを容易に構築 簡単に ヒューマンレビューワークフローを実装 構築済みのワークフローと UI により 市場投入までの時間を短縮 複数の要員オプション カスタム ML モデルとの統合 事前に構築されたアルゴリズムで精度を向上
  64. 74 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon Augmented AI の仕組み ヒューマンレビューに 信頼性の低い予測値を送信 4 A2I の回答連結アルゴリズム を使用したレビュー統合 5 クライアントアプリケーションに 直ぐに信頼性の高い予測値を返す 3 AWS AI サービスまたは カスタム ML モデルが予測 2 クライアント アプリケーションが 入力データ送信 1 結果はお客様 の S3 に保存 6 Client application
  65. 75 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker を始めてみましょう 事例 https://github.com/awslabs/ amazon-sagemaker-examples 開発者ガイド https://docs.aws.amazon.com/ sagemaker/latest/dg/whatis.html SDKドキュメント https://sagemaker.readthedocs. io/en/stable/overview.html
  66. 76 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 76 © 2020 Amazon Web Services, Inc. or its affiliates. All rights reserved | Amazon SageMaker の使い方
  67. 77 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SageMaker Studio (IDE) へは SSO/IAM でログイン
  68. 78 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Notebook インスタンス (Jupyter Notebook/Lab) も使えます • インスタンスタイプを選んで立ち上げ • フレームワークがプリインストール済のカーネル • ノートブックインスタンス作成・起動時のスクリプト実行や git 連携 • https://github.com/aws-sam’ples/amazon-sagemaker-notebook-instance-lifecycle-config-samples • https://aws.amazon.com/jp/blogs/news/amazon-sagemaker-notebooks-now-support-git-integration-for- increased-persistence-collaboration-and-reproducibility/
  69. 79 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Jupyter Notebook/Lab Amazon S3 The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. 開発 データは予め Amazon S3 にアップロード。 やりやすい方法で: • SageMaker Python SDK で簡単に • sagemaker_session.upload_data( path='data', key_prefix='data/DEMO') • AWS CLI や AWS SDK (Python だと boto3) などでも • aws s3 sync <source> <dest> • GUI (マネージメントコンソール) からでも
  70. 80 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker 開発 Jupyter Notebook/Lab Amazon S3 The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.
  71. 81 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker 開発 Jupyter Notebook/Lab Amazon S3 学習 Amazon EC2 P3 Instances Amazon ECR The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. 予め用意されている ビルド済みの Docker イメージ or BYOC
  72. 82 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker 開発 学習 Amazon EC2 P3 Instances Jupyter Notebook/Lab Amazon S3 The Jupyter Trademark is registered with the U.S. Patent & Trademark Office. トレーニングジョブのメリット: • API 経由で学習用インスタン スを起動、 学習が完了すると自動停止 • 高性能なインスタンスを 秒課金で、簡単にコスト削減 • 指定した数のインスタンスを 同時起動、分散学習も容易
  73. 83 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker 開発 学習 Amazon EC2 P3 Instances Jupyter Notebook/Lab Amazon S3 The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.
  74. 84 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker 開発 学習 推論 Amazon EC2 P3 Instances Jupyter Notebook/Lab Endpoint/ Batch transform Amazon S3 Amazon ECR The Jupyter Trademark is registered with the U.S. Patent & Trademark Office.
  75. 86 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | ワークフロー構築を助けるツール • SageMaker Python SDK (v2) • https://github.com/aws/sagemaker-python-sdk/ • AWS Step Functions Data Science SDK • https://github.com/aws/aws-step-functions-data-science-sdk-python • Docker コンテナによる環境統一 • ビルド済みコンテナ (対応フレームワークのバージョン) は上記 URL の README 参照 • Git リポジトリとの連携
  76. 91 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | SageMaker Python SDK (v2) https://sagemaker.readthedocs.io/en/stable/v2.html import sagemaker from sagemaker.pytorch import PyTorch # 各フレームワークに対応した Estimator クラス estimator = PyTorch("train.py", # トレーニングスクリプトなどを指定して初期化 role=sagemaker.get_execution_role(), instance_count=1, instance_type="ml.p3.2xlarge", framework_version="1.6.0", py_version="py3") estimator.fit("s3://mybucket/data/train") # fit でトレーニング predictor = estimator.deploy(initial_instance_count=2, # 2以上にすると Multi-AZ instance_type="ml.m5.xlarge") # deploy でエンドポイント作成 predictor.predict(data) # 推論の実行 少し命名規則が 変わっています
  77. 92 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 「コンテナ」による環境の統⼀化 CUDA, cuDNN トレーニングスクリプト train.py Deep Learning Framework スクリプトの実行に必要なものを コードで記述し一箇所にまとめる Docker image
  78. 93 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | コードの書き換え例: train.py (Script Mode, File Mode) import argparse if __name__ == '__main__’: parser = argparse.ArgumentParser() # hyperparameters parser.add_argument('--epochs', type=int, default=10) # input data and model directories parser.add_argument('--train', type=str, default=os.environ['SM_CHANNEL_TRAIN']) parser.add_argument('--test', type=str, default=os.environ['SM_CHANNEL_TEST']) parser.add_argument('--model-dir', type=str, default=os.environ['SM_MODEL_DIR']) args, _ = parser.parse_known_args() … (以下省略) コンテナ内のパス (環境変数の中身): /opt/ml/input/data/train /opt/ml/input/data/test /opt/ml/model コマンド ライン引数・ 環境変数 から取得 Script Mode では普通の Python スクリプトとして実行される。 はじめに環境変数からデータ・モデル入出力のパスを取得して、 そこを読み書きするように train.py を書く。推論用にモデルを読み込む。
  79. 94 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | トレーニングデータへのアクセス https://docs.aws.amazon.com/sagemaker/latest/dg/model-access-training-data.html • FILE モード • データを Docker コンテナのローカルディレクトリにダウンロードしてから学習 • Amazon S3, Amazon EFS, Amazon FSx for Lustre • FAST FILE モード • コードの変更なしに S3 からストリーミング、ファイルシステムへのアクセスも提供 • シーケンシャルな読み込みのときにベストパフォーマンス • S3 の指定した prefix 以下にファイルが少なければ高速 • 例えば、K-Means クラスタリングモデル用の100GB のデータセットは、 ファイルモードで 28 分かかったのに対し、高速ファイルモードでは約 5 分 (82% 減) • PIPE モード • S3 からストリーミングでダウンロードしながら非同期に学習 • RecordIO, TFRecord フォーマットが利用可能な TensorFlow, MXNet に対応
  80. 95 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Git リポジトリとの統合 • リポジトリを指定し直接トレーニング実行も可能 • ブログ「Amazon SageMaker Python SDK で Git 統合を利用可能」 git_config = {'repo': 'https://github.com/awslabs/amazon-sagemaker-examples.git’, 'branch': 'training-scripts’} estimator = TensorFlow(entry_point='train.py', source_dir='char-rnn-tensorflow', git_config=git_config, train_instance_type=train_instance_type, train_instance_count=1, role=sagemaker.get_execution_role(), framework_version=‘1.14', py_version='py3', script_mode=True) • レガシー Notebook インスタンス • 立ち上げ時にリポジトリ紐付けが可能 • Public リポジトリを clone • Private リポジトリの認証情報を AWS Secrets Manager に保管してリポジトリ登録 • Jupyter Notebook の diff を取れる ”SageMaker Notebooks now support diffing“
  81. 96 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 継続的な機械学習のワークフローと MLOps
  82. 102 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Pipelines 機械学習の CI/CD をおこなうマネージドサービス ワークフローの 各ステップを 中心的に管理 事前に用意された テンプレート ワークフローの 再実行と共有 ワークフローを 視覚化
  83. 103 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Pipelines 機械学習の CI/CD 数行書くだけで、自動化された機械学習ワークフローを構築 数ヶ月かかるコーディング時間を数時間に削減 機械学習の開発を加速 モデル成果物を自動でトラッキングし手動管理の手間を削減 モデル成果物を自動的にトラッキング ビルトインのテンプレートで CI/CD パイプラインを設定し 機械学習モデルをスケーラブルにデプロイ 本番環境における数千ものモデルにスケール
  84. 104 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | Amazon SageMaker Pipelines 概要 Amazon SageMaker Pipelines フルマネージドな 機械学習ワークフローを構築 Model registry モデルバージョン、 メトリクス、承認、 モデルデプロイのカタログ化 Real-time inference Batch scoring Input data Model drift Prepare or transform Explain Train Validate CI/CD とモデル系列追跡で ML Ops の自動化
  85. 105 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | How Amazon SageMaker Pipelines works パイプライン実行の開始: • 手動 • データアップロード時の CloudWatch イベント • コード check-in (git push) Acceptable accuracy Non-acceptable accuracy Get input data Process data Train model Validation Deploy model Alert and stop
  86. 106 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | パイプライン実行の詳細とリアルタイムのメトリクス • 完了したステップの確認と 実行中のステップの モニタリング • 出力メトリクスとログを確認 • 各ステップのパラメータを モニター、変更、管理
  87. 107 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | モデルのプロダクションデプロイを承認
  88. 108 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | 他にもある AWS のワークフロー管理ツール • サーバーレスオーケストレーション サービス • 分散アプリケーション・マイクロサー ビスの全体を「ステートマシン」と呼 ばれる仕組みでオーケストレート • 定義したステートマシンは AWS コン ソールから「ワークフロー」という形 式で可視化 • ステートマシンの各ステップの実⾏履 歴をログから追跡できる • Apache Airflow によるワークフローを構 築可能なマネージドサービス • ETLジョブやデータパイプラインを実⾏ するワークフローをマネージド型で実⾏ 可能。開発者がビジネス上の課題解決に 注⼒できるようにする • Airflowのメトリクスを CloudWatch メト リクスとして扱い、ログを CloudWatch Logs に転送可能 Amazon SageMaker Pipelines Amazon Managed Workflows for Apache Airflow (MWAA) AWS Step Functions w/Data Science SDK (Python) • 機械学習の CI/CD を実現する Amazon SageMaker の機能 • 機械学習ワークフローのデータ ロードや学習処理などの⼀連の処 理ステップを任意のタイミングや 所定の時間に実⾏できる • 各ステップの処理結果は SageMaker Experiments で記録さ れ、モデルの出来映えや学習パラ メータなどを視覚化できる
  89. 109 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Step Functions • JSON ベースの言語でステートマシンを記述できるマネージドサービス • AWS Step Functions Data Science SDK • AWS Lambda をはじめとした各サービスに対応 • CloudWatch Event でスケジュール実行やイベントトリガーが可能 Start End Train Deploy Prepare data AWS Glue Amazon SageMaker Amazon SageMaker Amazon CloudWatch Events (Schedule / event trigger)
  90. 110 © 2020 Amazon Web Services, Inc. or its affiliates.

    All rights reserved | AWS Step Functions workflow 機械学習パイプラインの構築例 Test data Train data Data Scientists/ Developers Git webhook docker push Amazon SageMaker Processing Amazon S3 (data) Amazon SageMaker Training Job / HPO AWS CodeCommit or 3rd party Git repository Amazon S3 (raw data) Amazon Elastic Container Registry (ECR) AWS CodeBuild Endpoint Amazon SageMaker Batch Transform / Endpoint deploy Amazon S3 (trained model) git push
  91. Q&A

  92. © 2021, Amazon Web Services, Inc. or its affiliates. All

    rights reserved. Amazon SageMaker JumpStart を使ったハンズオン
  93. • Managed Spot Training for XGBoost • Training and Hosting

    a PyTorch model in Amazon SageMaker 少々書き換えが必要です https://gist.github.com/hariby/4691d1c0563df0e5cffc089e7db862b2 Amazon SageMaker JumpStart を使ったハンズオン
  94. • SageMaker JumpStart の他のコンテンツを試す • https://github.com/aws-samples/aws-ml-jp • https://github.com/aws/amazon-sagemaker-examples • サンプルが動かない場合に考えられる原因

    SageMaker Studio ではなく、レガシー Notebook インスタンス用に作られている SageMaker Python SDK v1 を使って書かれている Next Step
  95. Thank you © 2021, Amazon Web Services, Inc. or its

    affiliates. All rights reserved. @_hariby