Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLOpsのこれまでとこれから

 MLOpsのこれまでとこれから

MLOpsはSoftware2.0のためのDevOpsであり、顧客自身のデータから半自動で顧客体験を改善できるようにします。これまではMLOpsと既存のSoftware1.0のためのDevOpsは独立していましたが、組み合わせることでSoftware2.0の弱点である確率的な挙動を抑制しより安定したサービスを開発することが可能です。

DevOpsと並走するこれからのMLOpsを構築するための問題点と解決策を提示し、AWSがどのようにMLOpsの構築を支援できるのかをご説明します。

Takahiro Kubo

March 02, 2022
Tweet

More Decks by Takahiro Kubo

Other Decks in Programming

Transcript

  1. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Amazon Web Services Japan
    Machine Learning Developer Relation
    Takahiro Kubo
    MLOpsのこれまでとこれから
    From Isolated to connected

    View Slide

  2. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    本日お話しする内容
    2
    ⚫ プロダクト開発の観点から、MLOpsの現状と今後の発展の方向を分
    析します。
    ⚫ これからのMLOpsを構築するための問題と、解決策についてお話し
    します。
    ⚫ AWSがどのようにMLOpsの構築を支援できるのかをご説明します。

    View Slide

  3. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    本日お話ししない内容
    3
    ⚫ MLOpsの実装方法
    ⚫ MLOps関連ライブラリの評価

    View Slide

  4. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved. © 2021, Amazon Web Services, Inc. or its affiliates.
    Takahiro Kubo / 久保 隆宏 ([email protected])
    DevRel Engineer, Machine Learning
    Career
    1. SAPコンサルタント(10年) + kintone エヴァンジェリスト
    業務要件定義から開発、運用保守まで一貫した導入支援を実施。
    SaaS連携による効率的な業務アプリケーションの開発を模索
    している時にkintoneと出会い、エヴァンジェリストとして活動。
    2. 機械学習エンジニア (5年)
    自然言語処理の研究に従事。対話アプリケーションのプロトタイプ作成、
    自然言語処理による企業の非財務情報評価に取り組む。研究部署在籍中、
    「Pythonで学ぶ強化学習」「直感 Deep Learning」などを執筆。arXivTimes
    やNLP若手の会といったコミュニティ活動にも参加。
    3. プロダクトマネージャー(2年)
    プロダクトマネージャーとして非財務情報参照・点検サービスの開発に携わる。
    研究開発をプロダクト化する険しい道を泥まみれで進む経験をする。
    非財務開示に携わる方、評価する方双方が使えるサービスです!
    4. Developer Relation (0年~) + お父さん0年生
    機械学習を活用したプロダクトの開発を学び普及させるためにAWSへ。
    Product Manager for Software 2.0 を目指す。
    Cybozu Days 2016

    View Slide

  5. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved. © 2021, Amazon Web Services, Inc. or its affiliates.
    Takahiro Kubo / 久保 隆宏 ([email protected])
    DevRel Engineer, Machine Learning
    入門機械学習パイプライン
    翻訳のレビューと付録の執筆をしています。
    TensorFlow Extendedを利用し実際に機械学習パイプランを構築
    し、さらにApache Beam/Apache Airflow/Kubeflow Pipelinesで
    実行するまでをコード付きで解説しています。MLOpsの実装方
    法が知りたい方はぜひ手に取っていただければと思います。
    フィードバックループや差分プライバシーなど先進的な話題も
    扱っており、英語版が出たときからすばらしいと感じていた書籍
    です。付録ではUber/Twitter/Spotify/Airbnb/Netflixなど機械学
    習先進企業の事例とそこから学べる構築のポイントをまとめてい
    ます。
    個人的にはAirflow/AWS StepFunctionsでパイプラインを組んで
    いました。

    View Slide

  6. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Agenda
    6
    1. MLOpsの位置づけ
    2. MLOpsを構築する際の問題点
    3. 解決策
    4. AWSからのMLOps構築支援
    5. おわりに

    View Slide

  7. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    MLOpsとは何か?
    7

    View Slide

  8. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    MLOpsとは何か。Software 2.0のためのDevOpsである。
    8
    入出力データから帰納的に実装されたソフトウェアをSoftware 2.0と呼ぶ。
    • Stanford大学のAndrej Karpathy先生が提唱された。狭義にはニューラルネット
    ワークで実装された機械学習モデルを指す。
    プログラミング言語で実装するソフトウェアをSoftware 1.0とすると、
    Software2.0には4つメリットがある。
    1. 簡単: プログラミング言語を習得せずともソフトウェアを実装できる。
    2. 速い: 行列演算で処理が構成されるため、GPUによる高速化が可能。
    3. 高精度: 画像認識や音声認識など一部領域ではSoftware1.0を上回る。
    4. 可搬性: 実装が画一的でソフトウェア配置のポータビリティが高い。

    View Slide

  9. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Software 2.0の開発には課題がある。
    9
    Configuration
    Data Collection
    Data Verification
    Machine
    Resource
    Management
    Serving
    Infrastructure
    ML
    Code
    Analysis Tool
    Process
    Management Tools
    Feature
    Extraction
    Monitoring
    “Only a small fraction of real-world ML systems is composed of the ML code”
    source: Hidden Technical Debt in Machine Learning Systems [D. Sculley, & al.] – 2015
    https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf

    View Slide

  10. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Software 2.0の開発には3つ課題がある。
    10
    1. Wide
    データの取得、前処理、学習など幅広な処理を繋ぎ合わせ実装するため、
    統合的なプロセス管理やバージョン管理が必要。
    2. Large
    開発環境に要求されるリソースが大きいため新しい環境構成が必要。
    3. Probabilistic
    確率的な挙動をするため新しい品質ガイドラインに基づくテストが必要。

    View Slide

  11. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Wideであるものは分解し、個別の問題に対応したライブラリ
    を連携させることで解決が図られている(=MLOps)。
    11
    Analyze Prepare Preprocess Test Release Deploy Operate Monitor
    Train
    個別の
    ライブラリ
    ライブラリ
    の連携
    LIME
    MLOps

    View Slide

  12. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Largeである問題はGPUをはじめとしたハードウェアの進化
    により解決が図られている。
    12
    “A DECADE OF ACCELERATED COMPUTING AUGURS WELL FOR GPUS”より引用
    AWSの機械学習専用チップ、自然言語処理で学習時間を50%削減するコンパイラについては「サービスアップデート 機械学習編:Amazon
    SageMaker と機械学習向けハードウェアによる機械学習の効率化」を参照。

    View Slide

  13. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Software 1.0
    Software 1.0
    Probabilisticな特性は、1.0を組み合わせることで解決が図ら
    れている。
    13
    Software 2.0
    入力 出力
    Service
    機械学習で実装されるSoftware2.0は、挙動が100%予測可能ではない。
    将棋を打つSoftware2.0はルール上禁止されている手を打つ可能性がある。
    Software1.0を組み合わせることで、 Software2.0のメリットを享受しつ
    つ不完全な点を補うことができる。例えば、想定していないデータを事
    前に検知し例外として処理する、禁止されている挙動を事後的に修正す
    るといった対応ができる。

    View Slide

  14. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Software2.0を扱う価値は何か?
    14

    View Slide

  15. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    顧客自身のデータから半自動で顧客体験を改善すること。
    15
    Customer
    Experience
    Traffic
    Data
    Data Driven
    Decision
    Growth
    Software1.0
    delivered by
    DevOps
    Software2.0
    delivered by
    MLOps

    View Slide

  16. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Dataが増えるほどSoftwareが高精度になり、高精度になるほ
    どCustomer Experienceが改善される。
    16
    Uber Eats
    機械学習を用いて配達時間を予測。配達時間が正確になる
    ほど顧客体験が改善され、顧客体験が改善されるほど利用
    者が増えてよりデータが集まり正確になる。
    Spotify
    機械学習を用いて新しい音楽と出会うDiscover Weeklyな
    どの機能を実装。本番の機械学習ワークロードの約5倍の
    実験を行うことで新しい機能の開発を行っている
    (Software 1.0では困難な開発スピード)。
    画像引用: Meet Michelangelo:
    Uber’s Machine Learning
    Platform
    画像引用: The Winding Road to
    Better Machine Learning
    Infrastructure Through Tensorflow
    Extended and Kubeflow

    View Slide

  17. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    AutoMLの進化が「半自動化」を加速している。
    17
    機械学習モデルを自動で構築するAutoMLの技術が進化し、データサイ
    エンティストによるチューニングがなくとも高い精度のモデルが構築
    できるようになってきている。
    画像分類で現在上位の分類性能を記録しているモデルは、
    AutoML技術により構築されたモデル(Efficient Netなど)。
    自然言語処理の分野では、大規模なテキストで事前学習する
    ことで少ないデータしかないタスクでも高い精度が記録でき
    ることが確認されている(BERTなど)。
    OSSのAutoMLライブラリも開発され、手軽に利用できる。
    AutoGluonではOtto Group[2015年]とBNP Paribas[2016年]
    のKaggleコンペティションで、参加したデータサイエンティ
    ストの 99% よりも高い精度を記録(論文)。
    (開発者インタビューの記事があるので興味がある方はぜひ)

    View Slide

  18. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Business
    Understanding
    最終的なプロダクト開発ではDevOpsとMLOpsが並走する。
    18
    Plan Code Build Test Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    DevOps
    MLOps

    View Slide

  19. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Agenda
    19
    1. MLOpsの位置づけ
    2. MLOpsを構築する際の問題点
    3. 解決策
    4. AWSからのMLOps構築支援
    5. おわりに

    View Slide

  20. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    DevOps・MLOpsの実装には多くのロールがかかわる。
    20
    Plan Code Build Test
    Business
    Understanding
    Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    ML
    Engineer
    機械学習モデルを本番環境に
    デプロイ可能な形式に変換す
    る。
    Model risk
    Manager
    Software2.0
    のサービスの
    挙動を監視す
    る。
    MLOps Engineer 機械学習モデルの開発・運用プロセスを自動化する。
    AI/ML Architect Software2.0に必要なアーキテクチャ全体を設計する。
    Data architect データを管理する基盤を設計する。
    IT Auditor システム全体の権限管理や監査を行う。
    ソフトウェアの開発を行う。
    Software
    Engineer
    Product
    Manager
    実装すべきソフトウェ
    ア機能を定義する。
    Software1.0 に必要なソフトウェアアーキテクチャ全体を設計する。
    Architect
    DevOps Engineer ソフトウェアの開発・運用プロセスを自動化する。
    Operator
    サービスを
    利用し業務
    を行う。
    System
    Admin
    Software1.0
    のサービスの
    挙動を監視す
    る。
    Business
    Analyst
    解決すべき
    ビジネス上
    の問題を定
    義する。
    Data
    Analyst
    データの可
    視化と分析
    で問題を定
    量的に特定
    する。
    ML
    Operator
    推論結果に
    基づき業務
    を行いつつ、
    推論結果に
    フィード
    バックを与
    える。
    ロールの名称は
    MLLensを参照
    Data
    Scientist
    機械学習モデ
    ルを構築する
    Domain
    Expert
    あるべき挙
    動をデータ
    を用いて定
    義する。
    評価尺度を
    定義する。
    Data
    Engineer
    機械学習モデ
    ルに入力可能
    なデータと特
    徴を作成する。

    View Slide

  21. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    機械学習担当のチームがアーキテクチャを把握できる範囲は限ら
    れている。
    21
    Business
    Understanding
    21
    Plan Code Build Test Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    機械学習担当のチームが判断で
    きるのは主に実験管理の領域

    View Slide

  22. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 22
    不十分な情報でMLOpsを構築すると、Software2.0が損益分岐点
    を超えることを難しくする。
    固定費
    変動費
    売上/コスト削減効果
    損益分岐点
    MLOps運用費
    固定費
    ・機械学習チームの人件費
    ・常時稼働するインフラ費用(=MLOps)
    変動費
    ・インスタンス使用料(従量課金を想定)
    構築した
    モデルの数
    MLOpsの導入は、モデルの数に応じて増
    える変動費の増加(いわゆる「技術的負
    債」)を自動化のインフラ(=固定資産)によ
    り抑制する活動といえる。
    売上/コスト削減効果や許容される固定費
    は機械学習担当のチームだけでは見積り
    が困難。この状態でMLOpsへ投資をする
    と、Software2.0が損益分岐点を超えるこ
    とを難しくする。

    View Slide

  23. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Agenda
    23
    1. MLOpsの位置づけ
    2. MLOpsを構築する際の問題点
    3. 解決策
    4. AWSからのMLOps構築支援
    5. おわりに

    View Slide

  24. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    最初の一歩として、プロダクトマネージャーとアーキテクトに
    メッセージを送る。
    24
    原文をGistで公開していますのでコメントぜひよろしくお願いします。

    View Slide

  25. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    誰に送るか?
    25

    View Slide

  26. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    プロダクトマネージャー、アーキテクトは必須で巻き込む。
    26
    Plan Code Build Test
    Business
    Understanding
    Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    ML
    Engineer
    機械学習モデルを本番環境に
    デプロイ可能な形式に変換す
    る。
    Model risk
    Manager
    Software2.0
    のサービスの
    挙動を監視す
    る。
    MLOps Engineer 機械学習モデルの開発・運用プロセスを自動化する。
    AI/ML Architect Software2.0に必要なアーキテクチャ全体を設計する。
    Data architect データを管理する基盤を設計する。
    IT Auditor システム全体の権限管理や監査を行う。
    ソフトウェアの開発を行う。
    Software
    Engineer
    Product
    Manager
    実装すべきソフトウェ
    ア機能を定義する。
    Software1.0 に必要なソフトウェアアーキテクチャ全体を設計する。
    Architect
    DevOps Engineer ソフトウェアの開発・運用プロセスを自動化する。
    Operator
    サービスを
    利用し業務
    を行う。
    System
    Admin
    Software1.0
    のサービスの
    挙動を監視す
    る。
    Business
    Analyst
    解決すべき
    ビジネス上
    の問題を定
    義する。
    ML
    Operator
    推論結果に
    基づき業務
    を行いつつ、
    推論結果に
    フィード
    バックを与
    える。
    ロールの名称は
    MLLensを参照
    DevOpsのアーキテクチャにつ
    いてインプットを得るのに必
    要。
    Data
    Analyst
    データの可
    視化と分析
    で問題を定
    量的に特定
    する。
    Data
    Scientist
    機械学習モデ
    ルを構築する
    Data
    Engineer
    機械学習モデ
    ルに入力可能
    なデータと特
    徴を作成する。
    Domain
    Expert
    あるべき挙
    動をデータ
    を用いて定
    義する。
    評価尺度を
    定義する。
    MLの売上/コスト削減効果と
    許容される固定費についてイ
    ンプットを得るのに必要。

    View Slide

  27. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    いつ送るか?
    27

    View Slide

  28. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    機械学習を学ぶ段階から参加してもらい、フェーズごとに
    MLOpsに必要なロールの担当を割り当ててもらう。
    28
    Learning Experimenting Deploying Scaling
    Prototyping
    機械学習の
    活用フェーズ
    MOOCなどでAI/ML
    について学ぶ。
    小規模なチームで分析・
    モデル構築・評価までの
    一連の工程を実施
    自社のデータと環境
    で機械学習による課
    題解決を検証する。
    機械学習のワークロー
    ドを本番環境で稼働さ
    せる。
    フェーズ内の
    アクティビティ
    運用監視を含めた機
    械学習ワークロード
    を開発する。
    機械学習のワークロー
    ドの規模や適用範囲を
    拡大する。
    Building
    MLチーム内で
    任命
    Business Analyst
    Data Scientist Data Analyst
    MLOps Engineer Data architect
    Domain Expert
    AI/ML Architect
    ML Engineer
    ML Operator
    Model risk Manager
    システム管理
    サイドで任命
    Data Engineer
    Product
    Managerが任命
    Architectが任命 機械学習を学ぶ段階で、プロダクト
    マネージャーはBusiness Analystの
    役割を果たす人を任命する(か自分が
    なる)。

    View Slide

  29. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    すべてのロールが揃うことは稀。同色ほど兼任しやすい。
    29
    Plan Code Build Test
    Business
    Understanding
    Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    ML
    Engineer
    機械学習モデルを本番環境に
    デプロイ可能な形式に変換す
    る。
    Model risk
    Manager
    Software2.0
    のサービスの
    挙動を監視す
    る。
    MLOps Engineer 機械学習モデルの開発・運用プロセスを自動化する。
    AI/ML Architect Software2.0に必要なアーキテクチャ全体を設計する。
    Data architect データを管理する基盤を設計する。
    IT Auditor システム全体の権限管理や監査を行う。
    ソフトウェアの開発を行う。
    Software
    Engineer
    Product
    Manager
    実装すべきソフトウェ
    ア機能を定義する。
    Software1.0 に必要なソフトウェアアーキテクチャ全体を設計する。
    Architect
    DevOps Engineer ソフトウェアの開発・運用プロセスを自動化する。
    Operator
    サービスを
    利用し業務
    を行う。
    System
    Admin
    Software1.0
    のサービスの
    挙動を監視す
    る。
    Business
    Analyst
    解決すべき
    ビジネス上
    の問題を定
    義する。
    Data
    Analyst
    データの可
    視化と分析
    で問題を定
    量的に特定
    する。
    ML
    Operator
    推論結果に
    基づき業務
    を行いつつ、
    推論結果に
    フィード
    バックを与
    える。
    ロールの名称は
    MLLensを参照
    Data
    Scientist
    Domain
    Expert
    あるべき挙
    動をデータ
    を用いて定
    義する。
    評価尺度を
    定義する。
    Data
    Engineer
    機械学習モデ
    ルに入力可能
    なデータと特
    徴を作成する。
    機械学習モデ
    ルを構築する

    View Slide

  30. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    フェーズごと段階的にチームとMLOpsを発展させる。
    30
    Learning Experimenting Deploying Scaling
    Prototyping
    機械学習の
    活用フェーズ
    機械学習のワークロー
    ドを本番環境で稼働さ
    せる。
    フェーズ内の
    アクティビティ
    運用監視を含めた機
    械学習ワークロード
    を開発する。
    機械学習のワークロー
    ドの規模や適用範囲を
    拡大する。
    Building
    チーム
    データ
    学習
    デプロイ
    • 切断されたデータサイエンスおよびIT
    チーム
    • 限定的なクロストレーニング
    • 利害関係者とのコラボレーションの
    改善
    • 共有プロジェクトの目標
    • 部門の枠を超えたプロジェクトチーム
    • いくつかのクロストレーニング
    • アドホックにデータの収集と前処理 • 自動化されたデータパイプライン • 自動化されたMLパイプライン
    • データガバナンス
    • 手動での学習、再学習
    • 展開への明確な道筋がない
    • 手動展開
    • 実験ごとの設定管理
    • 自動化された学習パイプライン
    • 手動でのモデル検証
    • 自動展開パイプライン
    • 限定的な監視/測定
    • 実験ごとの設定管理
    • 自動化された学習パイプライン
    • 手動でのモデル検証
    • 自動化されたMLパイプライン
    • 監視とロギング(モデル、ワークロー
    ド、パイプライン)
    MOOCなどでAI/ML
    について学ぶ。
    小規模なチームで分析・
    モデル構築・評価までの
    一連の工程を実施
    自社のデータと環境
    で機械学習による課
    題解決を検証する。

    View Slide

  31. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    最終的にSoftware2.0の開発者が能動的にMLOpsを利用する
    ことで機械学習の活用がScalingする。
    31
    Learning Experimenting Deploying Scaling
    Prototyping
    機械学習の
    活用フェーズ
    機械学習のワークロー
    ドを本番環境で稼働さ
    せる。
    フェーズ内の
    アクティビティ
    運用監視を含めた機
    械学習ワークロード
    を開発する。
    機械学習のワークロー
    ドの規模や適用範囲を
    拡大する。
    Building
    MLチーム内で
    任命
    Business Analyst
    Data Scientist Data Analyst
    MLOps Engineer Data architect
    Domain Expert
    AI/ML Architect
    ML Engineer
    ML Operator
    Model risk Manager
    システム管理
    サイドで任命
    Data Engineer
    Product
    Managerが任命
    Architectが任命
    能動的な
    活用の拡大
    MOOCなどでAI/ML
    について学ぶ。
    小規模なチームで分析・
    モデル構築・評価までの
    一連の工程を実施
    自社のデータと環境
    で機械学習による課
    題解決を検証する。

    View Slide

  32. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    先進的企業は能動的な活用を促すため社員へのデータサイエ
    ンス教育を拡大している。
    32
    How Airbnb Democratizes Data Science With Data University
    データを「顧客の声」と定義し、全社員が顧客の声に基づいた意思決定が
    できるよう社内でのデータサイエンス教育を開始。半年で500名が受講。
    社内のデータを使用してトレーニングするため、30名ほどの社員がボラン
    ティアで講師を行っている。
    Scaling Machine Learning at Uber with Michelangelo
    技術系の採用者全員に、1週目に機械学習とUberの機械学習基盤である
    Michelangeloの講義を実施。その後も、Michelangeloのアップデートに関
    する講習やオフィスアワーなどを実施し利用を支援。
    Airbnbは2017年、Uberは2018年の記事。Airbnbは2017時点でFacebookと
    Dropboxにデータ活用で後れを取っていると述べているので、データ活用の先進企
    業はかなり先をいっている。
    画像引用: リンク先記事より
    画像引用: リンク先記事より

    View Slide

  33. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    能動的に活用されるMLOpsは3つの要件を満たす。
    33
    Dev Ops
    ML Ops
    民主的
    ソフトウェア開発を専門にしない人も
    機械学習を利用しSoftware2.0を構築す
    るようになると、どのような人でも使
    えるUI/UXが求められる。
    一元的
    DevOpsとMLOpsが並走すると、ユー
    ザー、データ、ログ、プロセスの管理
    がDevのOpsとMLのOpsで分離しない
    よう統合できる必要がある。
    協調的
    プロダクトの状況やチームのスキルレ
    ベルが多様であると、MLのOpsを実現
    する手段が幅広に選択できる必要があ
    る。

    View Slide

  34. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Agenda
    34
    1. MLOpsを取り巻く状況
    2. MLOpsを構築する際の問題点
    3. 解決策
    4. AWSからのMLOps構築支援
    5. おわりに

    View Slide

  35. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    AWSはハード面だけでなくソフト面でもMLOpsの構築を支援で
    きる。
    35
    ⚫ ハード面: MLOpsの構築基盤として
    ⚫ ソフト面: MLOpsを構築するための課題解決支援、トレーニングの提供

    View Slide

  36. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    AWSは能動的に活用されるMLOpsの要件を満たすことができる。
    36
    Dev Ops
    ML Ops
    民主的
    一元的
    協調的
    Amazon SageMaker
    AWS Identity and Access
    Management (IAM)
    AWS Single Sign-On Amazon Cognito
    Amazon CloudWatch AWS CloudTrail
    Amazon S3 AWS Glue Amazon Redshift
    AWS CodeBuild AWS CodeCommit AWS CodeDeploy
    Amazon SageMaker
    Canvas
    Amazon QuickSight Amazon SageMaker
    Studio Lab

    View Slide

  37. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    民主的: エンドユーザーでも利用可能な機械学習サービス。
    37
    Amazon SageMaker CanvasはBusiness Analyst
    やDomain Expertがコーディング不要で機械学
    習を行えるようにするサービス。
    AWSコンソールにアクセスすることなく、通常
    のSaaSへログインするようにシングルサインオ
    ンでアクセスできる。
    Amazon S3、Amazon RedShift、Snowflakeと
    いったデータソースはもちろん手元のローカル
    ディスクからもデータをアップロードして利用
    することができる。
    詳細は: 「サービスアップデート 機械学習編: Amazon SageMaker Studio
    新機能で機械学習をより簡単に」をご参照ください。

    View Slide

  38. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    民主的: エンドユーザーでも利用可能な機械学習サービス。
    38
    Amazon SageMaker Studio Labは無料かつメー
    ルアドレスのみで利用できるJupyter Lab環境。
    学習用に最大12時間のCPUと4時間のGPUを利
    用可能。15GBの永続ストレージ があり、ブラ
    ウザを落としても作業内容が記録される。プロ
    ダクション移行の際にSageMaker Studioへ移行
    可能。
    詳細は: 「サービスアップデート 機械学習編: Amazon SageMaker Studio
    新機能で機械学習をより簡単に」をご参照ください。

    View Slide

  39. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    協調的: 幅広いマネージドサービスと動作可能なOSSから
    実装を選択できる。
    39
    PREPARE
    SageMaker Ground Truth
    Label training data for
    machine learning
    SageMaker Data Wrangler
    Aggregate and prepare data for
    machine learning
    SageMaker Processing
    Built-in Python, BYO R/Spark
    SageMaker Feature Store
    Store, update, retrieve, and
    share features
    SageMaker Clarify
    Detect bias and understand
    model predictions
    BUILD
    SageMaker Studio
    Notebooks
    Jupyter notebooks with elastic
    compute and sharing
    Built-in and Bring
    your-own Algorithms
    Dozens of optimized algorithms
    or bring your own
    Local Mode
    Test and prototype on your
    local machine
    SageMaker Autopilot
    Automatically create machine learning
    models with full visibility
    SageMaker JumpStart
    Pre-built solutions for common
    use cases
    TRAIN & TUNE
    Managed Training
    Distributed infrastructure
    management
    SageMaker Experiments
    Capture, organize, and compare
    every step
    Automatic
    Model Tuning
    Hyperparameter optimization
    Distributed Training
    Libraries
    Training for large datasets
    and models
    SageMaker Debugger
    Debug and profile training runs
    Managed Spot Training
    Reduce training cost by 90%
    DEPLOY & MANAGE
    Managed Deployment
    Fully managed, ultra low latency,
    high throughput
    Kubernetes & Kubeflow
    Integration
    Simplify Kubernetes-based
    machine learning
    Multi-Model Endpoints
    Reduce cost by hosting multiple
    models per instance
    SageMaker Model Monitor
    Maintain accuracy of deployed models
    SageMaker Edge Manager
    Manage and monitor models on
    edge devices
    SageMaker Pipelines
    Workflow orchestration
    and automation
    Amazon SageMaker
    SageMaker Studio
    Integrated development environment (IDE) for ML
    AWSとFacebook共
    同で開発しOSS公開
    AWS Batchにデプロ
    イ可能
    EKSで構築可能
    Netflixが開発してい
    るOSS。AWSと親和
    性が高い。
    マネージドサービス
    であるMWAAを提供。

    View Slide

  40. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    一元的: ユーザー・ログ・データ・プロセスの統合が可能。
    40
    AWS Identity and Access
    Management (IAM)
    AWS Single Sign-On
    Amazon Simple Storage
    Service (Amazon S3)
    AWS Glue
    Amazon CloudWatch AWS CloudTrail
    Amazon Cognito
    • ユーザー
    AWS Single Sign-On(SSO):複数のAWSアカウントやビジネス
    アプリへのシングルサインオンを実現。
    Amazon Cognito:カスタムアプリやAWS APIの認証・認可を
    提供。
    AWS Identity and Access Management(IAM): AWS APIに対す
    るアクセス制御を実施。
    • ログ
    Amazon CloudWatch Logs: 使用中のすべてのシステム、ア
    プリケーション、AWSのサービスからのログを取得。
    AWS CloudTrail: AWSインフラストラクチャ全体のアカウン
    ト活動を記録、保管、分析可能。
    • データ
    Amazon S3: あらゆる量のデータを保存、保護することが可
    能。データレイクに最適。
    AWS Glue: データの検出、準備、結合を簡単に行えるサー
    バーレスのデータ統合サービス。
    Amazon Redshift: フルマネージド型のデータウェアハウス
    サービス
    Amazon Redshift

    View Slide

  41. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    一元的: ユーザー・ログ・データ・プロセスの統合が可能。
    41
    • プロセス
    AWS CodeBuild: ソースコードのコンパイル等を行うマネー
    ジドサービス。
    AWS CodeCommit:プライベートGitリポジトリをホスティン
    グするマネージドサービス。
    AWS CodeDeploy: Amazon EC2/AWS Fargateなどにデプロ
    イするマネージドサービス。
    AWS CodeCommit AWS CodeDeploy
    AWS CodeBuild

    View Slide

  42. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    MLOps構築の一例
    42
    Amazon SageMaker
    Training
    Juoyter Notebook
    Amazon SageMaker Studio
    for development
    AWS CodeBuild
    AWS CodeCommit
    or
    GitHub
    Amazon SageMaker
    Endpoint
    Amazon API
    Gateway
    AWS CodeDeploy
    Model Manager for dev Model Manager for prod
    Amazon CloudWatch
    Synthetics
    Slack
    Approve Approve
    AWS CodePipeline
    Experiments Management
    AWS Lambda
    Amazon Elastic Container
    Registry
    Amazon SageMaker
    Experiments
    Train Model

    View Slide

  43. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    お客様のMLOps構築事例
    43
    1. 竹中工務店、AWSで「建設デジタルプラットフォーム」を構築
    2. マネージドサービスを活用した機械学習のためのCI/CDパイプラインの構築
    3. AWS Autotech Forum 2020 Online
    4. 遊戯王ニューロンにおけるAmazon SageMakerの活用大規模画像データの
    MLOps基盤構築
    5. 顧客最適な機械学習モデルを提供する対話エンジンサービスとAmazon
    SageMakerの活用事例

    View Slide

  44. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    ML Discovery Workshop
    お客様のビジネス課題に対しAI/MLの適用可否と難易度を発
    見するワークショップ。アマゾンの代表的なイノベーショ
    ンメカニズムである「ワーキングバックワーズ(Working
    Backwords)」の5つの質問などを用い機械学習のユース
    ケースを特定する。(リンクはAstra Zeneca様の事例)
    ML Lensに基づくアーキテクチャーレビュー
    機械学習を運用中のお客様に対し、MLOpsのアーキテク
    チャ提案やレビューを行う。機械学習版のWell-Architected
    FrameworkであるMachine Learning Lensを活用し機械学習
    基盤の現状と課題を整理し、改善アーキテクチャを提案。
    Amazon Machine Learning Solutions Lab
    AWSの機械学習エキスパートと連携し、モデル開発を含め
    たMVPを短期間で開発する。
    ソフト面: 機械学習を活用するための課題解決を支援します。

    View Slide

  45. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    機械学習モデルのリリースまでに必要なスキルをチームで学習する
    ML Enablement Workshop(仮)を上期中に提供開始予定です。
    Learning Experimenting Deploying Scaling
    Prototyping
    機械学習の
    活用フェーズ
    機械学習のワークロー
    ドを本番環境で稼働さ
    せる。
    フェーズ内の
    アクティビティ
    運用監視を含めた機
    械学習ワークロード
    を開発する。
    機械学習のワークロー
    ドの規模や適用範囲を
    拡大する。
    Building
    MLチーム
    Business Analyst
    のスキル習得
    Data Scientist
    のスキル習得
    Data Analyst
    のスキル習得
    MLOps Engineer
    のスキル習得
    Data architect
    のスキル習得
    Domain Expert
    AI/ML Architect
    のスキル習得
    ML Engineer
    のスキル習得
    ML Operator
    Model risk Manager
    のスキル習得
    システム管理
    サイド
    Data Engineer
    のスキル習得
    Product
    Manager
    Architect
    担当Solution Architectによる継続的支援
    ワークショップによるトレーニングで自走を支援
    ※ドメイン知識が要求
    されるロールは対象外
    MOOCなどでAI/ML
    について学ぶ。
    小規模なチームで分析・
    モデル構築・評価までの
    一連の工程を実施
    自社のデータと環境
    で機械学習による課
    題解決を検証する。

    View Slide

  46. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Agenda
    46
    1. MLOpsを取り巻く状況
    2. MLOpsを構築する際の問題点
    3. 解決策
    4. AWSが提供できる支援
    5. おわりに

    View Slide

  47. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    本日のまとめ
    47
    ⚫ MLOpsは顧客体験を半自動で改善できるパイプラインであり、これ
    からのプロダクト開発にとって重要です。
    ⚫ MLOpsの構築には様々なステークホルダーを巻き込む必要がありま
    す。最初のメッセージをぜひ自分から送りましょう。
    ⚫ 能動的に活用されるMLOpsの民主的・協調的・一元的の要件をAWS
    で満たすことができます。AWSはハード・ソフト両面で支援ができ
    るパートナーです。

    View Slide

  48. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Let’s Have a nice ML Journey!

    View Slide

  49. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    References
    49
    • Andrej Karpathy. Software 2.0. 2017.
    • Hiroshi Maruyama. Software 2.0とその社会的課題. 2021.
    • Mike Loukides and Ben Lorica The road to Software 2.0. 2019.
    • Ville Tuulos and Hugo Bowne-Anderson. MLOps and DevOps: Why Data Makes It Different. 2021.
    • Data Sentics. Why the World Struggles to Productionalise ML-Driven Solutions (MLOps Part 1). 2020.
    • Data Sentics. How We Understand MLOps at DataSentics (MLOps Part 2). 2021.
    • AWS. MLOE-02: Establish ML roles and responsibilities.
    • Google Cloud. MLOps: 機械学習における継続的デリバリーと自動化のパイプライン.
    • Snockel. 2022.
    • datarevenue-berlin. OpenMLOps. 2021.
    • ZOZO TECH BLOG. KubeflowによるMLOps基盤構築から得られた知見と課題. 2021.
    • 岩本恵太. リーガルテックにおけるMLOps構築事例の紹介. 2021.
    • スタディサプリ. サイエンティストとエンジニアでつくるML ワークフロー. 2020.
    • iwazaki. 小さく始めて大きく育てるMLOps2020. 2020.
    • rmarl. BASEを支える機械学習エンジニアチームをゼロからつくってきた1年.2019.
    • Takahiro Kubo. MLOps論文一覧. 2022.

    View Slide

  50. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    付録: 送信メッセージ
    50
    お疲れ様です、機械学習チームのxxです。
    202x年から機械学習チームではプロダクトへの応用を念頭に、機械学習技術の習得を進めてき
    ました。次のステップとして、社内のデータを利用したプロトタイピングを進めていきたいと考
    えています。プロトタイピングが実験のみでおわらないように、本番環境への反映を想定し現在
    不足しているロールやインフラ面の課題を洗い出したいと考えています。機械学習の活用に最終
    的に必要なロールと開発プロセスは添付の資料にまとめています。
    つきましては、プロトタイピングの先のゴール設定と、課題の洗い出しをまずプロダクトマネー
    ジャーのmy_pmさん、アーキテクトのmy_architectさんとさせていただきたいです。隔週でで
    きればと考えていますが、初回のミーティングでは機械学習チームのこれまで学んだ内容と課題
    として感じている点を共有させていただきます。初回の日程は以下でいかがでしょうか。
    2022/x/x
    以上、よろしくお願いいたします。

    View Slide

  51. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    付録: DevOps & MLOpsを実現するロールマップ
    51
    Plan Code Build Test
    Business
    Understanding
    Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    ML
    Engineer
    機械学習モデルを本番環境に
    デプロイ可能な形式に変換す
    る。
    Model risk
    Manager
    Software2.0
    のサービスの
    挙動を監視す
    る。
    MLOps Engineer 機械学習モデルの開発・運用プロセスを自動化する。
    AI/ML Architect Software2.0に必要なアーキテクチャ全体を設計する。
    Data architect データを管理する基盤を設計する。
    IT Auditor システム全体の権限管理や監査を行う。
    ソフトウェアの開発を行う。
    Software
    Engineer
    Product
    Manager
    実装すべきソフトウェ
    ア機能を定義する。
    Software1.0 に必要なソフトウェアアーキテクチャ全体を設計する。
    Architect
    DevOps Engineer ソフトウェアの開発・運用プロセスを自動化する。
    Operator
    サービスを
    利用し業務
    を行う。
    System
    Admin
    Software1.0
    のサービスの
    挙動を監視す
    る。
    Business
    Analyst
    解決すべき
    ビジネス上
    の問題を定
    義する。
    Data
    Analyst
    データの可
    視化と分析
    で問題を定
    量的に特定
    する。
    ML
    Operator
    推論結果に
    基づき業務
    を行いつつ、
    推論結果に
    フィード
    バックを与
    える。
    ロールの名称は
    MLLensを参照
    Domain
    Expert
    あるべき挙
    動をデータ
    を用いて定
    義する。
    評価尺度を
    定義する。
    Data
    Engineer
    機械学習モデ
    ルに入力可能
    なデータと特
    徴を作成する。
    Data
    Scientist
    機械学習モデ
    ルを構築する

    View Slide

  52. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    付録: フェーズ別ロールマップ
    52
    Learning Experimenting Deploying Scaling
    Prototyping
    機械学習の
    活用フェーズ
    MOOCなどでAI/ML
    について学ぶ。
    小規模なチームで分析・
    モデル構築・評価までの
    一連の工程を実施
    自社のデータと環境
    で機械学習による課
    題解決を検証する。
    機械学習のワークロー
    ドを本番環境で稼働さ
    せる。
    フェーズ内の
    アクティビティ
    運用監視を含めた機
    械学習ワークロード
    を開発する。
    機械学習のワークロー
    ドの規模や適用範囲を
    拡大する。
    Building
    MLチーム内で
    任命
    Business Analyst
    Data Scientist Data Analyst
    MLOps Engineer Data architect
    Domain Expert
    AI/ML Architect
    ML Engineer
    ML Operator
    Model risk Manager
    システム管理
    サイドで任命
    Data Engineer
    Product
    Managerが任命
    Architectが任命

    View Slide

  53. © 2022, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
    Business
    Understanding
    付録: DevOps & MLOpsフロー
    53
    Plan Code Build Test Release Deploy Operate Monitor
    Code
    Repository
    Artifact
    Software
    1.0
    Service
    Verification
    Raw
    Data
    Data
    Warehouse
    Collect
    Analyze Prepare
    Data
    Repository
    Preprocess
    Features Model
    Test Release
    Verification
    Software
    2.0
    Deploy Operate Monitor
    Train
    Service
    Raw
    Data
    DevOps
    MLOps

    View Slide