Upgrade to Pro — share decks privately, control downloads, hide ads and more …

今さら聞けないシリーズ - 機械学習とMLOpsとは

今さら聞けないシリーズ - 機械学習とMLOpsとは

過去に実施したウェビナーの資料です。

今さら聞けない機械学習 #機械学習 - Qiita https://qiita.com/taka_yayoi/items/51583a581ce5a6ba6558

Takaaki Yayoi

May 13, 2024
Tweet

More Decks by Takaaki Yayoi

Other Decks in Technology

Transcript

  1. 機械学習とは データサイエンスプロジェクトを成功に導くには、いくつか注意する点があります。 質問 仮説 実験 分析 結果の 分析・解釈 結果の 提供・

    コミュニケー ション 実世界の問題のフレーミング 計測可能な実世界の目標 制約、ベースライン ソリューション全体の継続的計測
  2. 機械学習とは 機械学習アルゴリズムはデータから学習を行います。 日付 湿度 雲量 雨 2020-08-27 65% 82% Yes

    2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 2020-08-30 95% 100% Yes 2020-08-31 82% 40% Yes 2020-09-01 40% 15% No 2020-09-02 21% 9% No
  3. 機械学習とは 機械学習にはいくつかのタイプが存在します。前述の例は「教師あり学習」です。 日付 湿度 雲量 雨 2020-08-27 65% 82% Yes

    2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 教師あり学習では、アルゴリズムは入出力のサンプルに基づき、 入力・出力をマッピングする関数を学習します
  4. 機械学習とは 「雨かそうでないか」を予測する場合、 2つのクラスのどちらかを予測する「分類 (Classification)」問題となります。 P( ) 降水確率 日付 雨 2020-08-27

    Yes 2020-08-28 Yes 2020-08-29 No 分類は教師あり学習のサブセットであり、モデルは事前定義済みのクラ スの中からどのクラスであるのかを予測しようとします
  5. 機械学習とは 「どのくらいの量の雨が降るのか」を予測する場合、ラベルの値を予測する「回帰 (Regression)」問題となります。 日付 雨 2020-08-27 10 mm 2020-08-28 15

    mm 2020-08-29 0 mm 回帰は教師あり学習のサブセットであり、モデルは 連続的なラベルの値に基づき定量的な値を予測しようとします 雨量
  6. 機械学習とは 教師なし学習の一例として「クラスタリング」があります。 日付 湿度 雲量 雨 2020-08-27 65% 82% Yes

    2020-08-28 62% 55% Yes 2020-08-29 30% 12% No 2020-08-30 95% 100% Yes 2020-08-31 82% 40% Yes 2020-09-01 40% 15% No 2020-09-02 21% 9% No クラスター1 クラスター2 クラスター3 • 類似するレコードには類似する特徴量が含まれます。 • 事前にクラスター数を決めておく必要があります。
  7. MLOpsとは 前章では機械学習とは何か、どのようなモデルを構築するのかを説明しました。しかし、これで終わりではありません! データ探索 データ クレンジング 特徴量エンジ ニアリング モデル開発 モデル評価 モデルデプロ

    イメント 質問 仮説 実験 分析 結果の 分析・解釈 結果の 提供・ コミュニケー ション 機械学習モデルを活用してビジネス価値を創出し続けるためには、モデ ルを運用し続ける必要があります
  8. ML コード 設定 データ収集 データ 検証 特徴量 エンジニアリング 計算リソース管 理

    分析ツール プロセス管理ツール インフラ ストラクチャの 提供 モニタリング “Hidden Technical Debt in Machine Learning Systems,” Google NIPS 2015 図1: 上の図に示すように、MLコードは実世界におけるMLシステムのほんの一部です。必要となる周辺 のインフラストラクチャは広大かつ複雑なものとなります。 MLにおいて最も難しいのはMLではなくデータです
  9. • 場当たり的な実験追跡 アプローチ • 実験の再現性確保が困難 データ準備 • 複数の複雑なデプロイメントオプ ション •

    フレームワークごとに異なるモニ タリングアプローチ モデル構築 モデルのデプロイ • データとMLの連携不足 • モデルで使用されるデータ の追跡が困難 MLOpsとは MLのライフサイクルは手動であり、一貫性がなく分断されています。
  10. なぜMLOpsは それほど難しいの でしょうか? The story of enterprise Machine Learning: “It

    took me 3 weeks to develop the model. It’s been >11 months, and it’s still not deployed.” @DineshNirmallBM #StrataData #strataconf 10:19 AM - Mar 7, 2018 • TweetDeck 企業における機械学習の物語: モデル構築に3週間かかったけど、 11ヶ月以上経ってもデプロイされてい ません。
  11. 孤立したデータチーム 主流のソフトウェアエンジニアリング オペレーションとの統合の欠如 The story of enterprise Machine Learning: “It

    took me 3 weeks to develop the model. It’s been >11 months, and it’s still not deployed.” @DineshNirmallBM #StrataData #strataconf 10:19 AM - Mar 7, 2018 • TweetDeck 混沌としたツールチェイン 環境に散在する異なる目的に特化したML ツール 実世界で求められる パフォーマンスの欠如 時間経過に伴うモデルドリフト、 貧弱な観察可能性、説明可能性 企業における機械学習の物語: モデル構築に3週間かかったけど、 11ヶ月以上経ってもデプロイされてい ません。 なぜMLOpsは それほど難しいの でしょうか?
  12. データサイエンスと機械学習はチームスポーツです。 しかし、3つの問題が障害となっています。 データアクセス 探索的データ分析 特徴量 エンジニアリング モデル チューニング モデル トレーニング

    実験 トラッキング モデル管理 CI / CD モデル サービング モデル監視 維持 & ガバナンス ML / DevOps エンジニア データ エンジニア データ/ML サイエンティスト
  13. データサイエンスと機械学習はチームスポーツです。 しかし、3つの問題が障害となっています。 データアクセス 探索的データ分析 特徴量 エンジニアリング モデル チューニング モデル トレーニング

    実験 トラッキング モデル管理 CI / CD モデル サービング モデル監視 維持 & ガバナンス ML / DevOps エンジニア データ エンジニア データ/ML サイエンティスト データサイエンスで最もハードなのはデータです 実験は複雑なものです MLの本格運用は困難です
  14. MLOpsとは MLOpsでは以下のゴールを達成する必要があります。 • チームスポーツです!DE、DS、Opsメンバーが協働する必要があります。 • エンドツーエンドのMLライフサイクルの自動化 • 再現性のあるMLパイプラインの構築 ◦ コードのバージョン管理

    (モデル、データ処理) - Azure DevOps, Github, ... ◦ 設定のバージョン管理 (モデル、デプロイ) - Terraform, ... ◦ データのバージョン管理 - Delta, ... • モデルトレーニング、デプロイのための再利用可能なソフトウェア環境 • モデルの追跡、パッケージ、デプロイ • エンドツーエンドのMLライフサイクルのデータガバナンス • 運用、ML関連の課題に対するMLアプリケーションのモニタリング • MLライフサイクルにおけるイベントの通知、アラート
  15. MLOpsとは MLOpsでは以下のゴールを達成する必要があります。 • データとモデルのテスト・検証を追加することで、継続的インテグレーション (CI) はコードのテスト・検証を拡張します。 • 継続的デリバリー (CD) は、新たなMLモデル予測サービスを自動でデプロイ

    するMLトレーニングパイプラインのデリバリーに関するものです • 継続的トレーニング (CT) は、再デプロイのためにMLモデルを自動で再トレー ニングを行います。 • 継続的モニタリング (CM) は、ビジネスメトリクスに関係するプロダクションデー タ、モデルパフォーマンスのモニタリングに関するものです。
  16. ©2021 Databricks Inc. — All rights reserved Databricksは、データサイエンスの取り組みをシンプルにする お手伝いをします データアクセス

    探索的データ分析 特徴量 エンジニアリング モデル チューニング モデル トレーニング 実験 トラッキング モデル管理 CI / CD モデル サービング モデル監視 維持 & ガバナンス ML / DevOps エンジニア データ エンジニア データ/ML サイエンティスト データサイエンスで最もハードなのはデータです 実験は複雑なものです MLの本格運用は困難です
  17. ©2021 Databricks Inc. — All rights reserved データチームをまとめあげるコラボレーティブワークスペースを 提供します Data

    Access Exploratory Data Analysis Feature Engineering Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > データ/ ML サイエンティスト ML / DevOps エンジニア The hardest part of data science is data 実験は複雑なものです MLの本格運用は困難です コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム
  18. ©2021 Databricks Inc. — All rights reserved そして、MLライフサイクル全体をサポートする環境を 提供します Data

    Access Exploratory Data Analysis Feature Engineering Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > ML / DevOps エンジニア The hardest part of data science is data Experimentation is complex MLの本格運用は困難です コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ
  19. ©2021 Databricks Inc. — All rights reserved 大規模データサイエンス運用のためのツールも提供します Data Access

    Exploratory Data Analysis Feature Engineering Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Engineers> < Data Scientists > < MLOps + DevOps > The hardest part of data science is data Experimentation is complex Productionizing ML is difficult コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視
  20. ©2021 Databricks Inc. — All rights reserved Databricks: 完全なデータサイエンス/MLプラットフォーム Exploratory

    Data Analysis Data Visualization Feature Selection Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Scientists > < DevOps > コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視
  21. ©2021 Databricks Inc. — All rights reserved Exploratory Data Analysis

    Data Visualization Feature Selection Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Scientists > < DevOps > MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム Databricks: 完全なデータサイエンス/MLプラットフォーム
  22. ©2021 Databricks Inc. — All rights reserved 最適化された計算資源、環境 スケーラブルな計算資源を持つターンキーのランタイム Databricksランタイム

    データ分析、データサイエンス、データエンジニ アリング向けのベースランタイム 機械学習ランタイム プレインストールMLライブラリおよびGPUをサ ポートするML最適化ランタイム
  23. ©2021 Databricks Inc. — All rights reserved クラウドネイティブのコラボレーション 大規模コラボレーティブデータ分析、データサイエンス 多言語対応ノートブック

    Python、R、Scala、SQL対応の共同編集可能 なノートブック ビルトインの可視化、ダッシュボード 12以上の可視化タイプをネイティブサポート、イ ンタラクティブなダッシュボードを作成可能
  24. ©2021 Databricks Inc. — All rights reserved クラウドネイティブのコラボレーション 大規模コラボレーティブデータ分析、データサイエンス 多言語対応ノートブック

    Python、R、Scala、SQL対応の共同編集可能 なノートブック 実運用への対応 ライブラリ、環境定義を構成する任意のファイル タイプのサポート ビルトインの可視化、ダッシュボード 12以上の可視化タイプをネイティブサポート、イ ンタラクティブなダッシュボードを作成可能
  25. ©2021 Databricks Inc. — All rights reserved サードパーティのエディタのサポート お使いのIDEからセキュアかつスケーラブルな計算資源を利用可能 人気のエディタと連携

    Jupyter、PyCharm、VSCodeなどと接続可能 RStudioのホスティング RStudioはネイティブでDatabricksでホスティ ングできます Databricks 管理の計算資源
  26. ©2021 Databricks Inc. — All rights reserved Exploratory Data Analysis

    Data Visualization Feature Selection Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Scientists > < DevOps > MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム Databricks: 完全なデータサイエンス/MLプラットフォーム
  27. ©2021 Databricks Inc. — All rights reserved データネイティブMLのためのビルトイン特徴量ストア 特徴量の再利用、トレーニング、サービングでの活用 検索可能な資産としての特徴量

    リネージュベースの検索を通じた特徴量の探索、 ACLによって管理された再利用の促進 トレーニングとサービングの一貫性 トレーニングで使用された特徴量と同じものが、低 レーテンシーのモデルサービングでも 使用されることを保証 モデルデプロイをスムーズに 特徴量の再利用とMLflowによるMLOpsの 自動化を通じてモデルのデプロイを加速
  28. ©2021 Databricks Inc. — All rights reserved 自動化されたトラッキングと再現性の確保 実験に関するあらゆる情報を自動で記録します コーディング不要のMLネイティブロギ

    ング Tensorflow、Pytorch、Scikit-Learn、MLlib などのトレーニングを自動で記録 ビルトインのデータバージョン ロギング Delta Lakeによるデータバージョンの自動記 録
  29. ©2021 Databricks Inc. — All rights reserved 自動化されたトラッキングと再現性の確保 実験に関するあらゆる情報を自動で記録します アウトオブボックスの再現性

    コード、クラスター設定、ライブラリのバージョン も記録 コーディング不要のMLネイティブロギ ング Tensorflow、Pytorch、Scikit-Learn、MLlib などのトレーニングを自動で記録 ビルトインのデータバージョン ロギング Delta Lakeによるデータバージョンの自動記 録
  30. ©2021 Databricks Inc. — All rights reserved モデルライフサイクル管理 「MLモデルのGithub」によるバージョン、デプロイメントの管理 MLOpsネイティブの機能

    ステージベースのACL、CI/CDのための webhook、通知、コメント、タグなど MLフレームワークに依存しない モデル管理
  31. ©2021 Databricks Inc. — All rights reserved Exploratory Data Analysis

    Data Visualization Feature Selection Model Tuning Model Training Experiment Tracking Model Management CI / CD Model Serving Model Monitoring Maintenance & Governance < Data Scientists > < DevOps > MLOps + DevOpsの本格運用 Git連携 | モデルサービング | モデル監視 実験環境 特徴量ストア | 実験トラッキング | モデルレジストリ コラボレーティブデータ探索ワークスペース ビルトインのデータ準備機能 | ネイティブの可視化機能 | 最適化されたランタイム Databricks: 完全なデータサイエンス/MLプラットフォーム
  32. ©2021 Databricks Inc. — All rights reserved ネイティブのGit連携 DatabricksでGit操作を行うことで迅速にコードをデプロイ UIベースのGit操作

    UIベースのGit操作を通じてデータチームでベ ストプラクティスを活用 Gitワークフローの自動化 著名なCI/CDツールとの連携を通じてワーク ロードを自動化するAPI エンタープライズにおけるGit デプロイメント プライベートネットワークのエンタープライズGit のサポート
  33. ©2021 Databricks Inc. — All rights reserved マルチタスクジョブ 複数のジョブを連携させるシンプルな方法 DAGオーケストレーション

    タスクの依存関係を宣言し、高信頼でマルチタス クのジョブを実行/デバッグ ETLからMLまで ETLからMLトレーニング、バッチスコアリングまで あらゆるワークロードを統合
  34. ©2021 Databricks Inc. — All rights reserved モデルのデプロイメント あらゆる規模で柔軟にデプロイ バッチスコアリング

    モデルレジストリからワンクリックでモデルをデ プロイし、スケーラブルなクラスターによるバッ チスコアリングを辞し オンラインスコアリング オートスケーリングする低レーテンシーのREST エンドポイントにワンクリックでモデルをデプロ イ