Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vertex AIによるフルマネージドなMLOps導入

yu-ma
March 18, 2022
540

Vertex AIによるフルマネージドなMLOps導入

yu-ma

March 18, 2022
Tweet

Transcript

  1. Copyright ©2022 by Future Corporation  氏名:真鍋 優 (マナベ ユウ)

     出身:大阪  趣味:バイク・ゲーム(最近は某フロムゲー)  学歴:同志社大学 → 奈良先端科学技術大学院大学 研究内容はHadoop等の分散処理  新卒3年目  Strategic AI Group・MLOpsチーム所属  AIチームのインフラ係  Kubernetes計算基盤の運用やMLOps導入を推進 2022/3/18 2 自己紹介
  2. Copyright ©2022 by Future Corporation ❐「機械学習プロセス/サイクルの円滑な運用を実現すること」 - 機械学習プロジェクトのビジネス展開が増加し、MLOpsの注目が高まっている 2022/3/18 3

    MLOpsとは iguazio社主催 ML管理・自動化が対象 MLプロダクション・ライフサイクルが対象 研究と産業の横断的な取り組みに挑戦 実用的な機械学習ワークフローに従い、 新学習法と理論の開発など、横断的な研究を対象 日本ソフトウェア科学界の公式研究会 MLシステムの開発・テスト・運用方法の確立を目指す
  3. Copyright ©2022 by Future Corporation ❐Machine Learning + Develop +

    Operate  機械学習(ML)プロジェクトにDevOpsの概念を適用し、全工程をスムーズに回すことが目標  収集したデータをどのように管理するか  前処理の内容と学習の結果の整合性をどのように担保するか  データサイエンティストのためのコーディング環境や、ハイスペックな学習環境を如何に用意するか  データサイエンティストの実装するアルゴリズムを、如何にサービスとしてデプロイするか  刻々と変化するデータに対して、どのように高い精度を維持し続けるか ...etc 2022/3/18 4 MLOpsとは データ収集 前処理 コーディング 学習 評価 デプロイ 監視
  4. Copyright ©2022 by Future Corporation ❐Machine Learning + Develop +

    Operate  機械学習(ML)プロジェクトにDevOpsの概念を適用し、全工程をスムーズに回すことが目標  収集したデータをどのように管理するか  前処理の内容と学習の結果の整合性をどのように担保するか  データサイエンティストのためのコーディング環境や、ハイスペックな学習環境を如何に用意するか  データサイエンティストの実装するアルゴリズムを、如何にサービスとしてデプロイするか  刻々と変化するデータに対して、どのように高い精度を維持し続けるか ...etc 2022/3/18 5 MLOpsとは データ収集 前処理 コーディング 学習 評価 デプロイ 監視
  5. Copyright ©2022 by Future Corporation ❐必要な ML ツールがすべて揃った一元的な AI プラットフォーム

     2021年5月19日にGA  MLOpsでカバーすべきワークフローに対応  データ収集 :Datasets  学習 :Training  実装 :Workbench  サービング :Prediction, Model  監視 :Monitoring, Metadata etc... 2022/3/18 6 Vertex AI https://cloud.google.com/vertex-ai
  6. Copyright ©2022 by Future Corporation ❐「データ サイエンス ワークフロー全体の単一開発環境」  フルマネージド型のコンピューティング環境

     JupyterLabの環境を簡単に構築  BigQueryやGCS、Vertex AI等の他サービスにスムーズにアクセス可能 2022/3/18 7 Vertex AI WorkBench https://cloud.google.com/vertex-ai-workbench https://cloud.google.com/deep-learning-vm/docs/images
  7. Copyright ©2022 by Future Corporation ❐「ML ワークフローを一連のステップとしてカプセル化」  処理(コンポーネント)を複数繋げ、一連の処理として実行 

    処理ごとに異なる環境・スペックで実行できる  毎回新しい環境で実行するため、実行環境への依存が少ない  コンポーネントと入出力データの依存関係が明快  各種パラメータや入出力データ、評価結果も記録  サーバレスなので、実行時にのみ課金が発生 2022/3/18 11 Vertex AI Pipelineの概要 https://cloud.google.com/vertex-ai/docs/pipelines/introduction
  8. Copyright ©2022 by Future Corporation ❐コンポーネント  Pipelineを構成する処理単位  コンポーネントの種類は下記の通り

     Dataflow  Apatch BeamジョブをDataflowに送信する  AutoML  AutoMLを用いたトレーニングを行う  モデル・エンドポイント  モデルのインポート・エクスポートや、モデルのサービングエンドポイントを構築する  バッチ予測  作成済みのモデルを指定し、バッチ予測を実行する  CustomJob  ベースイメージや作成したイメージを指定しPythonモジュールを実行する 2022/3/18 12 Vertex AI Pipelineの構成要素 https://cloud.google.com/vertex-ai/docs/pipelines/gcpc-list
  9. Copyright ©2022 by Future Corporation ❐入力と出力を自動で記録し、実験の再現性を担保する  データの入出力を管理  複数回のPipeline実行結果を1つに

     Jsonを見れば、実験の状況を確認できる  実行ステータス  開始・終了日時  実行時間  各種設定パラメータ ... 2022/3/18 14 Vertex AIにおけるメタデータ管理 一連の処理をまとめて管理することで、実験パラメータとモデルの整合性を担保 サービス化における、パラメータやコードのバージョン選定をサポート
  10. Copyright ©2022 by Future Corporation ❐Vertex AIにより、MLOpsで対応すべき広範囲をカバー 2022/3/18 15 GCPサービスとの連携

    データ収集 前処理 コーディング 学習 評価 デプロイ 監視 Composer Bigquery GCS Logging Monitoring Workbench Dataset AutoML Pipeline Model Metadata データを格納 前処理 パイプライン 起動 学習 モデル作成 デプロイ 学習データ保存 全体を監視
  11. Copyright ©2022 by Future Corporation ❐MLOpsの導入のため、フルマネージドなクラウド環境を活用  MLOpsの導入により、MLプロジェクトのライフサイクルを円滑に回したい  今回はコーディング環境と学習等の実行環境に着目し、2つのサービスを紹介

     WorkBench  複数人が利用できる統一的な開発環境を用意  個々人のマシン環境・スペックに左右されない環境で開発することで、サービス化を行う時点での影響を軽減する  Pipeline  コンポーネントごとに実行環境を指定することが可能  サーバレス・フルマネージドな環境であり、毎回新鮮な環境で実行することが可能  入出力データや各種パラメータ、処理内容と評価結果の記録を自動で取ることができる 2022/3/18 16 まとめ