Cloud WorkflowsによるMLワークフロー

by Daigo HIROOKA

Slide 1

Slide 1 text

Cloud Workﬂowsによるお手軽MLワークフロー株式会社ブレインパッド廣岡大吾 2021/09/17 第11回 MLOps勉強会

Slide 2

Slide 2 text

自己紹介 ● 廣岡大吾 ○ Twitter：dhirooka (@daigo_hirooka) ● 機械学習エンジニア＠ BrainPad ○ 関心：Deep LearningとMLOps ● その他 ○ GoProがタンスで眠っています ○ 白金鉱業.FM (@shirokane_fm) Podcastで配信中 2

Slide 3

Slide 3 text

MLOpsと自動化 ● MLOps＝DevOps for ML ● DevOpsの4つの柱 ○ Culture ○ Automation←今回の対象 ○ Measurement ○ Sharing ● 自動化を進めることで、開発サイクルの効率化、ヒューマンエラーの抑制に繋がる ● 今回はワークフローの構築による ML処理の自動化を紹介 ○ 処理のワークフロー化自体は様々なユースケースに対応できる 3

Slide 4

Slide 4 text

MLOpsのためのチーム構成（理想） MLOpsを実現するには様々なスキルセットが必要 ● データサイエンティスト ● データエンジニア ● DevOpsエンジニア ● ビジネスエキスパート ● etc... 4 Introducing MLOps [Book]

Slide 5

Slide 5 text

小さくはじめるMLOps 5 ● 少人数のチームで多くのスキルをカバーするのは大変 ○ 特にDS主体のチームだとインフラスキルが薄くなりがち ● 目標：ツールの学習コスト・インフラの運用負荷を抑えた自動化 ○ 既知のツールとクラウドサービスの利用を念頭に置く ○ 今回：Python, Docker, YAML on GCP ○ 他ベンダーに切り替えるのも容易 ● 小さくはじめて、大きく育てる ○ 高度なサービスの利用やリッチな機能追加は後で良い

Slide 6

Slide 6 text

機械学習のワークフロー化 ● 前処理や学習、デプロイなどの工程を分割し、フローとして定義する ○ 処理に応じたリソース割り当て（メモリ、 GPU有無など）が可能になる ○ 各処理を疎結合にすることでデバッグが容易になる ○ ワークフロー定義そのものをコードとして管理できる（ Infrastructure as Code） 6

Slide 7

Slide 7 text

どのワークフローツールを使うか？ ● OSS：MLflow, Kubeflow Pipelines, Airflow, luigi etc… ○ 一長一短（実験管理できたり、 UIがリッチだったり） ● 小さくはじめる上で何を重視するか？ ○ 学習コストの低さ ○ クラウド上でのサーバーレス動作によるインフラ管理コストの抑制 7

Slide 8

Slide 8 text

どのワークフローツールを使うか？ ● GCPの場合 ● シンプルさとサーバーレス動作という点から Cloud Workﬂowsを検討 8 サービス名概要特長留意点 Cloud Composer Airflowのマネージドサービス OSSベースであり先人の知恵や資料が豊富 Not サーバーレス（GKE上で実行） Vertex Pipelines Kubeflow Pipelines or TFXのマネージドサービス OSSベースサーバーレス ML周りの機能やUIがリッチ資料が少なく学習コストが高い Cloud Workflows HTTPベースのAPIに対するワークフローサービスサーバーレス YAMLでフローを定義でき学習コストが少ない機能としては簡素 OSSベースでないのでベンダ依存が発生

Slide 9

Slide 9 text

Cloud Workﬂows ● GCPを含めてHTTPベースのAPIを連結する汎用ワークフローサービス ● YAMLでフローを定義 ● サーバーレスで動作 ● 条件分岐や再試行も可能 9 https://cloud.google.com/workﬂows?hl=ja

Slide 10

Slide 10 text

Cloud WorkflowsによるMLワークフロー ● HTTP経由のコンテナ実行を連結してワークフローを構築 ○ コンテナ実行基盤：Vertex AIカスタムトレーニング ● 実装サンプル ○ WorkflowsとVertex AIカスタムジョブによるお手軽 MLワークフロー ○ ML処理：前処理と学習を別々に Dockerアプリとして実装 ○ コンテナ実行@Vertex AIをWorkflowsでオーケストレート ○ 他のサービスとも容易に連携、拡張可能 10

Slide 11

Slide 11 text

Vertex AIのカスタムトレーニング ● Vertex AI：GCPの統合MLプラットフォーム ○ Vertex AI ● Vertex AIカスタムトレーニング ○ サーバーレスなDockerアプリケーション実行基盤 ○ MLモデルの学習以外にも（たぶん）任意の処理が実行可能 ○ 柔軟なインフラ要件：メモリ、 GPUなどの計算リソースを柔軟に指定できる ○ サーバーレス：課金は処理が発生するタイミングだけで済む 11

Slide 12

Slide 12 text

Vertex AIのカスタムトレーニング ● gcloud、Python、RESTなどからジョブを投入可能 ○ ↓はgcloud経由の場合 12 Dockerﬁle 実行時コンフィグマシンタイプや実行イメージ、実行時引数などを指定できる

Slide 13

Slide 13 text

Vertex AIのカスタムトレーニング ● Preview機能：Cloud Storage FUSEによるマウント ○ GCSのバケットをVertex AIジョブにマウントしてアクセスできる ○ ファイル読み書きにおけるローカル・クラウドの違いを意識しなくて済む ○ Training code requirements | Vertex AI（現在は英語版のみ記載あり） 13

Slide 14

Slide 14 text

Cloud WorkﬂowsによるMLワークフロー ● Vertex AIにおけるコンテナ実行を Workﬂowsでつなげる 14 簡易的なフローの可視化も可能

Slide 15

Slide 15 text

Cloud WorkﬂowsによるMLワークフロー 1. Vertex AIのカスタムジョブは POSTリクエスト経由で投下 2. リクエストボディに実行環境を指定 3. サービスアカウントに基づいた認証済みリクエストも可能 4. レスポンスは変数としてワークフロー内で利用可能 15 ❶ ❷ ❸ ❹

Slide 16

Slide 16 text

Cloud WorkﬂowsによるMLワークフロー 1. Vertex AIジョブの状態確認は待機＋ループ処理で実装 2. ジョブが成功したら次の処理へ 16 ❷

Slide 17

Slide 17 text

Cloud WorkﬂowsによるMLワークフロー ● YAML形式で直感的にワークフローを構成できた ○ もちろん他のGoogle Cloud APIsと組み合わせることも可能 ○ すべての Workﬂows のコードサンプル | ワークフロー ● できないこと ○ 並列実行（独立な前処理 A・Bの同時実行など） ○ ML特有の実験管理などは別途実装が必要 17

Slide 18

Slide 18 text

まとめ ● シンプルな技術要素からでも十分に MLワークフローを構築できる ○ ML処理はコンテナアプリとして実装 ○ コンテナ実行を連結してワークフローを構築 ● 小さくはじめて、大きく育てる ○ ツールの学習コストの低さ、サーバーレスによるインフラコストの抑制を重視 ○ 高度なサービスやリッチな機能追加は後回し ● 要件が少ない段階ではベンダー間の違いは軽微 ○ 今回はGCPのVertex AIとWorkﬂowsを利用したが、他クラウドでも似たような機能はある ○ AWSならSageMakerとStep Functionsとか ○ 細かい要件で悩むより、まずやってみることが重要 18