実践Continuous Training - 第6回MLOps勉強会

実践 Continuous Training 2021/4/21 第6回 MLOps 勉強会株式会社Alpha CTO Hitoshi
Tsuyuki@htsh_tsyk

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.
おわりに

1. はじめに Continuous Trainingとは(1) MLOps Continuous Training Hidden Technical Debt
in Machine Learning Systemsより抜粋 MLOps: Continuous delivery and automation pipelines in machine learningより抜粋 GCPのベストプラクティス調査時に発見し、 MLOpsと比較し限定的な意味範囲がイメージしやすいため社内で多用している

学習パイプライン 1. はじめに学習パイプラインの実行~(間接的な)本番サービスへのデプロイまでの流れを自動化すること Continuous Trainingとは(2) データ検証前処理学習
評価モデル検証 CD パフォーマンス監視トリガー本番サービス 2. 実行する 3.呼び出す 4. デプロイする 5. ログを残す 6. 精度低下検知時呼び出す 1. 実行する 1~6が自動的に周り続けるようにする 1~4までの流れをCTとして今回話す内容とするスケジュール

1. はじめに最新のデータでモデルを再学習する必要性のある領域で有用例) アプリが ML を使用してファッション関連商品をおすすめしている場合 →
最新のトレンドや商品に合わせておすすめ商品を表示させる必要がある逆にモデルの更新頻度が少ないような領域、例えば音声データとか？、を扱っている場合はあまり必要無い？向いている領域導入の利点 Continuous Trainingとは(3) 学習モデルの鮮度の確保関係者の関心の分離実験の再現性確保開発効率の向上学習モデルの鮮度が重要な領域では有用で、導入した際は様々な利点がある

おわりに

2. 導入計画全体構成パイプラインデータ抽出学習ビルド& push CD
トリガー本番サービス 2. 実行する 3.呼び出す 4. デプロイする 1. 実行するスケジュール 4. 変更検知する

2. 導入計画導入時の要件とツールを整理するサーバ機能推論サービスパイプラインデプロイ要件(必須) 代表的なツールパイプライン定義
定期実行推論サービスのデプロイが出来ればなんでもなどなど要件(任意) リクエストの前処理複数モデルの管理複数バージョンの管理 ...など中間成果物の管理コンテナ対応 Dagの管理 Notebookからの呼び出し TensorFlow Serving 推論サービスのデプロイ

2. 導入計画弊社の技術選択推論サービスパイプラインデプロイツール選択理由広告事業の特性上、低レイテンシーに応答かつ高負荷な状況でも安定した性能を出せる必要があった。
また、モデルファイル (saved model)の可搬性、複数モデルの管理、複数バージョンの管理が便利そうだったため最後に、識者(shibui-san)に聞いてもおすすめとのことで背中を押されたためパイプライン定義はもちろん、手動・自動実行両対応、コンポーネント毎に個別のコンテナを使うことが出来る、アーティファクトを保存することが出来る、notebookから呼び出すことが出来る、ことなど既存サービスがArgoCDによるGitOpsを採用していたため、新規にデプロイフローを確立する必要がないため。その他の理由をあげるとすれば学習パイプラインの終端を Imageの Pushと出来わかりやすいため TensorFlow Serving

2. 導入計画学習パイプラインとCDの連携方法について学習パイプラインのスコープを絞りスモールスタート、既存の CDと連携することで工数削減パイプラインデータ抽出学習 Build
パイプラインのスコープ既存のCD(GitOps) 1. Scan 2. Sync 3. Write back 最短で構成を整えるため必須コンポーネントに絞る TFX Pipeline(後述)の導入はスコープ外とする

2. 導入計画学習パイプラインとCDの連携方法について学習パイプラインのスコープを絞り、既存の CDと連携することで工数削減パイプラインデータ抽出学習 Build
& Push パイプラインのスコープ既存のCD(GitOps) 1. Scan 2. Sync 3. Write back 最短で構成を整えるため必須コンポーネントに絞る TFX Pipeline(後述)の導入はスコープ外とする Push

2. 導入計画全体構成パイプラインデータ抽出学習 Build& push CD
トリガー本番サービス 2. 実行する 3.呼び出す 4. デプロイする 1. 実行するスケジュール 4. 変更検知する

おわりに

3. 導入期計画した構成で実際にCTを導入していくパイプラインデータ抽出学習 Build& push CD
トリガー本番サービス 2. 実行する 3.Pushする 4. デプロイする 1. 実行するスケジュール 4. 変更検知する

パイプライン 3. 導入期パイプラインの処理内容データ抽出学習ビルド DWH 学習データ
学習データモデルファイル image モデルファイル処理内容 (イメージ) 処理内容 1. DWHからのデータ抽出/前処理 2. 前処理 3. 学習データへの加工 4. ストレージへの保存 1. 学習データの読み込み 2. 学習の実行 3. モデルファイルの出力 4. ストレージへの保存 1. モデルファイルの読み込み 2. docker imageのbuild 3. コンテナレジストリへの保存 in out in out in out

パイプライン 3. 導入期実験の再現性の確保データ抽出学習ビルド学習データモデルファイル
image 成果物バージョン管理 {time} … WF実行時の時間 {model} … モデル名成果物管理 gs://bucket/{model}/v{time}/ train.csv gs://bucket/{model}/v{time}/ model/* gcr.io/registry/{model}:v{time} Artifactに保存 Artifactに保存 Artifactに保存

3. 導入期ビルド方法について補足パイプラインデータ抽出学習ビルド 0. KubeflowのContainerOpで
Kanikoイメージを指定 1. モデルファイルの読み込み 2. Dockerから読み込めるパスに配置 3. KanikoでBuild ステップ導入当時のDockerfile

3. 導入期 CT導入完了パイプラインデータ抽出学習ビルド CD 本番
サービス仕上げにトリガーを1回/1日とし、小さいパイプラインではあるが CTが動き始める。 1回/日実行 ※Kubeflow Pipelineの recurring jobを設定トリガー 1. 実行するスケジュール

3. 導入期 CT導入後のモデル開発フローの変化について補足パイプラインデータ抽出学習ビルド開発環境本番環境
DWH 実験評価パイプラインデータ抽出学習ビルド手動デプロイデータサインティストの関心 Ops の関心 CD 本番サービスパイプライン定義ファイルをコード管理、データサイエンティストと Opsの関心を分離システム全体像 1 2 3 補足 1 2 3 コード管理する対象が Notebookからパイプライン定義ファイルとなったデータサイエンティストはモデルの変更を本番に反映する場合、パイプライン定義ファイルを変更する Opsエンジニアは、パイプライン定義ファイルの変更を安全に本番に反映する

おわりに

4. 改善期 CTにCDを適用するパイプラインデータ抽出学習ビルド開発環境本番環境
DWH パイプラインデータ抽出学習ビルド CD 本番サービス CD パイプラインファイル生成アップロード旧パイプライン定期実行無効化 Github Actions 手動デプロイ手動デプロイをCDに置き換える

4. 改善期学習パイプラインを拡充する ~ TFX(1) 1. コンポーネント単位での TFXへの変換がサポートされていない 2. TFXの入出力I/F(Channel)がKubeflowのI/F(PipelineParam)と互
換性が無い TFX Pipelineのコンポーネント群を、自作コンポーネントと組み合わせてパイプラインを構成 KubeFlow pipeline TFX pipeline間の互換性を吸収するレイヤーを内製し導入完了自作コンポーネント TFX Pipelineのコンポーネント conflict 問題 ※TFX 0.29.0での状況 Kubeflow自作コンポーネントと TFX Pipelineのコンポーネントを組みわせることが出来ない解決策 ※弊社事情でどうしても必要だった差異を吸収

4. 改善期学習パイプラインを拡充する ~ TFX(2) TFX Pipelineのコンポーネントを取り入れることで一気にパイプラインが充実するパイプラインデータ抽出
学習 Build & Push 初期現在 ✅ ✅ ✅ ✅ ✅

4. 改善期その他取り組み中のことパイプライン1 アンサンブル A/Bテストパイプライン2 パイプライン3 パイプラインA パイプラインB
100% mirror 基盤が整ってきたことを受けAdvancedな領域も挑戦中

おわりに

5. おわりにまとめ 1. CTを導入すると様々な利点がある 2. 導入の際はパイプラインのスコープを絞り小さく始める 3. 小さく導入したあとで、大きく育てる 4.
CT導入の際は、TFXとKubeﬂowはおすすめ出来る

5. おわりに弊社では同領域に興味のあるML/MLOpsエンジニアを絶賛募集

参考

参考 TensorFlow Servingのモデルファイル(saved model)についてモデルファイル推論サービス 1.出力する 2.読み込み 3.立ち上がる 4.動作確認

実践Continuous Training - 第6回MLOps勉強会

実践Continuous Training - 第6回MLOps勉強会

Hitoshi Tsuyuki

Featured

Transcript

実践 Continuous Training 2021/4/21 第6回 MLOps 勉強会株式会社Alpha CTO Hitoshi

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

1. はじめに Continuous Trainingとは(1) MLOps Continuous Training Hidden Technical Debt

学習パイプライン 1. はじめに学習パイプラインの実行~(間接的な)本番サービスへのデプロイまでの流れを自動化すること Continuous Trainingとは(2) データ検証前処理学習

1. はじめに最新のデータでモデルを再学習する必要性のある領域で有用例) アプリが ML を使用してファッション関連商品をおすすめしている場合 →

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

2. 導入計画全体構成パイプラインデータ抽出学習ビルド& push CD

2. 導入計画導入時の要件とツールを整理するサーバ機能推論サービスパイプラインデプロイ要件(必須) 代表的なツールパイプライン定義

2. 導入計画弊社の技術選択推論サービスパイプラインデプロイツール選択理由広告事業の特性上、低レイテンシーに応答かつ高負荷な状況でも安定した性能を出せる必要があった。

2. 導入計画学習パイプラインとCDの連携方法について学習パイプラインのスコープを絞りスモールスタート、既存の CDと連携することで工数削減パイプラインデータ抽出学習 Build

2. 導入計画学習パイプラインとCDの連携方法について学習パイプラインのスコープを絞り、既存の CDと連携することで工数削減パイプラインデータ抽出学習 Build

2. 導入計画全体構成パイプラインデータ抽出学習 Build& push CD

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

3. 導入期計画した構成で実際にCTを導入していくパイプラインデータ抽出学習 Build& push CD

パイプライン 3. 導入期パイプラインの処理内容データ抽出学習ビルド DWH 学習データ

パイプライン 3. 導入期実験の再現性の確保データ抽出学習ビルド学習データモデルファイル

3. 導入期ビルド方法について補足パイプラインデータ抽出学習ビルド 0. KubeflowのContainerOpで

3. 導入期 CT導入完了パイプラインデータ抽出学習ビルド CD 本番

3. 導入期 CT導入後のモデル開発フローの変化について補足パイプラインデータ抽出学習ビルド開発環境本番環境

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

4. 改善期 CTにCDを適用するパイプラインデータ抽出学習ビルド開発環境本番環境

4. 改善期学習パイプラインを拡充する ~ TFX(1) 1. コンポーネント単位での TFXへの変換がサポートされていない 2. TFXの入出力I/F(Channel)がKubeflowのI/F(PipelineParam)と互

4. 改善期学習パイプラインを拡充する ~ TFX(2) TFX Pipelineのコンポーネントを取り入れることで一気にパイプラインが充実するパイプラインデータ抽出

4. 改善期その他取り組み中のことパイプライン1 アンサンブル A/Bテストパイプライン2 パイプライン3 パイプラインA パイプラインB

目次 1. はじめに 2. 導入計画 3. 導入期 4. 改善期 5.

5. おわりにまとめ 1. CTを導入すると様々な利点がある 2. 導入の際はパイプラインのスコープを絞り小さく始める 3. 小さく導入したあとで、大きく育てる 4.

5. おわりに弊社では同領域に興味のあるML/MLOpsエンジニアを絶賛募集

参考

参考 TensorFlow Servingのモデルファイル(saved model)についてモデルファイル推論サービス 1.出力する 2.読み込み 3.立ち上がる 4.動作確認