機械学習システムアーキテクチャ入門＃2

Slide 1

Slide 1 text

機械学習システムアーキテクチャ入門＃2 Asei Sugiyama

Slide 2

Slide 2 text

要旨機械学習システムのアーキテクチャについて典型的な内容を共有します

Slide 3

Slide 3 text

TOC 機械学習パイプライン <- 推論システム運用・監視

Slide 4

Slide 4 text

機械学習パイプライン TFX ETL 訓練デプロイ

Slide 5

Slide 5 text

TFX パターン化されたものの一部のコンポーネントは複雑になりがち Akshay Naresh Modi and Chiu Yuen Koo and Chuan Yu Foo and Clemens Mewald and Denis M. Baylor and Eric Breck and Heng-Tze Cheng and Jarek Wilkiewicz and Levent Koc and Lukasz Lew and Martin A. Zinkevich and Martin Wicke and Mustafa Ispir and Neoklis Polyzotis and Noah Fiedel and Salem Elie Haykal and Steven Whang and Sudip Roy and Sukriti Ramesh and Vihan Jain and Xin Zhang and Zakaria Haque TFX: A TensorFlow-Based Production- Scale Machine Learning Platform, KDD 2017 (2017) https://research.google/pubs/pub46484/

Slide 6

Slide 6 text

ETL データの取得は大変課題対策データが散財していて取得が大変 Data Lake, DWH, Data Mart テーブルが散財していて把握が大変 Data Catalog 見つけたテーブルが使えるか不明メタデータ管理見つけたテーブルの使い方が難しい BI ツール

Slide 7

Slide 7 text

AWS Glue さまざまな場所にあるデータを統合して扱うためのサービスクローラーによるデータカタログの構築と、EMR による ETL 処理 AWS Glue（分析用データ抽出、変換、ロード (ETL) ）| AWS

Slide 8

Slide 8 text

Google Cloud Data Catalog Google Cloud Data Catalog Now Available in Public Beta | Google Cloud Blog

Slide 9

Slide 9 text

訓練バッチ処理が基本複数のモデルを訓練分散学習

Slide 10

Slide 10 text

kfp.dsl.ParallelFor json_string: str = json.dumps([ {"snakes": "anaconda", "lizards": "anole", "bunnies": [{"cottontail": "bugs"}, {"cottontail": "thumper"}]}, {"snakes": "cobra", "lizards": "gecko", "bunnies": [{"cottontail": "roger"}]}, ]) with dsl.ParallelFor(json_string) as item: with dsl.ParallelFor(item.bunnies) as item_bunnies: print_op(item_bunnies.cottontail) パイプラインにモデルのパラメーターや ID で分岐を作成パイプラインは分割しすぎない & まとめすぎない

Slide 11

Slide 11 text

Federated Learning 分散学習の分散度合いを高めてユーザーのデバイス内で学習する採用例はほとんど聞かない

Slide 12

Slide 12 text

デプロイ複数サービスの変更が必要コンテナレジストリホスティングサービススケジューリングカナリアリリースデプロイ対象が複数シュミレーター試作機本番機

Slide 13

Slide 13 text

TOC 機械学習パイプライン推論システム <- 運用・監視

Slide 14

Slide 14 text

推論システム検討事項モノリス同期推論パターン非同期推論パターンバッチ推論パターンエッジ推論パターン

Slide 15

Slide 15 text

検討事項機能: 推論の精度レイテンシーシステムコスト上記を可能な範囲でバランスよく叶える澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 16

Slide 16 text

モノリス Web アプリケーション内で直接モデルを呼び出して推論初期はこうなりがちバンディットはこうなりがち有賀康顕中山心太西林孝　著仕事ではじめる機械学習第2版オライリー・ジャパン 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 17

Slide 17 text

同期推論パターン推論用 API を実装し、アプリケーションから呼び出すコンテナとして実装するのが一般的軽いモデル向き有賀康顕中山心太西林孝　著仕事ではじめる機械学習第2版オライリー・ジャパン 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453 澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 18

Slide 18 text

非同期推論パターンアプリケーションのリクエストをキューイング推論結果をキューか DB に書き込み、アプリケーションから利用重いモデル向けユーザーになんとかして待ってもらう必要はある澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 19

Slide 19 text

バッチ推論パターンあらかじめバッチ処理として全件推論結果を DB に保存し、アプリケーションから利用重いモデルでユーザーが待てないのならこれ入力をあらかじめ列挙できないのなら採用不可澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 20

Slide 20 text

エッジ推論パターンサーバーサイドではなく、エンドユーザー環境上でモデルを動かす学習時と推論時でまったく異なる環境を用いる中間表現へのコンパイルと、それを動かすランタイムが必須澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 21

Slide 21 text

どれを選ぶべき？検討の出発点としては、バッチ推論か同期推論パターンコンテナで実装しておけばオートスケールを利用できるコンパイルは職人芸になってきた Configure compute resources for prediction | Vertex AI | Google Cloud https://cloud.google.com/vertex- ai/docs/predictions/configure-compute#scaling

Slide 22

Slide 22 text

TOC 機械学習パイプライン推論システム運用・監視 <-

Slide 23

Slide 23 text

運用・監視機械学習の困難さバグフィルターシャドウ A/B テストカナリアリリース (A/B テスト) ダッシュボード注意点

Slide 24

Slide 24 text

機械学習の困難さ通常のソフトウェアエンジニアリングの手法では機械学習システムを扱うことが難しいコードではなくシステムのレベルで困難が生じるデータへの依存は原因の1つ D. Sculley and Gary Holt and Daniel Golovin and Eugene Davydov and Todd Phillips and Dietmar Ebner and Vinay Chaudhary and Michael Young (2014) Machine Learning: The High Interest Credit Card of Technical Debt, SE4ML: Software Engineering for Machine Learning (NIPS 2014 Workshop https://research.google/pubs/pub43146/

Slide 25

Slide 25 text

バグフィルター復旧が即座にできるのなら本番環境へのデプロイ後もテストできる異なる範囲・粒度のフィルターでバグを補足する考え方単体テスト、結合テスト、E2E テストに加え、アラート、モニタリング、ログを用いてバグを補足 Katrina Clokie 著風間裕也, 河原田政典訳 A Practical Guide to Testing in DevOps Japanese Edition Leanpub 2021年 https://leanpub.com/testingindevops-japanese-edition

Slide 26

Slide 26 text

シャドウ A/B テスト現行のサーバーと別にアップデート後のモデルをデプロイしたサーバーを用意実際のリクエストを2つのサーバーに送信エラーやレイテンシ、計算資源の負荷をテスト可能な場合は精度やビジネス指標をテスト澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 27

Slide 27 text

カナリアリリースリクエストの一部をアップデート後のサーバーに送信エラーやレイテンシのテスト可能な場合は精度やビジネス指標をテスト様子を見ながら徐々に新しいバージョンに送信する割合を高める澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 28

Slide 28 text

ダッシュボード本番環境の状況を把握基本は時系列 (異常はデプロイに起因するものが多いため) システムのメトリクスとあわせて機械学習のメトリクス、ビジネス指標を表示できると最高澁井雄介著 AIエンジニアのための機械学習システムデザインパターン翔泳社 2021年 https://www.shoeisha.co.jp/book/detail/9784798169453

Slide 29

Slide 29 text

注意点 (1/2) 見たい観点は次々に出てくるものの、取りうる行動のパターンはそんなに多くない

Slide 30

Slide 30 text

注意点 (2/2) 暫定対応 (〜数h) 経過観察切り戻し個別の特別対応恒久対応 (数日〜数週間) バグフィックス特徴量・モデルの再設計リリースフローの見直し

Slide 31

Slide 31 text

まとめ機械学習パイプラインは典型的なパターンが整理されたものの、ETL とデプロイは複雑になりがち推論システムは機能、スピード、コストのバランスを考慮する運用・監視においては「本番環境でのテスト」の考え方を導入し、カナリアリリースなどのパターンを用いて本番環境でもバグを補足するよう設計する