AI Platform Pipelines を使って機械学習パイプラインを動かす話

AI Platform Pipelines を使って機械学習パイプラインを動かす話 Karno 1

whoami Ryosuke Nakano a.k.a. Karno https://github.com/karno Software Engineer @ Repro
AI Lab (2020.4 ~) もと JTBC(Japanese Traditional Big Company) だったクラウドにわか勢 2

Table of Contents 1. 背景: 機械学習をサービスに乗せるつらさ 2. 課題: 機械学習パイプラインをうまく動かす 3.
解決策: AI Platform Pipelines 4. 全体像 5. まとめ 3

背景: 機械学習サービスを維持するつらさ機械学習サービスは陳腐化の速度が早く、保守を⼿厚く⾏う必要がある稼働状況の継続的な監視が必要予測の前提が崩れていないか？⼊⼒データに変化はないか？にもかかわらず、保守性が低くなりがち実装が紆余曲折し⽣まれるモノリシックな何かデバッグ困難、テスト困難保守のために無限に時間が溶けていく
うまく作る枠組みが必要 → 機械学習パイプラインの登場 4

機械学習パイプライン機械学習処理全体を、独⽴したコンポーネントの連鎖として表現したアーキテクチャモノリシックになりがちな機械学習処理をコンポーネントに分割コンポーネント毎のI/Oが明確化、監視がしやすく⼀度に考慮しなければいけない処理が減り、保守性が向上コンポーネント毎に処理が完結するため、テストが容易にいわゆる「分割統治法」画像出典: Azure Machine
Learning 5

課題: 機械学習パイプラインをうまく動かす機械学習パイプラインでプログラムの保守性は向上した → 機械学習パイプラインを実⾏するインフラ側にも⼿当てが欲しいただ動かすだけでは以下の問題が解決しない: P1. パイプライン性能の監視・確認が困難 P2. 異常発⽣時のログ追跡が困難
P3. 異常の監視と通知が困難 6

P1. パイプライン性能の監視・確認が困難理想: 機械学習モデルの性能を⾒やすく監視できる状態 (学習が意図通り動いているか、想定していないデータが⼊ってきていないか、など) 描くべきグラフ・⾒るべきデータは分かっているので、それを⼿軽に⾒たい例えば GCS Bucket に保存したデータでグラフを描きたい
外部サービスを頼るか、あるいは毎回⼿元にダウンロードしてきて分析する? 外部サービスを⾒つけてきて、繋いでみて、相性を確認して… gsutil cp で持ってきて Jupyter で… → 外部サービスで可視化するのも、⼿元で可視化するのもつらい 7

P2. 異常発⽣時のログ追跡が困難理想: タスクが失敗したとき、失敗の原因を教えてくれるログが⼿軽に⾒たいログが分散していてもつらい、統合していてもつらいたとえば Airflow では Stackdriver にいろんなログが流れるようになっ
ており、該当するパイプラインのログをなんとかして掘り出す必要がある → ⼤変つらい 8

P3. 異常の監視と通知が困難理想: リソースが異常値になっていないか(CPU, RAMなど)、タスクが異常終了していないかを監視したい、状況が悪ければSlackなどで通知してほしい動かし⽅によっては、メモリ逼迫によってタスクが失敗した場合 (OOM Killer にやられたとき)、
何の通知も⾏われないことがあった動作していないことに気付いていろいろ調査し、最終的にどうやらOOMしたらしいということが分かった → 通知がないのは本当につらい 9

解決策: AI Platform Pipelines 課題を解決できる機能を搭載している機械学習基盤パイプラインが簡単に動かせる (Web UI からデプロイできる) 課題に対して打ち⼿が打てる
P1. パイプラインの性能の監視・確認が困難 → S1. メトリクス可視化機能 P2. 異常発⽣時のログ追跡が困難 → S2. ログ可視化機能 P3. 異常の監視と通知が困難 → S3. 異常監視・通知機能 (by Cloud Logging) OSS の Kubeflow Pipelines のGCPマネージド版 10

S1. メトリクス可視化機能パイプラインで出⼒したメトリクスを Web UI から確認可能意図通りの性能が出ているかを⼿軽に確認何度か実⾏した結果を並べるよ
うに⾒せることもできる → パイプラインの性能監視・確認が簡単 12

S2. ログ可視化機能 Pipelines の UI から実⾏ログを確認可能 Cloud Logging (旧
Stackdriver Logging) と連携済パイプラインの部品をクリックすると実⾏ログ(stdout, stderr)が⾒られる → 異常発⽣時のログ追跡が簡単 13

S3. 異常監視・通知機能例外発⽣, 異常終了, OOMなどを Cloud Monitoring で検知可能異常を検知したときに Slack
などに通知できるインシデント管理システムと統合されており、対応終了までの管理ができる → 異常の監視と通知が簡単 14

全体像 Kubeflow Pipelines(GKE) + Cloud Logging + Cloud Monitoring ログは
Cloud Logging に吐かれ、Pipeline Web UI からも参照できる異常監視と通知は Cloud Monitoring を使う GCP Managed で全部揃えて楽をする 15

まとめ機械学習タスクを指針なく作ったり、いまいちな基盤を使うとつらい思いをする機械学習パイプラインを AI Platform Pipelines で動かすといい感じパイプラインで分割統治すると複雑さが減るメトリクス可視化で性能監視が簡単にできる
ログ統合でログが簡単に追える異常監視・通知がGCPのサービスで簡単にできる 16

AI Platform Pipelines を使って機械学習パイプラインを動かす話

AI Platform Pipelines を使って機械学習パイプラインを動かす話

Karno

Other Decks in Technology

Featured

Transcript

AI Platform Pipelines を使って機械学習パイプラインを動かす話 Karno 1

whoami Ryosuke Nakano a.k.a. Karno https://github.com/karno Software Engineer @ Repro

Table of Contents 1. 背景: 機械学習をサービスに乗せるつらさ 2. 課題: 機械学習パイプラインをうまく動かす 3.

解決策: AI Platform Pipelines 課題を解決できる機能を搭載している機械学習基盤パイプラインが簡単に動かせる (Web UI からデプロイできる) 課題に対して打ち⼿が打てる

11

S1. メトリクス可視化機能パイプラインで出⼒したメトリクスを Web UI から確認可能意図通りの性能が出ているかを⼿軽に確認何度か実⾏した結果を並べるよ

S2. ログ可視化機能 Pipelines の UI から実⾏ログを確認可能 Cloud Logging (旧

S3. 異常監視・通知機能例外発⽣, 異常終了, OOMなどを Cloud Monitoring で検知可能異常を検知したときに Slack

全体像 Kubeflow Pipelines(GKE) + Cloud Logging + Cloud Monitoring ログは