Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI Platform Pipelines を使って機械学習パイプラインを動かす話

Karno
June 26, 2020

AI Platform Pipelines を使って機械学習パイプラインを動かす話

Kubeflow Pipelines の GCP マネージド版である AI Platform Pipelines を使って、機械学習パイプラインを動かした話です。どんなメリットがあるのか、どのような全体像になっているのかをまとめました。

Karno

June 26, 2020
Tweet

Other Decks in Technology

Transcript

  1. whoami Ryosuke Nakano a.k.a. Karno https://github.com/karno Software Engineer @ Repro

    AI Lab (2020.4 ~) もと JTBC(Japanese Traditional Big Company) だった クラウドにわか勢 2
  2. P1. パイプライン性能の監視・確認が困難 理想: 機械学習モデルの性能を⾒やすく監視できる状態 (学習が意図通り動いているか、想定していないデータが⼊ってきていないか、など) 描くべきグラフ・⾒るべきデータは分かっているので、それを⼿軽に⾒たい 例えば GCS Bucket に保存したデータでグラフを描きたい

    外部サービスを頼るか、あるいは毎回⼿元にダウンロードしてきて分析する? 外部サービスを⾒つけてきて、繋いでみて、相性を確認して… gsutil cp で持ってきて Jupyter で… → 外部サービスで可視化するのも、⼿元で可視化するのも つらい 7
  3. 解決策: AI Platform Pipelines 課題を解決できる機能を搭載している機械学習基盤 パイプラインが簡単に動かせる (Web UI からデプロイできる) 課題に対して打ち⼿が打てる

    P1. パイプラインの性能の監視・確認が困難 → S1. メトリクス可視化機能 P2. 異常発⽣時のログ追跡が困難 → S2. ログ可視化機能 P3. 異常の監視と通知が困難 → S3. 異常監視・通知機能 (by Cloud Logging) OSS の Kubeflow Pipelines のGCPマネージド版 10
  4. 11

  5. S2. ログ可視化機能 Pipelines の UI から実⾏ログ を確認可能 Cloud Logging (旧

    Stackdriver Logging) と連携済 パイプラインの部品をクリック すると実⾏ログ(stdout, stderr)が⾒られる → 異常発⽣時のログ追跡が簡単 13
  6. S3. 異常監視・通知機能 例外発⽣, 異常終了, OOMなどを Cloud Monitoring で検知可能 異常を検知したときに Slack

    などに通知できる インシデント管理システムと統 合されており、対応終了までの 管理ができる → 異常の監視と通知が簡単 14
  7. 全体像 Kubeflow Pipelines(GKE) + Cloud Logging + Cloud Monitoring ログは

    Cloud Logging に 吐かれ、Pipeline Web UI からも参照できる 異常監視と通知は Cloud Monitoring を使う GCP Managed で全部揃えて 楽をする 15