MOV お客さま探索ナビの GCP ML開発フローについて

MOV お客さま探索ナビの GCP ML開発フローについて鈴木隆史 AI本部 AIシステム部 MLエンジニアリンググループ株式会社ディー・エヌ・エー

自己紹介鈴木隆史 | Takashi Suzuki AI本部 AIシステム部 MLエンジニアリンググループ前職では新卒でITメガベンチャーに入社し、サーバーサイドエンジニアとしてゲーム開発とビッグ
データを活用したサービス分析をリード。その後、大規模データ基盤の新規構築と運用保守などのデータエンジニアリング業務と、レコメンドアルゴリズムの設計開発やチャットボット開発などのMLエンジニアリング業務に従事していた。 2019年にDeNAに入社し、オートモーティブ事業における機械学習の実験基盤やパイプラインの設計開発を行っている。 2

アジェンダ 3 サービスシステム概要 ML開発フロー 1 2 3 まとめ 4

サービス 4 1

タクシー配車アプリ MOV 5

お客さま探索ナビ 6 この車両にとって最適な走行経路は何か？

システム概要 7 2

全体システム構成 8

9 コンポーネント概要リアルタイムデータ処理 • 車両データのETL • DWH • データ前処理
需要供給予測 • 特徴量作成 • MLモデル予測走行ルート推薦 • 最適方策の獲得 • 全体最適化

リアルタイム需要供給予測 10 直近の乗車数周辺の乗車数各種統計量 MLモデル直後30分に発生する乗車数

ML開発フロー 11 3

本番環境 • 推論パイプライン • モデル精度監視 12 ML開発フロー実験環境 • 分析/モデル開発
• 実験管理 CI/CD

分析/モデル開発における課題 14 01  セキュアなクラウド環境権限・証跡がきちんと管理されローカルPC以上に快適にメンバーと共有しやすい環境 02  学習時のスケール一番メモリを必要とするモデル学習時に
他タスクに影響ないようにスケールする環境

ユーザ認証Jupyter環境 • GKE構築でセキュア（SSL、IP制限）でスケールしやすい • 個人認証（Cloud IAP）をサポート • Notebookを共有しやすい v.s. Datalab
• セキュア要件への柔軟さ • 起動の速さセキュアなクラウド環境：JupyterHub 15

フルマネージド学習基盤 • 1分単位の起動時間課金 • Dockerカスタムイメージの学習をサポート • ジョブ実行までidle timeが発生する v.s. GKE
• 柔軟なインスタンス変更 • クラスタ作成不要の手軽さ学習時のスケール：AI Platform Training Job 16 AI Platform

実験管理における課題 18 01  各実験パラメータの管理複数モデルの実験を行うため各実験のパラメータ管理が必要

comet.ml - 豊富な視覚化/比較 - ハイパラ探索 - コード管理 - Git Integration
- 有料各実験パラメータの管理 19 mlflow - 視覚化/比較 - 簡易ハイパラ探索 - 無料 BigQuery - 視覚化はDataPortal - リストはDataConnector - カスタムしやすい

CI/CDにおける課題 21 01  コードの再現性データサイエンティストから MLエンジニアに渡されたコード・モデルの実行/再現の担保 02  ロールバック
新しいモデルにバグがあった場合の以前のモデルに切り戻したいとき 03  モデルのテストパイプラインに反映する前の簡易な動作テストと小規模データの検証テスト

コード・モデルの再現性 • コミュニケーションギャップの解消 • 再現性の担保 • GKEやTraining Jobのコンテナで利用しやすいモデルのロールバック •
DockerのImage Tag/Digestでversion管理 • 切り戻す際には以前のImageへ再現性とロールバック：Docker I/F 22

動作・検証テスト • 時間の関係でCircleCIでチェックするのは動作・検証テストのみ • 小規模データでモデルの有効性と実装エラーを検証 • 本番条件での連携と評価テストは専用Invoke モデルの簡易テスト：pytest 23

02  冪等性担保パイプラインの再実行などによりデータ重複やモデルの精度ズレが発生しないようにする推論パイプラインにおける課題 25 01  複雑な依存関係学習に利用する各種特徴量の作成と
データの前処理や推論や評価など一連の依存関係を担保

マネージドAirflow • 複雑な依存関係定義によりヒューマンエラー防止 • 冪等性なJob実行により再現性を担保 • 定期的にJobを実行してモデルを更新 • 重い処理はGKEやTraining Jobを利用
v.s. Kubeflow Pipeline • 途中Jobから再実行可能 • 外部トリガー・外部リソースの利用が容易 • 評価指標は管理できないパイプラインにおける課題：Cloud Composer 26 Cloud Composer

モデル精度監視における課題 28 01  モデルの経年劣化日々変化するタクシー需要トレンドに追従して新しいデータでモデルを再学習させ、精度をモニタリングしたい  

モデル推論の精度を監視 • モデルの定期更新はComposerで担保 • モデル精度をカスタムメトリックでMonitoring • ベースモデルと比較して悪ければ通知モデルの経年劣化：Stackdriver Monitoring 29
Stackdriver Monitoring

まとめ 30 4

MLOpsの立ち位置 • 業務ごとに専門性が増し、生産性向上のために分業化が進むと、個々人が把握できるコンポーネントは減ってしまう • 再現性の担保、依存関係の管理、精度やエラー監視する仕組みなどのMLOpsを事前に準備することで、技術的負債を減らすことができる • チームごとの課題を把握し、予めI/Fや方針を握っておくことが重要大事にしていること
31

　本説明会及び説明資料の内容は、発表日時点で入手可能な情報や判断に基づくものです。将来発生する事象等により内容に変更が生じた場合も、当社が更新や変更の義務を負うものではありません。　また、本説明会及び説明資料に含まれる将来の見通しに関する部分は、多分に不確定な要素を含んでいるため、実際の業績等は、さまざまな要因の変化等により、これらの見通しと異なる場合がありますことをご了承ください。株式会社ディー・エヌ・エー 32

MOV お客さま探索ナビの GCP ML開発フローについて

MOV お客さま探索ナビの GCP ML開発フローについて

Takashi Suzuki

More Decks by Takashi Suzuki

Other Decks in Technology

Featured

Transcript