Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DRIVE CHARTのMLOpsを体感しよう
Search
moyomot
December 04, 2023
0
64
DRIVE CHARTのMLOpsを体感しよう
moyomot
December 04, 2023
Tweet
Share
More Decks by moyomot
See All by moyomot
現場課題に向き合い MLOps成熟度を高める道
moyomot
1
920
第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性のあるデータの作り方
moyomot
0
780
DRIVE CHARTにおけるAI開発とアーキテクチャ全容
moyomot
0
810
これからの強化学習2.7
moyomot
0
130
これからの強化学習2.6
moyomot
0
200
Gunosyのデータ分析基盤、ログ基盤の全容
moyomot
14
9.4k
GunosyにおけるSparkStreaming活用事例
moyomot
0
5k
トピックモデル第2章
moyomot
0
300
adhoc analysis apache spark
moyomot
1
1.1k
Featured
See All Featured
Code Review Best Practice
trishagee
62
16k
Web development in the modern age
philhawksworth
205
10k
Building Better People: How to give real-time feedback that sticks.
wjessup
360
19k
4 Signs Your Business is Dying
shpigford
180
21k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
32k
How To Stay Up To Date on Web Technology
chriscoyier
786
250k
Robots, Beer and Maslow
schacon
PRO
157
8.2k
Unsuck your backbone
ammeep
667
57k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
249
21k
Large-scale JavaScript Application Architecture
addyosmani
509
110k
Become a Pro
speakerdeck
PRO
24
4.9k
Side Projects
sachag
452
42k
Transcript
© GO Inc. DRIVE CHARTの MLOpsを体感しよう 2023/12/05
© GO Inc. 2 自己紹介 GO株式会社 スマートドライビング事業本部 システム開発部 AI基盤グループ 森本
淳司 2021年 GO株式会社に入社 AI基盤グループで次世代AIドラレコサービス『DRIVE CHART』の MLOps業務に従事
© GO Inc. 1. 次世代AIドラレコサービス『DRIVE CHART』について 2. DRIVE CHARTのMLOps 3.
今後の発展に向けて 3 本日お話すること
© GO Inc. 次世代AIドラレコサービス 『DRIVE CHART』について 01 4
© GO Inc. AIを搭載したドライブレコーダーによる事故防止支援サービス AIが様々な危険シーンを検知して、普段の運転行動を分析 次世代AIドラレコサービス『DRIVE CHART』とは 5
© GO Inc. • AIにより危険シーンを抽出 • Webで簡単に該当シーンの動画を閲覧 • 運転行動をレポート表示 危険シーンを抽出しWebでレポート確認
6
© GO Inc. • 社員が社有車で事故を起こせば会社の責任 ◦ 企業は事故を起こさないための仕組みづくりが必要 • やみくもに事故削減活動を行ってもキリがない ◦
すべての運転記録をチェックするのは現実的ではない ◦ 社員それぞれの事故のリスクを把握し効率・効果的な指導、改善が求められる ◦ 運転の癖を可視化し、社員ごとに指導内容をカスタマイズできる なぜDRIVE CHARTが必要なのか https://drive-chart.com/magazines/mg_220131 7
© GO Inc. • 2019年6月リリース、現在は契約車両6万台突破 • タクシー・物流事業者をはじめ、営業車や介護送迎車両など幅広く導入 • DRIVE CHART搭載車両が日本中を走行、1日で高速道路の約9割・一般国道の約7割を網羅
DRIVE CHART 契約台数が大幅に伸長 8
© GO Inc. DRIVE CHARTの MLOps 02 1. 契約台数6万台超えの膨大なデータを扱う 2.
センサー、動画など多様なデータを扱う 3. 多数の機械学習モデルを本番環境で運用 9
• 機械学習システムに求められるもの • いちはやくAI機能をお客様に届ける • 品質を担保したAI機能を提供し続ける • 機械学習モデルは作っておしまいではない • これらを実現するのがMLOps
• 高速に価値ある実験を多数実現する実験環境 • スケーラブルかつ堅牢な本番環境 • Data-Centric AI • 本番環境で得たフィードバックを次の実験に活用 いかに市場に素早くAIを届けられるか、そのためのMLOps 実験環境 本番環境 10
• 実験結果を蓄積し、ゴールまで走り切る実験環境 • 実験に失敗はつきもの • 試行錯誤を経てゴールに辿り着くもの • 実験結果を正しく蓄積し、議論の土台となる実験管理ツールが必要 • ClearML
• 実験結果を比較しやすい + わかりやすいUI • 実験を多数行える基盤 • AWSで自由に実験用インスタンスを活用できるようにサポート • 多様なデータを扱う実験や本番環境のシミュレーション環境をサポート • Kubeflow • スケールし高速に実験可能 + わかりやすいUI 高速に価値ある実験を多数実現する実験環境 11
イメージ画像 12 https://clear.ml/clearml-experiment https://www.kubeflow.org/docs/comp onents/pipelines/v1/introduction/ ClearML Kubeflow
• 本番環境の安定運用 • インフラ運用は基本を忠実に守る • 死活監視、Infrastructure as Code、コスト最適化、セキュリティ強化 • 継続的学習
• 定期的に学習の必要なMLシステム • Airflow + Sagemaker • 運用しやすさを重視 = キャッチアップのしやすさ + 問題発生時の対応しやすさ • モニタリング • 推論監視 + ドリフト検知 • 推論結果が劣化していないか、異常値のトレンドが変化していないか • BigQuery + Redash • システム監視 • CloudWatch + X-Ray スケーラブルかつ堅牢な本番環境 13
• 本番環境で得られたフィードバックは次の開発に活かす • データパイプライン • 本番環境からアノテーション環境、そして実験環境へ • データフローは基本内製 • 属人化に気をつけ汎用的な作りを心がける
• アノテーション • アノテーションツールNOTAを使用 • DeNA時代から内製ツールとして開発運用 • アノテーショングループと協働し、フィードバックサイクルを回しなが ら効率的に行う Data-Centric AI https://github.com/DeNA/nota 14
© GO Inc. 今後の発展にむけて 1. データの民主化、さらにその先へ 2. ゼロETLはデータエンジニアリングの 夢を見るか 03
15
• データウェアハウスの活用で2010年以降データの民主化が進む • 非エンジニアがSQLを書き、効果測定を行うようになった • マーケターがクリエイティブの評価を行う • カスタマーサクセスが問い合わせ内容の分析を行う • 組織全体の作業効率化を実現
• DRIVE CHARTではBigQuery + Redash • さらにその先へ、問合せの効率化 • 非エンジニアからエンジニアへの問い合わせを削減できないか • カスタマーサクセスがロジックやモデルの推論結果の解釈を自分で行うには? • Jupyter Notebookを共有する? 1. データの民主化、さらにその先へ 16 Before After お客様 カスタマー サクセス エンジニア お客様 カスタマー サクセス
• 求めるもの • ロジックやモデル推論を再現できる • Webベースで可視化や共有ができる • Streamlit • PythonのWebフレームワーク
• データ可視化や共有が容易 • グラフ、テーブル、画像、動画、etc… • 構成 • 実行環境はコスト最適化したい • 既存のKubernetes • 認証認可を詳細に設定したい • 認証は会社の認証基盤(SAML認証)を利用、認可はCognitoを利用 • 野良コードは撲滅したい • GitHubでコード管理、マージしたら自動デプロイ Streamlitで問い合わせ工数削減へ https://streamlit.io/ 17
• よくあるサービス環境 + DWH構成 • 課題感 • ETLの運用が地味に工数かかる • テーブル追加やカラム追加時にETL環境も追加実装必要
• データ量が増えるとETL環境のコンピューティングコストも増える 2. ゼロETLはデータエンジニアリングの夢を見るか AWS 1 ETL環境 BigQuery API API S3 Aurora AWS 2(マルチアカウント) 18
• ゼロETLとは • AuroraからRedshiftに自動でデータ保存する機能 • 全テーブル対象 • Redshiftへの反映は数十秒から数分 • ラグもモニタリングできる
• バイナリログ有効化必要 • Redshiftの代表的な機能 • Spectrum • フェデレーテッドクエリ • サーバーレス • マネージドストレージ • 課題 • DWHの移行は強力なパワーが必要 Aurora => RedshiftでできるゼロETL 検証中 19 S3 Redshift Aurora ログデータ Spectrum トランザクショ ンデータ ゼロETL マスターデータ フェデレーテッド クエリ Aurora
まとめ 1. 次世代AIドラレコサービス『DRIVE CHART』について a. 契約台数6万台超えの膨大なデータを扱う b. センサー、動画など多様なデータを扱う c. 多数の機械学習モデルを本番環境で運用
2. DRIVE CHARTのMLOps a. 実験環境 b. 本番環境 c. Data-Centric AI 3. 今後の発展に向けて a. データの民主化、さらにその先へ b. ゼロETLはデータエンジニアリングの夢を見るか 20
文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc. 21