DRIVE CHART における OSS を活用した実践 AI 開発【DeNA TechCon 2023】

DRIVE CHART における OSS を活用した実践 AI 開発株式会社Mobility Technologies
スマートドライビング事業部システム開発部AI基盤グループ石井健太朗

Table of Contents 01｜Mobility Technologiesについて 2 02｜DRIVE CHARTについて 03｜DRIVE CHARTのAI開発の特徴
04｜OSSを活用したAI開発

Moblility Technologiesについて 2020年 4月 JapanTaxi社とDeNAのMOV/DRIVE CHART事業などが統合し株式会社Mobility Technologiesとして始動。 Mobility Technologiesは「移動で人を幸せに。」をミッションに、
日本のモビリティ産業をアップデートする様々なITサービスの提供を行っています。 4

タクシーアプリ『GO』 5

タクシーを起点に、より大きな課題の解決に向かう 6

事業展開 7

Table of Contents 01｜Mobility Technologiesについて 8 02｜DRIVE CHARTについて 03｜DRIVE CHARTのAI機能の特徴

DRIVE CHARTについて AIを搭載したドラレコによる事故防止支援サービス AIが様々な危険シーンを検知して、普段の運転行動を分析 9

DRIVE CHARTは危険シーンを抽出しWebでレポート確認 ▪ AIにより危険シーンを抽出 ▪ Webで簡単に該当シーンの動画を閲覧 ▪ 運転行動をレポート表示 10

企業は社有車の事故を防止する必要がある ▪ 社員が社有車で事故を起こせば会社の責任 ▪ 企業は事故を起こさないための仕組みづくりが必要 ▪ やみくもに事故削減活動を行ってもキリがない ▪ すべての運転記録をチェックするのは現実的ではない ▪
社員それぞれの事故のリスクを把握し効率・効果的な指導、改善が求められる ▪ 運転の癖を可視化し、社員ごとに指導内容をカスタマイズできる 11 https://drive-chart.com/magazines/mg_220131

事故削減に向けたDRIVE CHARTの考え方 ▪ 「軽度のリスク運転行動」を徹底的に減らすことで「重度のリスク運転行動」が自ずと減り、最終的に「事故」が減ることを想定 ▪ 「軽度のリスク運転行動」を駆逐するための改善を継続的に行うことで事故削減の実現を目指す 12 法令違反別交通事故割合（2019年）ハインリッヒの法則

DRIVE CHARTが提供する代表的な機能 ▪ 危険シーン検知 ▪ 脇見運転、車間距離不足、一時不停止、速度超過、急ハンドル、急加速、急減速、急後退 ▪ 日報・月報自動作成機能 ▪ 車両別
/ ドライバー別の走行データをもとに日報 / 月報を生成 ▪ ライブマップ機能 ▪ 車両の位置、直近のリスク運転が発生した場所を地図上に描画 ▪ ヒヤリハット通知メール ▪ 危険度が高い項目の検出時には警報でドライバーに知らせ、管理者にもメール通知 13

DRIVE CHARTのAI 15 • エッジからクラウド上のサーバーまであらゆる環境・目的で動作する機械学習モデル • センサーデータやGPSデータ、動画など多様なデータを扱うイベント検出モデル急加速急減速
急ハンドル⼀時不停⽌速度超過⾞間距離不⾜脇⾒急後退検出結果エッジデバイスクラウドサーバーデータベースやS3 外カメ画像検出結果内カメ画像深層学習モデルセンサー加速度センサ、ジャイロセンサ GPS 動画

エッジAIとは 18 クラウド上にある高性能サーバーと離れた場所に配置され、ネットワークで接続されている端末をエッジ端末といい、 DRIVE CHARTの場合ドライブレコーダーを指す。エッジAIはエッジ端末上で推論処理を行うAI。クラウドエッジ端末エッジAI

DRIVE CHARTのAI開発の特徴 19 様々なバックボーンを持った開発メンバー • CV(コンピュータビジョン) • データサイエンス • エッジAI開発
• サーバーサイド開発

DRIVE CHARTのAI開発の特徴 20 様々なバックボーンを持った開発メンバー • CV(コンピュータビジョン) • データサイエンス • エッジAI開発
• サーバーサイド開発余談ですが… 色々な領域にチャレンジできます！採用ページ: https://mo-t.com/career/ CVモデル開発サーバーサイドAI の推論高速化エッジアプリケーション開発

今日お話すること 22 DRIVE CHARTではどのようにOSSを活用しながらAI開発を促進しているかを DRIVE CHARTでのAI開発の流れに沿ってステップごとにお話します STEP 1: データ収集・加工 STEP
2: モデル開発・学習 STEP 3: 推論・モニタリング

4: データ収集・加工 23 データ収集・加工モデル開発・学習推論・モニタリング

データ収集・加工 24 アノテーション: 教師あり学習を行う場合、学習データは機械学習モデルの入力となる特徴量に対して教師ラベルが付与されている必要がある特徴量に対して必ず教師ラベルがついているデータ(購買履歴など)も存在するが、ついていないものもあるそういったデータには人間がデータを見ながら手動で正解となるラベルをつける必要がある。その作業をアノテーションと呼ぶデータ収集・加工モデル開発・学習推論・モニタリング
DRIVE CHARTでは以下のようなアノテーションが行われている - 脇見した時刻のアノテーション - 顔のランドマーク(目や鼻など)のアノテーション - 前方にある車両のアノテーション等々… アノテーションの例

Nota 25 DeNA社製のCV専用OSSアノテーションツール Notaはチームでアノテーションを行う際の機能が充実しており、効率的なアノテーションができるようになっている • データセットをタスク単位に分割し、アノテーターにアノテーションを依頼することができる • アノテーションの定義をテンプレートを使用することで柔軟に変更できる Nota 前述のチームの存在と、チームによるアノテーション作業の効率を高めるNotaに
より、高品質なアノテーションデータを量産することができるデータ収集・加工モデル開発・学習推論・モニタリング Notaのアノテーション画面

Notaを利用したアノテーションフロー 26 ストレージ ① アノテーション用動画のデータセット作成 CVエンジニア / データサイエンティスト ④
タスク振り分け ② アノテーション仕様書を作成しアノテーションを依頼データ収集・加工モデル開発・学習推論・モニタリングアノテーション管理者 ③ タスクを作成アノテーター ⑤ アノテーション

4: モデル開発・学習 31 データ収集・加工モデル開発・学習推論・モニタリング

DRIVE CHARTでのモデル開発・学習データ収集・加工モデル開発・学習推論・モニタリングフェーズ1: 機械学習モデルの開発・学習フェーズ2: 実データを使用した検証実験

機械学習モデルの開発・学習データ収集・加工モデル開発・学習モデルの開発・学習ではClearMLという実験管理ツールを使用している推論・モニタリング動画センサーデータ GPSデータエッジAI推論データ学習
実験データを記録実験結果を確認

ClearML 35 • Allegro AI社製の実験管理ツール • 標準的な実験管理ツールに含まれる機能は全て備わっている ◦ メトリクスの記録 ◦
ハイパーパラメータの記録 ◦ 過去の実験の検索 ◦ 実験同士の比較 ◦ … • それらに加えて、実験の再現性を高めるための機能が充実 ◦ 未コミットのソースコードの記録 ◦ ライブラリやPythonのバージョンの記録データ収集・加工モデル開発・学習推論・モニタリング

ClearML 36 データ収集・加工モデル開発・学習推論・モニタリング ※ ClearML 公式Documentより引用(https://clear.ml/docs/latest/docs/deploying_clearml/clearml_server) ClearML ClearMLの構成図

DRIVE CHARTチームではAWS環境上にホスティングしており、データサイエンティストやCVエンジニアが利用している ClearML 37 データ収集・加工モデル開発・学習推論・モニタリング AWS Cloud VPC
Private subnet Public subnet Web UI用エンドポイント(ALB) web web用portのみアクセス許可実験インスタンス api/file server portのみアクセス許可実験インスタンスからのアクセス用エンドポイント(ALB) api file アーティファクトを保存 clearml server(https://github.com/allegroai/clearml-server)をフォークし、マネージドサービスと連携できるよう修正しビルドしたイメージ + redis

ClearML 38 データ収集・加工モデル開発・学習推論・モニタリング AWS Cloud VPC Private subnet
Public subnet Web UI用エンドポイント(ALB) web web用portのみアクセス許可実験インスタンス api/file server portのみアクセス許可実験インスタンスからのアクセス用エンドポイント(ALB) api file アーティファクトを保存 clearml server(https://github.com/allegroai/clearml-server)をフォークし、マネージドサービスと連携できるよう修正しビルドしたイメージ + redis ClearML DRIVE CHARTチームではAWS環境上にホスティングしており、データサイエンティストやCVエンジニアが利用している

Public subnet Web UI用エンドポイント(ALB) web web用portのみアクセス許可実験インスタンス api/file server portのみアクセス許可実験インスタンスからのアクセス用エンドポイント(ALB) api file アーティファクトを保存 clearml server(https://github.com/allegroai/clearml-server)をフォークし、マネージドサービスと連携できるよう修正しビルドしたイメージ + redis DRIVE CHARTチームではAWS環境上にホスティングしており、データサイエンティストやCVエンジニアが利用している

ClearMLの機能 41 データ収集・加工モデル開発・学習推論・モニタリング実験間でメトリクスを比較

ClearMLの機能 42 データ収集・加工モデル開発・学習推論・モニタリング実験間でハイパーパラメータを比較

ClearMLの機能 43 データ収集・加工モデル開発・学習推論・モニタリングログをWeb UI上で確認

ClearMLの機能 44 データ収集・加工モデル開発・学習推論・モニタリングソースコードの未コミット部分を記録

ClearMLの機能 45 データ収集・加工モデル開発・学習推論・モニタリング Pythonや使用したライブラリのバージョンを記録

DRIVE CHARTでのAI開発データ収集・加工モデル開発・学習推論・モニタリングフェーズ1: 機械学習モデルの開発フェーズ2: 実データを使用した検証実験

実データを使用した検証実験 47 モデルやパラメータの変更、検出ロジックの調整などを行った場合、最終的なリスク運転検出数にどのような変化があるかを確認する必要がある。たとえば… データ収集・加工モデル開発・学習推論・モニタリングイベント検出モデル急加速急減速
急ハンドル⼀時不停⽌速度超過⾞間距離不⾜脇⾒急後退検出結果エッジデバイスクラウドサーバーデータベースや S3 外カメ画像検出結果内カメ画像深層学習モデルセンサー加速度センサ、ジャイロセンサ GPS 動画デプロイ新しいCVモデルを実装 & 学習

実データを使用した検証実験 48 モデルやパラメータの変更、検出ロジックの調整などを行った場合、最終的なリスク運転検出数にどのような変化があるかを確認する必要がある。たとえば… データ収集・加工モデル開発・学習推論・モニタリングイベント検出モデル急加速急減速
急ハンドル⼀時不停⽌速度超過⾞間距離不⾜脇⾒急後退検出結果エッジデバイスクラウドサーバーデータベースや S3 外カメ画像検出結果内カメ画像深層学習モデルセンサー加速度センサ、ジャイロセンサ GPS 動画新しいCVモデルを実装 & 学習デプロイここにも影響が出る！モデルへの入力が変化し…

実データを使用した検証実験 49 データ収集・加工仮に仮想マシン上で全ての作業を手作業で行おうとすると… モデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

実データを使用した検証実験 50 データ収集・加工仮に仮想マシン上で全ての作業を手作業で行おうとすると… • 実験に使用するデータをリストアップしてストレージからダウンロードモデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある
→ 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

実データを使用した検証実験 51 データ収集・加工仮に仮想マシン上で全ての作業を手作業で行おうとすると… • 実験に使用するデータをリストアップしてストレージからダウンロード • モデルのウェイトファイルのダウンロードモデル開発・学習推論・モニタリング
通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

実データを使用した検証実験 52 データ収集・加工仮に仮想マシン上で全ての作業を手作業で行おうとすると… • 実験に使用するデータをリストアップしてストレージからダウンロード • モデルのウェイトファイルのダウンロード • 検出処理を実装しているリポジトリのクローン
& チェックアウトモデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

& チェックアウト • 設定ファイルを書き換えモデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

& チェックアウト • 設定ファイルを書き換え • イメージをビルドモデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

& チェックアウト • 設定ファイルを書き換え • イメージをビルド • 処理を順番に実行モデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する

& チェックアウト • 設定ファイルを書き換え • イメージをビルド • 処理を順番に実行モデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する変更前後で結果の比較を行いたい場合、×2

& チェックアウト • 設定ファイルを書き換え • イメージをビルド • 処理を順番に実行モデル開発・学習推論・モニタリング通常のAI開発における単体のモデルの精度確認だけでなく、システム全体のリスク検出数への影響を実験により検証する必要がある → 大量の実データに対して変更前後の検出処理を実行し、リスク検出数の変化を比較・確認する変更前後で結果の比較を行いたい場合、×2 ← 本当に全てのデータをダウンロードできていた？ ← 間違ったバージョン使ってない？ ← ブランチ間違ってない？ ← 設定間違ってない？ ← ビルド手順あってる？ ← 順番あってる？結果が違うけど設定間違ってたのかも？どうやってそれを後から確認するんだっけ？

実データを使用した検証実験 58 データ収集・加工要件: • 準備に必要な作業が多いので、それらを自動化する • 実験の設定を容易に変更でき、後から確認することができるモデル開発・学習推論・モニタリング

実データを使用した検証実験 59 データ収集・加工要件: • 準備に必要な作業が多いので、それらを自動化する • 実験の設定を容易に変更でき、後から確認することができる • デバイス上で実行するように開発されたエッジAIをサーバーで実行できるようにする
• 複数の実験が同時に実行されることが想定されるため、負荷が上がっても自動でスケールアウトするモデル開発・学習推論・モニタリング

実データを使用した検証実験 60 データ収集・加工要件: 解決策: Kubeflow Pipelinesを使用した実験パイプラインの使用 • 準備に必要な作業が多いので、それらを自動化する →
イメージのビルドなどの定型処理作業をパイプラインのタスクとして実装し自動化(属人性の排除) • 実験の設定を容易に変更でき、後から確認することができる → Web UI上から変更。実験の履歴を保存することで後から設定値を確認できるようになる • デバイス上で実行するように開発されたエッジAIをサーバーで実行できるようにする → エッジAIをシミュレーションするイメージの利用 • 複数の実験が同時に実行されることが想定されるため、負荷が上がっても自動でスケールアウトする → Kubeflow Pipelinesのスケーラビリティを活用モデル開発・学習推論・モニタリング

Kubeflow Pipelines 61 KubeflowはOSSのMLOpsフレームワーク。Kubeflow Pipelinesはそのコンポーネントの一つパイプライン実行ツールはいくつか存在するものの、以下のような理由でKubeflow Pipelinesを採用 • k8sのスケーラビリティの恩恵を受けられる •
リッチなWeb UI 特に下の理由が重要。実験はパラメータを一部変えたものやモデルのバージョンを変えたものを同時並行で実行するようなケースが多い。 Kubeflow PipelinesのWeb UIは画面上からパラメータを変更する作業が行うことができるデータ収集・加工モデル開発・学習推論・モニタリング

Kubeflow Pipelines 62 データ収集・加工モデル開発・学習推論・モニタリング実験パラメータの設定パイプラインの実行確認

Kubeflow Pipelinesを使用した実験基盤 63 データ収集・加工モデル開発・学習推論・モニタリングエッジAIシミュレーションコンテナ前処理推論出力
ストレージエッジAIモデルによる推論結果を保存検出サーバー前処理検出出力動画データをダウンロードセンサー、GPS、エッジAI推論結果データをダウンロード Test X Test Y ソースコードをクローンしてビルド & デプロイソースコードをクローンしてビルド & デプロイエッジAI開発 repo 検出AI開発 repo 検出結果をDBに登録 ※ エッジAIを変更したケース

4: 実装・学習 69 データ収集・加工モデル開発・学習推論・モニタリング

Redashによる監視 70 一般的なAIプロジェクト同様、推論結果のモニタリングを行っている＋ DRIVE CHART特有の問題として、デバイスの問題(故障していないか等)も監視しておく必要がある監視したい項目は運用を行っていく中で常に増えていくので、 SQLを用意すれば監視項目を追加できるため、サーバーサイドエンジニアの作業抜きで監視が開始できるのでスピーディー定期的にDBからBigQuery上に用意しているデータウェアハウスにデータを同期しており、
それに対して集計処理を実行するデータ収集・加工モデル開発・学習推論・モニタリングデータ収集・加工モデル開発・学習推論・モニタリングデータ同期集計処理

まとめ 71 データ収集・加工モデル開発・学習推論・モニタリングアノテーションチームによるアノテーションデータの量産タスクを作成アノテーション
データセットを作成アノテーションを依頼データセットにアノテーション情報を付与アノテーション管理者アノテーター CVエンジニア/データサイエンティスト

まとめ 72 データ収集・加工モデル開発・学習推論・モニタリングより再現性が高まった実験管理基盤簡単かつ大規模に検証を行うことができる検証実験基盤
実験を記録モデルを保存検証実験デプロイ学習テストB(変更前) テストA(変更後) アノテーション管理者アノテーター CVエンジニア/データサイエンティストアノテーション済み動画データ

まとめ 73 データ収集・加工モデル開発・学習推論・モニタリングデータウェアハウススピーディーに項目を追加できるモニタリング基盤デプロイ
推論・検出テストB(変更前) テストA(変更後) アノテーション管理者アノテーター CVエンジニア/データサイエンティスト CVエンジニア/データサイエンティストサーバーサイドエンジニア監視監視項目の追加集計

まとめ 74 データ収集・加工モデル開発・学習推論・モニタリングデータウェアハウスアノテーションチームによるアノテーションデータの量産より再現性が高まった
実験管理基盤簡単かつ大規模に検証を行うことができる検証実験基盤スピーディーに項目を追加できるモニタリング基盤タスクを作成データセットを作成アノテーションを依頼実験を記録モデルを保存検証実験デプロイ推論・検出学習テストB(変更前) テストA(変更後) データセットにアノテーション情報を付与アノテーション管理者アノテーター CVエンジニア/データサイエンティスト CVエンジニア/データサイエンティストサーバーサイドエンジニア監視監視項目の追加集計

DRIVE CHART における OSS を活用した実践 AI 開発【DeNA TechCon...

DRIVE CHART における OSS を活用した実践 AI 開発【DeNA TechCon 2023】

More Decks by GO Inc. dev

Other Decks in Technology

Featured

Transcript