Slide 1

Slide 1 text

© GO Inc. 第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性 のあるデータの作り方 2023/6/1

Slide 2

Slide 2 text

© GO Inc. 2 自己紹介 GO株式会社 スマートドライビング事業本部 システム開発部 AI基盤グループ 森本 淳司 2021年 GO株式会社に入社 AI基盤グループで次世代AIドラレコサービス『DRIVE CHART』 のMLOps業務に従事

Slide 3

Slide 3 text

2020年4月、JapanTaxi株式会社とDeNAのMOV/DRIVE CHART 事業などが統合して誕生。 
 2023年4月、社名を「株式会社Mobility Technologies」 
 から「GO株式会社」に変更しました。
 
 「移動で人を幸せに。」 をミッションに、ソフトウェアと 
 ハードウェアの両軸から移動の未来を創造しています。 
 
 https://goinc.jp/

Slide 4

Slide 4 text

© GO Inc. 1. 次世代AIドラレコサービス『DRIVE CHART』について 2. Data-Centric AIについて復習 3. 『DRIVE CHART』における一貫性のある データの作り方 4 本日お話すること

Slide 5

Slide 5 text

© GO Inc. AIドラレコ DRIVE CHART 01

Slide 6

Slide 6 text

© GO Inc. AIドラレコ DRIVE CHARTとは タクシーやトラックなど商用車に向けた AI活用の交通事故削減支援サービス DRIVE CHART 一時不停止・脇見等の様々なリスク運転をAIが検知

Slide 7

Slide 7 text

© GO Inc. AIドラレコ DRIVE CHARTの仕組み 7 外向きカメラ 3軸加速度 センサ 3軸角速度 センサ GPS 内向きカメラ レポートサーバ 地図 参考:DRIVE CHARTを支える技術(内田、2020) https://www.slideshare.net/ren4yu/drive-chartai-2393 11682 レポートシステム レポート アルゴリズム 深層学習モデル エッジAIライブラリ コンピュータ ビジョン

Slide 8

Slide 8 text

© GO Inc. ● 2019年6月のリリース以降、日々導入事業者が増加しています ● 契約車両5万台突破 ● 運転が生業のタクシー・物流事業者をはじめ、営業車や介護送迎車両など幅広く導入 ● DRIVE CHART搭載車両が日本中を走行、1日で高速道路の約9割・一般国道の約7割を網羅 DRIVE CHART 契約台数が大幅に伸長

Slide 9

Slide 9 text

© GO Inc. Data-Centric AI について復習 02

Slide 10

Slide 10 text

© GO Inc. ● データラベル付けにおいて一貫性のある定義をする(曖昧性のないラベルを定義) ● データの重要なケースをカバー(レアケースなど入力を十分にカバー) ● 本番データからのタイムリーなフィードバック ○ データ分布がデータドリフト、コンセプトドリフトをカバーしている ● サイズが適切 10 Data-Centric AIまとめ https://www.youtube.com/watch?v=06-AZXmwHjo&t=2625s

Slide 11

Slide 11 text

© GO Inc. ● アノテーターによってラベルの付け方が異なる場合がある ● 偏りのないラベル付けが必要 11 ラベルの偏りがある場合(イグアナの例) https://www.youtube.com/watch?v=06-AZXmwHjo&t=781s

Slide 12

Slide 12 text

© GO Inc. ● 二人のアノテータに画像のラベルを付けてもらう ● ラベルがばらついた画像などから一貫性を測定する ● クラスごとに一貫性が出るまで、ばらついたラベルのラベル付け方法を修正する 12 システマティックにラベルの一貫性保つ https://www.youtube.com/watch?v=06-AZXmwHjo&t=916s

Slide 13

Slide 13 text

© GO Inc. DRIVE CHART 一貫性のある データの作り方 03

Slide 14

Slide 14 text

© GO Inc. ● 基本的な仕組みで実験用データの収集を実現 ○ エッジデバイスからセンサーデータ、動画を収集 ■ ランダムサンプリングやモデルのconfidenceを用いるなど様々な収集が可能 ○ 実験環境のデータレイクに保管 ○ 弊社アノテーショングループがラベル付け ■ GO株式会社の強み! ○ 実験や継続的学習に使用 14 DRIVE CHARTでの実験データの集め方 外向きカメラ 3軸加速度 センサ 3軸角速度 センサ GPS 内向きカメラ データレイク Amazon S3 Amazon Aurora BigQuery MLOps 実験環境 本番環境 継続的学習 アノテーション 環境

Slide 15

Slide 15 text

© GO Inc. ● AIエンジニアがアノテーションマニュアル作成 ○ 基本的には過去のアノテーション仕様書をもとに作成 ○ 新しいラベル付けはアノテーショングループと最初に密なコミュニケーション ■ 主にはSlackベース ■ 必要に応じてオンラインミーティング ● AIエンジニアが最初のアノテーションをテスト ○ ラベル付で悩むポイントの洗い出し ● アノテータ側も管理者とアノテータ1名でテストアノテーション ○ アノテーショングループによる改善点の共有 ● ラベルが収束し一貫性ができたら大規模展開 ○ フィードバックサイクルをこまめに実施する ● アノテーションツールは自社管理のNotaを使用 ○ https://github.com/dena/nota 15 DRIVE CHARTでの一貫性のあるデータの作りかた アノテーションマ ニュアル作成 テスト アノテーション アノテータと管理者に よるテスト 大規模展開

Slide 16

Slide 16 text

© GO Inc. 1. アノテーション実施 2. 実験進捗 3. さらなる実験のために新たにデータを追加しアノテーション実施 ● 過去の失敗 ○ 2. ~ 3.を繰り返すことでデータバージョンの変化に伴いラベルの細分化や属性の追加削除が行 われる場合がある ○ DataLoader等でフォーマットの差分を吸収していたがコードの運用等で複雑になりがち ○ 結果的に過去分データセットのなかで必要な量のアノテーションを再実施 ● 学び ○ データセット単位でのラベルの一貫性を担保 ■ ラベルが収束するまでフィードバックを繰り返す ■ Andrew Ng氏の講義やDRIVE CHARTの例からも様々な方法がある ○ プロジェクト単位でのアノテーション仕様の一貫性を担保 ■ 新規プロジェクトの場合、理想のフォーマットに到達するためには試行錯誤が必要 ■ 対処療法を積み重ねるよりは都度あるべき姿に修正したほうが運用ストレスは少ない 中長期プロジェクト視点での一貫性のあるデータの作り方

Slide 17

Slide 17 text

© GO Inc. 17 GO株式会社で一緒に開発しませんか https://hrmos.co/pages/goinc/jobs

Slide 18

Slide 18 text

文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc.