Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性のあるデータの作り方
Search
moyomot
June 01, 2023
1.1k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性のあるデータの作り方
moyomot
June 01, 2023
More Decks by moyomot
See All by moyomot
DRIVE CHARTのMLOpsを体感しよう
moyomot
0
200
現場課題に向き合い MLOps成熟度を高める道
moyomot
1
1.1k
DRIVE CHARTにおけるAI開発とアーキテクチャ全容
moyomot
0
1.3k
これからの強化学習2.7
moyomot
0
150
これからの強化学習2.6
moyomot
0
220
Gunosyのデータ分析基盤、ログ基盤の全容
moyomot
14
9.7k
GunosyにおけるSparkStreaming活用事例
moyomot
1
5.4k
トピックモデル第2章
moyomot
0
340
adhoc analysis apache spark
moyomot
1
1.2k
Featured
See All Featured
Crafting Experiences
bethany
1
180
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
160
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
8.2k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
200
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
The World Runs on Bad Software
bkeepers
PRO
72
12k
We Have a Design System, Now What?
morganepeng
55
8.2k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
610
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
BBQ
matthewcrist
89
10k
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.5k
Transcript
© GO Inc. 第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性 のあるデータの作り方 2023/6/1
© GO Inc. 2 自己紹介 GO株式会社 スマートドライビング事業本部 システム開発部 AI基盤グループ 森本
淳司 2021年 GO株式会社に入社 AI基盤グループで次世代AIドラレコサービス『DRIVE CHART』 のMLOps業務に従事
2020年4月、JapanTaxi株式会社とDeNAのMOV/DRIVE CHART 事業などが統合して誕生。 2023年4月、社名を「株式会社Mobility Technologies」 から「GO株式会社」に変更しました。 「移動で人を幸せに。」
をミッションに、ソフトウェアと ハードウェアの両軸から移動の未来を創造しています。 https://goinc.jp/
© GO Inc. 1. 次世代AIドラレコサービス『DRIVE CHART』について 2. Data-Centric AIについて復習 3.
『DRIVE CHART』における一貫性のある データの作り方 4 本日お話すること
© GO Inc. AIドラレコ DRIVE CHART 01
© GO Inc. AIドラレコ DRIVE CHARTとは タクシーやトラックなど商用車に向けた AI活用の交通事故削減支援サービス DRIVE CHART
一時不停止・脇見等の様々なリスク運転をAIが検知
© GO Inc. AIドラレコ DRIVE CHARTの仕組み 7 外向きカメラ 3軸加速度 センサ
3軸角速度 センサ GPS 内向きカメラ レポートサーバ 地図 参考:DRIVE CHARTを支える技術(内田、2020) https://www.slideshare.net/ren4yu/drive-chartai-2393 11682 レポートシステム レポート アルゴリズム 深層学習モデル エッジAIライブラリ コンピュータ ビジョン
© GO Inc. • 2019年6月のリリース以降、日々導入事業者が増加しています • 契約車両5万台突破 • 運転が生業のタクシー・物流事業者をはじめ、営業車や介護送迎車両など幅広く導入 •
DRIVE CHART搭載車両が日本中を走行、1日で高速道路の約9割・一般国道の約7割を網羅 DRIVE CHART 契約台数が大幅に伸長
© GO Inc. Data-Centric AI について復習 02
© GO Inc. • データラベル付けにおいて一貫性のある定義をする(曖昧性のないラベルを定義) • データの重要なケースをカバー(レアケースなど入力を十分にカバー) • 本番データからのタイムリーなフィードバック ◦
データ分布がデータドリフト、コンセプトドリフトをカバーしている • サイズが適切 10 Data-Centric AIまとめ https://www.youtube.com/watch?v=06-AZXmwHjo&t=2625s
© GO Inc. • アノテーターによってラベルの付け方が異なる場合がある • 偏りのないラベル付けが必要 11 ラベルの偏りがある場合(イグアナの例) https://www.youtube.com/watch?v=06-AZXmwHjo&t=781s
© GO Inc. • 二人のアノテータに画像のラベルを付けてもらう • ラベルがばらついた画像などから一貫性を測定する • クラスごとに一貫性が出るまで、ばらついたラベルのラベル付け方法を修正する 12
システマティックにラベルの一貫性保つ https://www.youtube.com/watch?v=06-AZXmwHjo&t=916s
© GO Inc. DRIVE CHART 一貫性のある データの作り方 03
© GO Inc. • 基本的な仕組みで実験用データの収集を実現 ◦ エッジデバイスからセンサーデータ、動画を収集 ▪ ランダムサンプリングやモデルのconfidenceを用いるなど様々な収集が可能 ◦
実験環境のデータレイクに保管 ◦ 弊社アノテーショングループがラベル付け ▪ GO株式会社の強み! ◦ 実験や継続的学習に使用 14 DRIVE CHARTでの実験データの集め方 外向きカメラ 3軸加速度 センサ 3軸角速度 センサ GPS 内向きカメラ データレイク Amazon S3 Amazon Aurora BigQuery MLOps 実験環境 本番環境 継続的学習 アノテーション 環境
© GO Inc. • AIエンジニアがアノテーションマニュアル作成 ◦ 基本的には過去のアノテーション仕様書をもとに作成 ◦ 新しいラベル付けはアノテーショングループと最初に密なコミュニケーション ▪
主にはSlackベース ▪ 必要に応じてオンラインミーティング • AIエンジニアが最初のアノテーションをテスト ◦ ラベル付で悩むポイントの洗い出し • アノテータ側も管理者とアノテータ1名でテストアノテーション ◦ アノテーショングループによる改善点の共有 • ラベルが収束し一貫性ができたら大規模展開 ◦ フィードバックサイクルをこまめに実施する • アノテーションツールは自社管理のNotaを使用 ◦ https://github.com/dena/nota 15 DRIVE CHARTでの一貫性のあるデータの作りかた アノテーションマ ニュアル作成 テスト アノテーション アノテータと管理者に よるテスト 大規模展開
© GO Inc. 1. アノテーション実施 2. 実験進捗 3. さらなる実験のために新たにデータを追加しアノテーション実施 •
過去の失敗 ◦ 2. ~ 3.を繰り返すことでデータバージョンの変化に伴いラベルの細分化や属性の追加削除が行 われる場合がある ◦ DataLoader等でフォーマットの差分を吸収していたがコードの運用等で複雑になりがち ◦ 結果的に過去分データセットのなかで必要な量のアノテーションを再実施 • 学び ◦ データセット単位でのラベルの一貫性を担保 ▪ ラベルが収束するまでフィードバックを繰り返す ▪ Andrew Ng氏の講義やDRIVE CHARTの例からも様々な方法がある ◦ プロジェクト単位でのアノテーション仕様の一貫性を担保 ▪ 新規プロジェクトの場合、理想のフォーマットに到達するためには試行錯誤が必要 ▪ 対処療法を積み重ねるよりは都度あるべき姿に修正したほうが運用ストレスは少ない 中長期プロジェクト視点での一貫性のあるデータの作り方
© GO Inc. 17 GO株式会社で一緒に開発しませんか https://hrmos.co/pages/goinc/jobs
文章・画像等の内容の無断転載及び複製等の行為はご遠慮ください。 © GO Inc.