Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発
Search
Kohei Iwamasa
November 06, 2024
3.1k
5
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発
Kohei Iwamasa
November 06, 2024
More Decks by Kohei Iwamasa
See All by Kohei Iwamasa
numpyやPyTorchの配列にdtypeとshapeをアノテーションするjaxtypingのススメ
koheiiwamasa
4
2.1k
[関西Kaggler会2025#2LT] 初学者+MLエンジニア対象! モダンなPythonの書き方
koheiiwamasa
5
4.5k
[Turing Inc.] DUSt3R勉強会
koheiiwamasa
1
2k
Polarsで始める時系列データ処理 #atmaCup 19 振り返り会 LT枠
koheiiwamasa
2
780
自動運転開発の実験管理とKagglerたちの実験管理術
koheiiwamasa
1
760
FiT3D: Improving 2D Feature Representations by 3D-Aware Fine-Tuning - 第62回 コンピュータビジョン勉強会 ECCV論文読み会
koheiiwamasa
0
460
LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving - ICLR2024論文読み会
koheiiwamasa
0
1.2k
Unsupervised_3D_Perception_with_2D_Vision-Language_Distillation_for_Autonomous_Driving_CV勉強会
koheiiwamasa
3
640
大規模走行データを 効率的に活用する検索システムの開発 第3回Data-Centric AI勉強会
koheiiwamasa
0
1.3k
Featured
See All Featured
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
240
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
71
40k
Principles of Awesome APIs and How to Build Them.
keavy
128
18k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
4 Signs Your Business is Dying
shpigford
187
22k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
140
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
430
sira's awesome portfolio website redesign presentation
elsirapls
0
280
Designing for Performance
lara
611
70k
The Cost Of JavaScript in 2023
addyosmani
55
10k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
470
Transcript
近年のData-Centricな ⾃動運転AI開発 Turing株式会社 IBIS2024 ビジネスと機械学習
• 岩政 公平 • チューリング株式会社 E2E⾃動運転チーム MLエンジニア ◦ 2022年8⽉~ インターン
◦ 2023年4⽉~ ⼊社 • Kaggle Tier: Kaggle Competitions Master ⾃⼰紹介
会社概要 名称 Turing株式会社 創業 2021年8月20日 事業内容 完全自動運転 AIの開発 本社所在地
東京都品川区大崎1丁目11−2 ゲートシティ大崎 イースト棟4階 資本金 3000万円(累計60億円調達) 社員数 社 員 数 55 名 (正社員44名、アルバイト・インターン 11名)
チューリングの⽣成AI開発 Vision-Language Modelの開発 世界モデル“Terra”の開発 • 様々な画像エンコーダ、アダプタ、LLMを 組み合わせて学習可能なフレームワーク “Heron”の公開( turingmotors/heron) •
Vision情報をもとに、運転環境の キャプションと運転計画情報を含む Vision-Language-Actionデータセットの “CoVLA Dataset”の公開(WACV2025に採択) • 現実世界を理解し予測する世界モデル • 将来の経路情報による条件付けも可能
GPUリソース GENIACプロジェクト 2024/2~8 ⾃社GPUクラスタ “Gaggle Cluster” • H100 96基 •
ノード間通信‧ストレージI/Oの最⼤化 • HPC的なジョブ管理システム https://www.meti.go.jp/policy/mono_info_service/geniac/index.html • 国内の代表的なAI開発事業者を政府が⽀援 • GCP上の⼤量のH100ノードを利⽤可能
Tokyo30 2025年末までに、カメラと AIだけで 東京エリアを30分以上介入なしで走行し続ける自 動運転モデルを開発します
チューリングが開発しているモデル Tokyo30プロジェクトを達成するためにEnd-to-Endモデル “TD-1”を開発中
End-to-End(E2E)⾃動運転とは? 物体認識 運動予測 ⾏動計画 End-to-End型アプローチ: 単⼀のモデルで全体最適化可能なアプローチ モジュラー型アプローチ: モジュールごとに閉じた最適化を⾏うアプローチ 物体認識 運動予測
⾏動計画 佐藤 育郎 (2024), “⾃動運転のためのビジョン技術”, 第27回画像の認識‧理解シンポジウム MIRU2024.
E2Eモデル (1) UniAD [Hu+ CVPR2023] 物体検出 マップ予測 運動予測 Occupancy予測 ⾏動計画
• 複数カメラ画像を⼊⼒に、マルチタスクを同時最適化する単⼀のモデル • 各モジュールごとにQueryを持ち、別のモジュールにはKey, Valueとして渡す設計 ◦ Transformer Decoderをベースとした構造 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ BEV特徴
UniAD [Hu+ CVPR2023] OpenDriveLab, “UniAD Sampled Visualization”. https://www.youtube.com/watch?v=1nkiSXrwEvY
E2Eモデル (2) VAD [Jiang+ ICCV2023] • ⾛⾏シーンを全てベクターとする • ⾏動計画⽤のEgo Queryに対し、
Agent/Map QueryをKey, Valueとして Transformer Decoder構造で処理 • UniADよりも⾼速で⾼精度に PARA-Drive [Weng+ CVPR2024] • 全てのモジュールが並列でもSoTA相当の精度 • 推論時は⾏動計画以外のモジュールを除いて ⾼速化することも可能 (2.77倍⾼速化) • モジュール間の情報のやりとりはBEV特徴を 介して暗黙的に⾏われる UniAD VAD 物体検出 / 運動予測 マップ予測 ⾏動計画 マップ 予測 物体検出 運動予測 Occupancy 予測 ⾏動計画 BEV特徴 Jiang+ (2023), “VAD: Vectorized Scene Representation for Efficient Autonomous Driving”, ICCV 2023.より引⽤ Weng+ (2024), “PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”, CVPR 2024.より引⽤
E2Eモデルを1からつくるには? 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4. E2Eモデルのエッジデバイスでのリアルタイム推論の達成
E2Eモデルを1からつくるには? まずはここから 考えてみる 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4.
E2Eモデルのエッジデバイスでのリアルタイム推論の達成
ハードウェアと教師データの依存の⼀例 ⾃⼰位置 カメラ LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 2次元物体ラベル 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路 教師ラベル • 各タスクの教師ラベルをカメラ画像のみから作成するのは難しい • 必要な教師ラベルと、その教師ラベルをつくるためのハードウェアとの依存関係の(あくまで)⼀例
カメラについて LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル ⾃⼰位置 カメラ 2次元物体ラベル
3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 • 画像を撮影して視覚情報を収集 • 2次元物体のアノテーションや画像を3次元点群に重畳することで 3次元物体ラベルやベクターマップなどを⾼精度にアノテーション • 連続する画像を⽤いて移動量‧姿勢を推定するVisual Odometryを⾃⼰位置推定に活⽤可能 Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル カメラ 2次元物体ラベル LiDARについて ⾃⼰位置 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR • レーザー光を照射して対象物までの距離を3次元点群データとして取得 • 3次元物体や占有状態のアノテーション、ベクターマップは 点群地図を作成して、さらにオルソ画像に変換してアノテーション • 点群地図があればLiDAR点群と位置合わせした⾃⼰位置推定も可能 (オドメトリも計算可能) Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
GPS/GNSS機器 IMU カメラ 2次元物体ラベル ⾃⼰位置 ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR ハードウェア
教師ラベル ミリ波レーダーについて ミリ波レーダー 3次元物体ラベル • 波⻑の短い電波を照射して、対象物の距離‧相対速度を計測 • 特に動的な3次元物体の速度情報を付与するために活⽤ Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
ミリ波レーダー カメラ 2次元物体ラベル LiDAR ハードウェア 教師ラベル GPS/GNSS機器‧IMUセンサについて GPS/GNSS機器 ⾃⼰位置 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路 IMU • GPS/GNSS機器は衛星信号を受信して位置情報を測定し、IMUは加速度‧⾓速度を 測定して他のセンサで推定した移動量‧姿勢と合わせて⾃⼰位置推定 • 多くの教師ラベルで⾃⼰位置の情報や、時間ごとの移動量が必要
学術データセット nuScenes [Caesar+ CVPR2020] • 1シーン20秒(アノテーション付きは約40フレーム)からなる1,000シーンの⾃律運転データセット ◦ これまで紹介したE2Eモデルは全てnuScenesでベンチマークスコアを測定 • センサ構成
◦ 6x カメラ ◦ 1x 回転式LiDAR ◦ 5x ミリ波レーダー ◦ GPS/IMU機器 • 多様なアノテーション ◦ 2次元物体データ (nuImage) ◦ 3次元物体データ‧トラッキング ◦ 3D Semantic Segmentation ◦ Occupancy (SurroundOcc [Wei+ ICCV2023]) ◦ ベクターマップ など Caesar+ (2020), “nuScenes: A multimodal dataset for autonomous driving”, CVPR2020. より引⽤ Wei+ (2023), “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving”, ICCV2023.
nuScenesの課題 シーンの多様性がどうしても少ない • ⾏動計画において前⽅⽅向に直進する 経路が集中している (AD-MLP[Zhai+ 2023]) ◦ 約70%もの経路が直線⽅向 •
データ量は時間換算で約5.6時間と少ない ◦ ⾏動計画⽤のデータセットとして1,500時間分のnuPlan[Caesar+ 2021]が公開されているものの、 センサデータではなく物体検出された後のためE2Eモデルの学習には不向き ◦ (そもそも1,000時間程度のデータでE2Eモデルを学習するには莫⼤な計算リソースが必要...) 多様性に富んだ質が⾼い⼤量のデータを収集する必要がある あと計算リソースも必要 Zhai+ (2023), “Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes”.より引⽤ Caesar+ (2021), “NuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles”. 3秒間の経路のパターン 3秒後の⽅位⾓の変化 約70%が 直進⽅向
実際にE2Eモデルを作ってみよう!
E2Eモデル開発 実際にE2Eモデル開発を⾏うとモデル開発以外の領域が多い Sculley+ (2015), “Hidden Technical Debt in Machine Learning
Systems”, NeurIPS2015. より引⽤
E2Eモデル開発まで必要なこと データ収集⾞ アノテーション データ準備 モデル学習 • センサ構成決め • センサの配置 •
キャリブレーション • 収集⾞の施⼯ • メンテナンス • 異常データ検知 • データアップロード • ⾛⾏ルート⽣成 • データ正規化 • メタデータ付与 • キャプショニング • 埋め込みベクトル化 • データバリデーション • 学習データセット作成 ツール • 2次元物体ラベル • 3次元物体ラベル • ベクターマップ • 占有状態 • オートラベリング • E2Eモデル開発 • E2Eモデル学習 • 実験管理 • SDK • 可視化ツール • モデルデプロイ • リアルタイム推論 • 制御 など ⾞両側 クラウド上 モデル運⽤
データ収集⾞ カメラ GNSS LiDAR • ⾞両はトヨタ アルファード • センサ構成 ◦
8x カメラ ◦ 1x 回転式LiDAR ◦ 1x RTK-GNSSセンサ • 1台1⽇あたり10時間のデータ収集 • 様々な要因によりセンサ構成‧収集データを 変更(現状はversion 3で安定稼働中) データ収集⾞の構成 5⽉ 6⽉ 7⽉ 8⽉ 9⽉ 10⽉ version 1 version 2 version 3
ここで⼀句
キャリブレーションの⾃動化 LiDAR-カメラキャリブレーション • ⾞両によってセンサ配置の個体差が⽣じることや、E2Eモデルの⼊⼒にセンサ間の位置関係が必要 • カメラの内部パラメータとLiDAR-カメラの相対的な位置関係をターゲットレスで最適化可能に LiDAR 点群マップ 点群同⼠を⼀致させるパラメータ推定 RGB点群
データパイプライン データ収集 データ準備 モデル学習
収集データの可視化 収集したデータの⾛⾏経路やデータの詳細を確認できる社内向けサービスの開発
データバリデーション version 2 version 3 収集データに異常がないかバリデーションを⾏う
アノテーション 収集したデータをもとに各タスク⽤のアノテーションを⾏う 3次元物体検出アノテーション ベクターマップアノテーションの可視化
SDK開発 • 作成した学習データセットの操作を簡単にするSDKの開発 • Jupyter Notebookなどで可視化が可能 3次元物体検出の可視化 マップラベルの可視化
ようやくデータの準備完了! 次はE2Eモデル学習
E2Eモデル:
定性的なモデルの評価(1) 4,000フレーム 16,000フレーム
定性的なモデルの評価(2) 16,000フレーム 40,000フレーム (nuScenes相当)
定量的なモデルの評価 • E2Eモデルの改善もありつつもデータの品質や量を増やす • 14,000フレーム→40,000フレームに増やすことで精度改善 ◦ 3次元物体検出スコア(mAP): 0.1156 → 0.1733
◦ マップ予測スコア(mAP) : 0.2823 → 0.5974 epoch epoch mAP mAP 3次元物体検出 マップ予測
実際に学習したモデルで⾛⾏する ⾛⾏試験場で学習したE2Eモデルで⾛⾏テスト
今後の課題
今後の課題とData-Centric AI • 1,000時間以上の学習データに対して全て⼈⼿でアノテーションはコスト⾼ オートラベリングが必要 3次元物体検出におけるオートラベリング • オートラベリングモデルは以下の制約がない ◦ リアルタイム推論が必要
→ クラウド上で動作 ◦ 未来の情報が使えない → 使える ◦ LiDAR点群を使えない → 使える ⾼精度なオートべリングモデルが必要 3次元物体検出のオートラベリング結果
今後の課題とData-Centric AI • ⾛⾏シーンにはレアな交通エージェントがある (e.g., 電動キックボード, 緊急⾞両) • シーンにメタデータを付与して検索可能にする ◦
2次元物体検出の結果 ◦ 画像や動画としてのキャプショニング ◦ CLIP [Radford+ 2021] によるImage embedding 多様性サンプリング Radford+ (2021), “Learning Transferable Visual Models From Natural Language Supervision” • 現状のモデルの出⼒で“不確実性”が⾼いサンプルを選ぶ ◦ 確率分布の分布形状での評価 ◦ 複数のモデルの推論結果のばらつきで評価 ◦ 定性的な評価 不確実性サンプリング ラベルなしデータ ラベル付きデータ アノテータ モデル サンプリング 能動学習(Active Learning)
今後の課題とData-Centric AI サンプリング • メタデータをもとに、信号機が写って いる画像フレームを検索 • 少数クラスの物体は、出現した場所 付近にもあるはず、という仮定のもと サンプリング
半⾃動アノテーション • オートラベリングの結果をアノテーションツール上で先にラベリングする →アノテーション業務の効率化とモデルが苦⼿なシーンを修正することができる チューリングの能動学習の例: 信号機認識 夜の⻩⾊信号も検出
今後の課題とData-Centric AI マップにおけるオートラベリング • ⽇本全体のマップを作成するコスト⾼ • 連続しないシーンのカメラ画像から ベクターマップを作成する検証を ⾏っている 学習ベースの⾏動計画の教師データに対するData-Centricなアプローチ
• そもそも⾏動計画の評価が難しい ◦ オープンループ評価‧クローズドループ評価は相関しない • モデルの推論結果とエラー率が⾼いシーン ≠ Hard Example • どういうシーンが “ノイジー” なのか評価する必要がある
None