Slide 1

Slide 1 text

近年のData-Centricな ⾃動運転AI開発 Turing株式会社 IBIS2024 ビジネスと機械学習

Slide 2

Slide 2 text

● 岩政 公平 ● チューリング株式会社 E2E⾃動運転チーム MLエンジニア ○ 2022年8⽉~ インターン ○ 2023年4⽉~ ⼊社 ● Kaggle Tier: Kaggle Competitions Master ⾃⼰紹介

Slide 3

Slide 3 text

会社概要 名称
 Turing株式会社
 創業
 2021年8月20日
 
 事業内容
 完全自動運転 AIの開発
 本社所在地
 東京都品川区大崎1丁目11−2 
 ゲートシティ大崎 イースト棟4階
 資本金
 3000万円(累計60億円調達)
 社員数
 社 員 数 55 名
 (正社員44名、アルバイト・インターン 11名)


Slide 4

Slide 4 text

チューリングの⽣成AI開発 Vision-Language Modelの開発 世界モデル“Terra”の開発 ● 様々な画像エンコーダ、アダプタ、LLMを 組み合わせて学習可能なフレームワーク “Heron”の公開( turingmotors/heron) ● Vision情報をもとに、運転環境の キャプションと運転計画情報を含む Vision-Language-Actionデータセットの “CoVLA Dataset”の公開(WACV2025に採択) ● 現実世界を理解し予測する世界モデル ● 将来の経路情報による条件付けも可能

Slide 5

Slide 5 text

GPUリソース GENIACプロジェクト 2024/2~8 ⾃社GPUクラスタ “Gaggle Cluster” ● H100 96基 ● ノード間通信‧ストレージI/Oの最⼤化 ● HPC的なジョブ管理システム https://www.meti.go.jp/policy/mono_info_service/geniac/index.html ● 国内の代表的なAI開発事業者を政府が⽀援 ● GCP上の⼤量のH100ノードを利⽤可能

Slide 6

Slide 6 text

Tokyo30 2025年末までに、カメラと AIだけで 東京エリアを30分以上介入なしで走行し続ける自 動運転モデルを開発します

Slide 7

Slide 7 text

チューリングが開発しているモデル Tokyo30プロジェクトを達成するためにEnd-to-Endモデル “TD-1”を開発中

Slide 8

Slide 8 text

End-to-End(E2E)⾃動運転とは? 物体認識 運動予測 ⾏動計画 End-to-End型アプローチ: 単⼀のモデルで全体最適化可能なアプローチ モジュラー型アプローチ: モジュールごとに閉じた最適化を⾏うアプローチ 物体認識 運動予測 ⾏動計画 佐藤 育郎 (2024), “⾃動運転のためのビジョン技術”, 第27回画像の認識‧理解シンポジウム MIRU2024.

Slide 9

Slide 9 text

E2Eモデル (1) UniAD [Hu+ CVPR2023] 物体検出 マップ予測 運動予測 Occupancy予測 ⾏動計画 ● 複数カメラ画像を⼊⼒に、マルチタスクを同時最適化する単⼀のモデル ● 各モジュールごとにQueryを持ち、別のモジュールにはKey, Valueとして渡す設計 ○ Transformer Decoderをベースとした構造 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ BEV特徴

Slide 10

Slide 10 text

UniAD [Hu+ CVPR2023] OpenDriveLab, “UniAD Sampled Visualization”. https://www.youtube.com/watch?v=1nkiSXrwEvY

Slide 11

Slide 11 text

E2Eモデル (2) VAD [Jiang+ ICCV2023] ● ⾛⾏シーンを全てベクターとする ● ⾏動計画⽤のEgo Queryに対し、 Agent/Map QueryをKey, Valueとして Transformer Decoder構造で処理 ● UniADよりも⾼速で⾼精度に PARA-Drive [Weng+ CVPR2024] ● 全てのモジュールが並列でもSoTA相当の精度 ● 推論時は⾏動計画以外のモジュールを除いて ⾼速化することも可能 (2.77倍⾼速化) ● モジュール間の情報のやりとりはBEV特徴を 介して暗黙的に⾏われる UniAD VAD 物体検出 / 運動予測 マップ予測 ⾏動計画 マップ 予測 物体検出 運動予測 Occupancy 予測 ⾏動計画 BEV特徴 Jiang+ (2023), “VAD: Vectorized Scene Representation for Efficient Autonomous Driving”, ICCV 2023.より引⽤ Weng+ (2024), “PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”, CVPR 2024.より引⽤

Slide 12

Slide 12 text

E2Eモデルを1からつくるには? 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4. E2Eモデルのエッジデバイスでのリアルタイム推論の達成

Slide 13

Slide 13 text

E2Eモデルを1からつくるには? まずはここから 考えてみる 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4. E2Eモデルのエッジデバイスでのリアルタイム推論の達成

Slide 14

Slide 14 text

ハードウェアと教師データの依存の⼀例 ⾃⼰位置 カメラ LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 2次元物体ラベル 3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 教師ラベル ● 各タスクの教師ラベルをカメラ画像のみから作成するのは難しい ● 必要な教師ラベルと、その教師ラベルをつくるためのハードウェアとの依存関係の(あくまで)⼀例

Slide 15

Slide 15 text

カメラについて LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル ⾃⼰位置 カメラ 2次元物体ラベル 3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 ● 画像を撮影して視覚情報を収集 ● 2次元物体のアノテーションや画像を3次元点群に重畳することで 3次元物体ラベルやベクターマップなどを⾼精度にアノテーション ● 連続する画像を⽤いて移動量‧姿勢を推定するVisual Odometryを⾃⼰位置推定に活⽤可能 Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

Slide 16

Slide 16 text

ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル カメラ 2次元物体ラベル LiDARについて ⾃⼰位置 3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR ● レーザー光を照射して対象物までの距離を3次元点群データとして取得 ● 3次元物体や占有状態のアノテーション、ベクターマップは 点群地図を作成して、さらにオルソ画像に変換してアノテーション ● 点群地図があればLiDAR点群と位置合わせした⾃⼰位置推定も可能 (オドメトリも計算可能) Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

Slide 17

Slide 17 text

GPS/GNSS機器 IMU カメラ 2次元物体ラベル ⾃⼰位置 ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR ハードウェア 教師ラベル ミリ波レーダーについて ミリ波レーダー 3次元物体ラベル ● 波⻑の短い電波を照射して、対象物の距離‧相対速度を計測 ● 特に動的な3次元物体の速度情報を付与するために活⽤ Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

Slide 18

Slide 18 text

ミリ波レーダー カメラ 2次元物体ラベル LiDAR ハードウェア 教師ラベル GPS/GNSS機器‧IMUセンサについて GPS/GNSS機器 ⾃⼰位置 3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 IMU ● GPS/GNSS機器は衛星信号を受信して位置情報を測定し、IMUは加速度‧⾓速度を 測定して他のセンサで推定した移動量‧姿勢と合わせて⾃⼰位置推定 ● 多くの教師ラベルで⾃⼰位置の情報や、時間ごとの移動量が必要

Slide 19

Slide 19 text

学術データセット nuScenes [Caesar+ CVPR2020] ● 1シーン20秒(アノテーション付きは約40フレーム)からなる1,000シーンの⾃律運転データセット ○ これまで紹介したE2Eモデルは全てnuScenesでベンチマークスコアを測定 ● センサ構成 ○ 6x カメラ ○ 1x 回転式LiDAR ○ 5x ミリ波レーダー ○ GPS/IMU機器 ● 多様なアノテーション ○ 2次元物体データ (nuImage) ○ 3次元物体データ‧トラッキング ○ 3D Semantic Segmentation ○ Occupancy (SurroundOcc [Wei+ ICCV2023]) ○ ベクターマップ など Caesar+ (2020), “nuScenes: A multimodal dataset for autonomous driving”, CVPR2020. より引⽤ Wei+ (2023), “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving”, ICCV2023.

Slide 20

Slide 20 text

nuScenesの課題 シーンの多様性がどうしても少ない ● ⾏動計画において前⽅⽅向に直進する 経路が集中している (AD-MLP[Zhai+ 2023]) ○ 約70%もの経路が直線⽅向 ● データ量は時間換算で約5.6時間と少ない ○ ⾏動計画⽤のデータセットとして1,500時間分のnuPlan[Caesar+ 2021]が公開されているものの、 センサデータではなく物体検出された後のためE2Eモデルの学習には不向き ○ (そもそも1,000時間程度のデータでE2Eモデルを学習するには莫⼤な計算リソースが必要...) 多様性に富んだ質が⾼い⼤量のデータを収集する必要がある あと計算リソースも必要 Zhai+ (2023), “Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes”.より引⽤ Caesar+ (2021), “NuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles”. 3秒間の経路のパターン 3秒後の⽅位⾓の変化 約70%が 直進⽅向

Slide 21

Slide 21 text

実際にE2Eモデルを作ってみよう!

Slide 22

Slide 22 text

E2Eモデル開発 実際にE2Eモデル開発を⾏うとモデル開発以外の領域が多い Sculley+ (2015), “Hidden Technical Debt in Machine Learning Systems”, NeurIPS2015. より引⽤

Slide 23

Slide 23 text

E2Eモデル開発まで必要なこと データ収集⾞ アノテーション データ準備 モデル学習 ● センサ構成決め ● センサの配置 ● キャリブレーション ● 収集⾞の施⼯ ● メンテナンス ● 異常データ検知 ● データアップロード ● ⾛⾏ルート⽣成 ● データ正規化 ● メタデータ付与 ● キャプショニング ● 埋め込みベクトル化 ● データバリデーション ● 学習データセット作成 ツール ● 2次元物体ラベル ● 3次元物体ラベル ● ベクターマップ ● 占有状態 ● オートラベリング ● E2Eモデル開発 ● E2Eモデル学習 ● 実験管理 ● SDK ● 可視化ツール ● モデルデプロイ ● リアルタイム推論 ● 制御     など ⾞両側 クラウド上 モデル運⽤

Slide 24

Slide 24 text

データ収集⾞ カメラ GNSS LiDAR ● ⾞両はトヨタ アルファード ● センサ構成 ○ 8x カメラ ○ 1x 回転式LiDAR ○ 1x RTK-GNSSセンサ ● 1台1⽇あたり10時間のデータ収集 ● 様々な要因によりセンサ構成‧収集データを 変更(現状はversion 3で安定稼働中) データ収集⾞の構成 5⽉ 6⽉ 7⽉ 8⽉ 9⽉ 10⽉ version 1 version 2 version 3

Slide 25

Slide 25 text

ここで⼀句

Slide 26

Slide 26 text

キャリブレーションの⾃動化 LiDAR-カメラキャリブレーション ● ⾞両によってセンサ配置の個体差が⽣じることや、E2Eモデルの⼊⼒にセンサ間の位置関係が必要 ● カメラの内部パラメータとLiDAR-カメラの相対的な位置関係をターゲットレスで最適化可能に LiDAR 点群マップ 点群同⼠を⼀致させるパラメータ推定 RGB点群

Slide 27

Slide 27 text

データパイプライン データ収集 データ準備 モデル学習

Slide 28

Slide 28 text

収集データの可視化 収集したデータの⾛⾏経路やデータの詳細を確認できる社内向けサービスの開発

Slide 29

Slide 29 text

データバリデーション version 2 version 3 収集データに異常がないかバリデーションを⾏う

Slide 30

Slide 30 text

アノテーション 収集したデータをもとに各タスク⽤のアノテーションを⾏う 3次元物体検出アノテーション ベクターマップアノテーションの可視化

Slide 31

Slide 31 text

SDK開発 ● 作成した学習データセットの操作を簡単にするSDKの開発 ● Jupyter Notebookなどで可視化が可能 3次元物体検出の可視化 マップラベルの可視化

Slide 32

Slide 32 text

ようやくデータの準備完了! 次はE2Eモデル学習

Slide 33

Slide 33 text

E2Eモデル:

Slide 34

Slide 34 text

定性的なモデルの評価(1) 4,000フレーム 16,000フレーム

Slide 35

Slide 35 text

定性的なモデルの評価(2) 16,000フレーム 40,000フレーム (nuScenes相当)

Slide 36

Slide 36 text

定量的なモデルの評価 ● E2Eモデルの改善もありつつもデータの品質や量を増やす ● 14,000フレーム→40,000フレームに増やすことで精度改善 ○ 3次元物体検出スコア(mAP): 0.1156 → 0.1733 ○ マップ予測スコア(mAP) : 0.2823 → 0.5974 epoch epoch mAP mAP 3次元物体検出 マップ予測

Slide 37

Slide 37 text

実際に学習したモデルで⾛⾏する ⾛⾏試験場で学習したE2Eモデルで⾛⾏テスト

Slide 38

Slide 38 text

今後の課題

Slide 39

Slide 39 text

今後の課題とData-Centric AI ● 1,000時間以上の学習データに対して全て⼈⼿でアノテーションはコスト⾼ オートラベリングが必要 3次元物体検出におけるオートラベリング ● オートラベリングモデルは以下の制約がない ○ リアルタイム推論が必要 → クラウド上で動作 ○ 未来の情報が使えない → 使える ○ LiDAR点群を使えない → 使える ⾼精度なオートべリングモデルが必要 3次元物体検出のオートラベリング結果

Slide 40

Slide 40 text

今後の課題とData-Centric AI ● ⾛⾏シーンにはレアな交通エージェントがある (e.g., 電動キックボード, 緊急⾞両) ● シーンにメタデータを付与して検索可能にする ○ 2次元物体検出の結果 ○ 画像や動画としてのキャプショニング ○ CLIP [Radford+ 2021] によるImage embedding 多様性サンプリング Radford+ (2021), “Learning Transferable Visual Models From Natural Language Supervision” ● 現状のモデルの出⼒で“不確実性”が⾼いサンプルを選ぶ ○ 確率分布の分布形状での評価 ○ 複数のモデルの推論結果のばらつきで評価 ○ 定性的な評価 不確実性サンプリング ラベルなしデータ ラベル付きデータ アノテータ モデル サンプリング 能動学習(Active Learning)

Slide 41

Slide 41 text

今後の課題とData-Centric AI サンプリング ● メタデータをもとに、信号機が写って いる画像フレームを検索 ● 少数クラスの物体は、出現した場所 付近にもあるはず、という仮定のもと サンプリング 半⾃動アノテーション ● オートラベリングの結果をアノテーションツール上で先にラベリングする →アノテーション業務の効率化とモデルが苦⼿なシーンを修正することができる チューリングの能動学習の例: 信号機認識 夜の⻩⾊信号も検出

Slide 42

Slide 42 text

今後の課題とData-Centric AI マップにおけるオートラベリング ● ⽇本全体のマップを作成するコスト⾼ ● 連続しないシーンのカメラ画像から ベクターマップを作成する検証を ⾏っている 学習ベースの⾏動計画の教師データに対するData-Centricなアプローチ ● そもそも⾏動計画の評価が難しい ○ オープンループ評価‧クローズドループ評価は相関しない ● モデルの推論結果とエラー率が⾼いシーン ≠ Hard Example ● どういうシーンが “ノイジー” なのか評価する必要がある

Slide 43

Slide 43 text

No content