Slide 1

Slide 1 text

Generalized Predictive Model for Autonomous Driving 佐々⽊ 謙⼈ Turing株式会社 第61回 コンピュータビジョン勉強会@関東 2024.8.3 (Sat)

Slide 2

Slide 2 text

⾃⼰紹介 1 佐々⽊ 謙⼈ @kento_sasaki1 チューリング株式会社 ⽣成AIチーム リサーチエンジニア ● 2023年チューリングの初期メンバーとして参画 ● 完全⾃動運転の実現に向けた⽣成AIの研究開発を推進 ● CVPR 2024 Computer in the Wild Workshop採択 ● MIRU 2024 8/8 (Thu) 10:10-11:10 ⼝頭発表

Slide 3

Slide 3 text

Heron-VLM Leaderboard ● Heron-VLM Leaderboard powered by Nejumi@Wandb ○ Weights & Biases社と技術協⼒し、⽇本語VLMのリーダボードを整備 ○ Heron-Bench, LLaVA-Bench (in-the-wild)を⽤いた⾃動評価 ○ GPT-4Vを含む16以上のVLMの⽇本語性能がひと⽬で確認可能 2 http://vlm.nejumi.ai/

Slide 4

Slide 4 text

チューリング株式会社 ⾃社⽣産の電気⾃動⾞(JMS2023に出展) 3 Turingメンバーと⾞両⼯場 完全⾃動運転の実現を⽬指す スタートアップ! https://tur.ing/

Slide 5

Slide 5 text

複雑な運転シーンにどう対処する? 4 この状況で左折したい どこを⾒ればよい?

Slide 6

Slide 6 text

複雑な運転シーンにどう対処する? 5 ローカルの⾔語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 ⼈間の⾝体的 指⽰の理解 ⼈間は無意識のうちに多くの 「⽂脈」を理解している ⾼度な⾃動運転には 視覚と⾔語、物理世界の理解 が必要不可⽋

Slide 7

Slide 7 text

複雑な運転シーンにどう対処する? 6 ローカルの⾔語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 ⼈間の⾝体的 指⽰の理解 ⼈間は無意識のうちに多くの 「⽂脈」を理解している ⾼度な⾃動運転には 視覚と⾔語、物理世界の理解 が必要不可⽋ ➢ マルチモーダルAI ➢ 世界モデル

Slide 8

Slide 8 text

3rd Generation Autonomous Driving 7 Generative AI Empowered Big Data High-Fidelity Data Scene Understanding Driving Inference Real-Time QA Behavior Prediciton Decision Making&Planning Act as Human Driver End-to-End Prediciton Autonomous Driving with LLMs/VLMs [Lincan Li+ 2024]

Slide 9

Slide 9 text

Workshops for Autonomous Driving 8

Slide 10

Slide 10 text

Generalized Predictive Model for Autonomous Driving

Slide 11

Slide 11 text

書誌情報 9 Generalized Predictive Model for Autonomous Driving Jiazhi Yang1*, Shenyuan Gao2,1*, Yihang Qiu1*, Li Chen3,1, Tianyu Li1, Bo Dai1, Kashap Chitta4,5, Penghao Wu1, Jia Zeng1, Ping Luo3, Jun Zhang2, Andreas Geiger4,5, Yu Qiao1, Hongyang Li1. 1. OpenDriveLab and Shanghai AI Lab 2. Hong Kong University of Science and Technology 3. University of Hong Kong 4. University of Tübingen 5. Tübingen AI Center Highlight 🌠 https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Generalized_Pr edictive_Model_for_Autonomous_Driving_CVPR_2024_paper.pdf 以降、図表は論⽂からそのまま 引⽤します

Slide 12

Slide 12 text

研究⽬的 (1/3) 10 Gen 2. AD Models Bounding Box, HD map, etc. Unlabeled Text Data Labeled Driving Data ✅ ⼤規模なウェブデータ ✅ 収集‧スケールアップが可能 ❌ ⼩規模なラベル付きデータ ❌ アノテーションコストが膨⼤ ❌ スケーラビリティがない LLMs LLMsのようにスケーラビリティと 汎化能⼒を獲得するには?

Slide 13

Slide 13 text

研究⽬的 (2/3) 11 ● 3Dラベルを⽤いた教師あり学習 ❌ ⼗分なラベルデータなしではスケールアップが困難 ● エキスパート特徴量を⽤いた教師あり学習 ✅ 既存のエキスパートモデルを⽤いてスケールアップが可能 ✅ 特定オブジェクト(⼤きな物体や中央にある物体)に焦点を当てる ❌ 詳細だが重要な情報を無視していまう可能性がある 複雑な運転シーンをモデリングするには不⼗分 Semantic Segmentation

Slide 14

Slide 14 text

研究⽬的 (3/3) 12 インターネットから⼤量の⾛⾏動画を収集し、動画予測モデルを構築する →⼤量のデータを⽤いて将来フレームを予測することで運転シーンをモデリング ✅ スケーラブルなウェブデータ ✅ 3Dラベルが不要 ✅ 詳細情報を保ちやすい ✅ 世界の知識と運転⽅法を学習する

Slide 15

Slide 15 text

GenADの概要 13

Slide 16

Slide 16 text

OpenDV-2K Dataset 14 Dataset: https://huggingface.co/datasets/OpenDriveLab/OpenDV-YouTube-Language ● マルチモーダル‧マルチソースのデータセット ○ Video ○ Text ○ Command ● オンライン動画と公開データセットから構成 ○ YouTube ○ nuScenes ○ nuPlan ○ HAD ○ HDD ● テキストコンテキストとコマンドを含む ○ Text: Keep going until you reach a red light. ○ Command: Move forward.

Slide 17

Slide 17 text

OpenDV-2K Dataset 15 ● ⾃動運転のための最⼤規模の公開データセット ● 2059時間以上 ● 244都市以上

Slide 18

Slide 18 text

OpenDV-2K Dataset 16 https://youtu.be/01E_6NfmQ10?si=X2R_yIATd5XN9jJc

Slide 19

Slide 19 text

Video Prediction Model for Autonomous Driving 17 1. Image Domain Transfer SDXL (Diffusion Model)をOpenDV-2K Datasetを⽤いてFinetuning 2. Video Prediction Pre-training 連続するビデオフレームの⼀部を過去の観測として使⽤し、未来の複数フレームを予測

Slide 20

Slide 20 text

Video Prediction Model for Autonomous Driving 18 Causal Temporal Attention 過去フレームのみにAttentionし、⼀貫した未来予測を可能にする Decoupled Spatial Attention 縦横別々にAttentionし、効率的に⻑距離のモデリングを実現する Interleaved temporal blocks ⼗分な時空間の相互作⽤を提供する

Slide 21

Slide 21 text

Task (1/4) Zero-shot Generalization 19 Waymo, KITTI, Cityscapesを含むテストデータにおけるZero-shot動画予測

Slide 22

Slide 22 text

Task (2/4) Language-conditioned Prediction 20 ⾔語を条件に与え、未来の予測を制御する

Slide 23

Slide 23 text

Task (3/4) Action-conditioned Prediction 21 Action (stop, left turn, forward, right turn etc.)を 与えたとき、Actionに基づく軌跡を予測する TrajectoryとTextを⼊⼒に与えるGenAD-actは Textのみを⼊⼒として与えるGenADよりも Action Prediction Errorが24%⼩さい

Slide 24

Slide 24 text

Task (4/4) Planning 22 フロントビュー画像のみを与え、Trajectory予測をすると UniAD [Yihan+ 2023]と匹敵するプランニング結果が得られる ADE: Average Displacement Error FDE: Final Displacement Error

Slide 25

Slide 25 text

まとめ 23 ● OpenDV-2K Dataset 全世界から集めた2059時間分、最⼤の公開データセット ● GenAD ○ ⾔語条件を使⽤して妥当な未来を予測 ○ 汎化性能があり、ゼロショットで様々な状況に対応可 ○ プランニングやシミュレーションに適⽤可

Slide 26

Slide 26 text

Follow-up Research: Vista 24 Vista: A Generalized Driving World Model with High Fidelity and Versatile Controllability ● ⾼い時空間解像度でのFidelityの向上 ● 多様なモーダルのアクションによる制御

Slide 27

Slide 27 text

Generalized Predictive Model for Autonomous Driving 25 https://youtu.be/a4H6Jj-7IC0?si=Fcr0kQTbXFhF3kSc