生成AIの二大潮流と自動運転

by Hidehisa Arai

Slide 1

Slide 1 text

⽣成AIの⼆⼤潮流と⾃動運転 Turing株式会社⽣成AIチーム荒居秀尚 2024/09/06 YANS 2024 チュートリアル

Slide 2

Slide 2 text

⾃⼰紹介 2 荒居秀尚 / Hidehisa Arai Turing株式会社 ↓Kaggle 2x Grandmaster ↓これを作りました(今⽇話す内容の⼀部)

Slide 3

Slide 3 text

Turing株式会社 3 累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発⽣成AIによる実現を⽬指す代表取締役: ⼭本⼀成設⽴: 2021年8⽉

Slide 4

Slide 4 text

Turing株式会社 4 累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発⽣成AIによる実現を⽬指す代表取締役: ⼭本⼀成設⽴: 2021年8⽉なぜ⾃動運転の会社が⾃然⾔語処理のシンポジウムに？

Slide 5

Slide 5 text

5 なぜ⾃動運転の会社が、NLPのシンポジウムに？「異分野交流」「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン

Slide 6

Slide 6 text

6 なぜ⾃動運転の会社が、NLPのシンポジウムに？「異分野交流」「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン Q: ⾃動運転に「ことばがつむぐ」要素はあるの？ A: 実はあります！

Slide 7

Slide 7 text

7 ⾃動運転開発の⼤きな障壁は“エッジケース” 次のようなケース、皆さんが直⾯したらどう対処しますか？

Slide 8

Slide 8 text

8 ⾃動運転開発の⼤きな障壁は“エッジケース” ⾃動運転研究の最先端では、これを“ことば”を⽤いて解決しようとしています → 後半で解説します

Slide 9

Slide 9 text

9 Agenda 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 10

Slide 10 text

10 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 11

Slide 11 text

11 ⾃動運転AIの役割周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する自動運転 AI 入力の例：マルチカメラ /LiDAR/IMU ※最終的にはパスに沿って進むための制御⼊⼒を出⼒するのがゴールですが、この場では簡単化のため割愛します

Slide 12

Slide 12 text

if condition0: return else if condition1: return else if condition2: ・・・ 12 経路の出⼒には様々なアプローチがあり得るルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル

Slide 13

Slide 13 text

13 End-to-End⾃動運転AI マルチカメラ画像 Neural Network 将来の経路⼊⼒から経路予測までを全てNNで⾏うアプローチが近年出てきている → どう学習する？

Slide 14

Slide 14 text

14 End-to-End⾃動運転AIの学習⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/b rake Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡

Slide 15

Slide 15 text

15 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 16

Slide 16 text

16 ⽣成AI周りではLLMと拡散モデルが⼆⼤トレンド ICLR2024 https://github.com/ranpox/iclr2024-openreview-submissions NeurIPS2023 https://github.com/jacobmarks/awesome-neurips-2023

Slide 17

Slide 17 text

17 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

Slide 18

Slide 18 text

18 LLMの発展に伴い発達‧浸透した考え⽅/⼿法⾊々あるとは思いますが‧‧‧ ● ⾔語以外のモダリティもトークン化して⾔語モデリングと同じ枠組みで扱う(“全てをTransformerで”という考え⽅) ● Attention機構を⽤いて特殊なトークン列に情報を移動させる(特殊トークンの利⽤)

Slide 19

Slide 19 text

19 “全てをTransformerで”という考え⽅データを「トークン列」としてTransformerで処理する⽅法は⾔語以外でも浸透 Dosovitskiy et al. (2021) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. 画像分類 Vision Transformer [Dosovitskiy+] ⾳声認識 Whisper [Radford+] Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.

Slide 20

Slide 20 text

20 “全てをTransformerで”という考え⽅複数のモーダルのデータも同じインターフェースで扱うことができる Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024. LLaVA [Liu+]

Slide 21

Slide 21 text

21 “全てをTransformerで”という考え⽅様々なモーダルのデータを⼊出⼒し多様なタスクを解かせようという流れが存在 Reed, Scott, et al. "A Generalist Agent." Transactions on Machine Learning Research.

Slide 22

Slide 22 text

22 特殊トークンの利⽤特殊なトークン列にAttentionで徐々に情報を移動させ、固定⻑の系列に圧縮する例) BERTの[CLS]トークンの出⼒は⽂章全体の情報を集約したベクトルとして使われることが多い Devlin, Jacob, et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL. 2019.

Slide 23

Slide 23 text

23 特殊トークンを利⽤した新しい情報圧縮 Encoder Decoder ‧‧‧ ‧‧‧ ‧‧‧ ⼀般的な⼿法による情報圧縮データ圧縮された表現再構成されたデータ特殊トークンを⽤いた情報圧縮 Transformer ‧‧‧ ‧‧‧ ‧‧‧ Transformer ‧‧‧ ‧‧‧ ‧‧‧ データ特殊トークン特殊トークン再構成されたデータ

Slide 24

Slide 24 text

24 特殊トークンを利⽤した情報圧縮の例①: TiTok “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

Slide 25

Slide 25 text

25 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context compression in a large language model." ICLR 2024. 特殊トークンを利⽤した情報圧縮の例②: ICAE In-Context Autoencoder

Slide 26

Slide 26 text

26 特殊トークンの利⽤特殊なトークン列で⽬的のタスクに必要な情報を集める指⽰を導⼊する例) Detection Transformerでは“Object Queries”と呼ばれる特殊トークンにエンコーダから物体検出の出⼒に必要な情報を集める Carion, Nicolas, et al. "End-to-end object detection with transformers." ECCV 2020.

Slide 27

Slide 27 text

27 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

Slide 28

Slide 28 text

28 拡散モデルデータが徐々にノイズに変わっていく過程(拡散過程)の逆過程としてデータ⽣成をモデル化しているデータに微⼩なノイズを付加することを何度も繰り返すことでデータをノイズに変換する微⼩なノイズをDNNで除去することを何度も繰り返すことでノイズをデータに変換する拡散過程データ⽣成(逆拡散過程) Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 時刻というパラメータでノイズ強度を制御する

Slide 29

Slide 29 text

29 Denoising Diﬀusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新

Slide 30

Slide 30 text

30 Denoising Diﬀusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新時刻情報 t が⼩さい時は、弱めにノイズを付加し、t が⼤きい時は強めにノイズを付加する

Slide 31

Slide 31 text

31 Denoising Diﬀusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新様々な時刻 t の値でモデルを学習することで、どの時刻についても⼀つのモデルでノイズ予測ができるようになる

Slide 32

Slide 32 text

32 Denoising Diﬀusion Probabilistic Models(DDPM) Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. ⽣成時は、完全なノイズから始めてノイズを少しずつ取り除く t = T t = T-1 t = T-2 t = 1 t = 2 時刻をTから少しずつ減らしながら、ノイズ予測とそのノイズの除去を繰り返す

Slide 33

Slide 33 text

33 拡散モデルは学習⽅法を指しているので、ノイズ除去のDNNの選択は⾃由ノイズ除去モデルについて DNN ⼊⼒と出⼒が同じ形状なことが条件よく使われるのはU-Net Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." MICCAI 2015. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." ICCV 2023. Transformerでもよい(DiT)

Slide 34

Slide 34 text

34 拡散モデルの代表的な使⽤例テキストからの画像⽣成 Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR 2022. https://github.com/CompVis/stable-diffusion テキストからの動画⽣成 https://research.nvidia.com/labs/toronto-ai/VideoLDM/ Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." CVPR 2023. 画像の編集 Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." SIGGRAPH 2022.

Slide 35

Slide 35 text

35 拡散モデルの発展に伴い発達‧浸透した考え⽅⾊々あるとは思いますが‧‧‧ ● 反復的に解を改善するという⽣成⼿法

Slide 36

Slide 36 text

36 ここまでのまとめ LLMの発展に伴い発達‧浸透した考え⽅/⼿法 ● “全てをTransformerで”という考え⽅ ● 特殊トークンの利⽤拡散モデルの発展に伴い発達‧浸透した考え⽅ ● 反復的に解を改善する → これらの考え⽅/⼿法を武器に⽣成AIが⾃動運転にどのように取り⼊れられているのかを解説します

Slide 37

Slide 37 text

37 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 38

Slide 38 text

38 運転は驚くほど難しく、⼈間は驚くほど賢い

Slide 39

Slide 39 text

39 運転は驚くほど難しく、⼈間は驚くほど賢いローカルの言語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味人間の身体的指示の理解運転をしていると、時折周辺環境に関する深い理解が求められる瞬間が出てくる

Slide 40

Slide 40 text

40 運転環境はロングテール運転状況の難しさ頻度少 ← → 難易 ← → 多多い / 簡単少ない / 難しい交通環境には頻度が少ないが、多様で困難な状況が存在する（= ロングテール） 100％に近づけるには既存の技術では達成困難数%の極めて難しい状況に対応するには、⾛⾏データから得られる経験では不⼗分 Makansi, Osama, et al. "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.

Slide 41

Slide 41 text

41 運転環境はロングテール運転状況の難しさ頻度少 ← → 難易 ← → 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース問い：⾛⾏データから得られる経験では不⼗分。ではどうする？

Slide 42

Slide 42 text

42 運転環境はロングテール運転状況の難しさ頻度少 ← → 難易 ← → 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース問い：⾛⾏データから得られる経験では不⼗分。ではどうする？答え：Webスケールのデータからの知識を取り⼊れる

Slide 43

Slide 43 text

43 Webスケールのデータの知識を持ったLLMを運転に役⽴てる試みが現れた LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM

Slide 44

Slide 44 text

44 LLMの⾃動運転への活⽤例運転環境の複雑な状況理解‧判断にLLMを活⽤する Fu, Daocheng, et al. "Drive like a human: Rethinking autonomous driving with large language models." WACV 2024. (上) 運転環境において発⽣しうるレアシーンをVLMを⽤いて⾔語で記述し、GPT-3.5に状況理解を⾏わせる (右) 状況を⾔語で記述し、GPT-3.5に次の運転操作を判断させる

Slide 45

Slide 45 text

45 LLMの⾃動運転への活⽤例チューリングでもGPT-4などのモデルを運転に活⽤する試みを⾏っている Tanahashi, Kotaro, et al. "Evaluation of large language models for decision making in autonomous driving." arXiv preprint arXiv:2312.06351 (2023). 物体検出器で検出した物体と、ユーザーからの運転指⽰をプロンプトとして与え、運転操作コマンドの選択と、その理由の記述をLLMに⾏わせて、実際にその操作に従って運転を⾏う試み

Slide 46

Slide 46 text

46 状況をテキストで表現する必要があり、制限が厳しすぎるため活⽤が難しい LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM わざわざテキストで状況説明する必要があるのはかなり⾯倒 →画像を直接LLMにいれたい

Slide 47

Slide 47 text

47 Vision & Language Models (VLMs) 学習済みLLMにVision Encoderをアダプタを⽤いて接続する⽅式が主流 Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022).

Slide 48

Slide 48 text

48 VLMの⾃動運転への活⽤ VLMを⽤いて、質問応答の枠組みで状況理解や運転操作の判断を⾏わせる Marcu, Ana-Maria, et al. "Lingoqa: Video question answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) LLMにAdapterを取り付けて動画(=画像列)を扱えるようにしている Video Question Answering(VQA)タスクとして、周辺状況の理解や運転操作の判断を⾏わせている

Slide 49

Slide 49 text

49 VLMの⾃動運転への活⽤ Marcu, Ana-Maria, et al. "Lingoqa: Video question answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) もはや直接アクションを出⼒してほしい! 連続値のアクションをLLMに出⼒させるには？

Slide 50

Slide 50 text

50 関連研究：RT-2 学習済みのVLMをロボットアームのアクションのデータで追加学習 Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." CoRL 2023. Vision-Language-Action(VLA)モデルという新しいパラダイムを提案

Slide 51

Slide 51 text

51 VLMにアクションをどう出⼒させるか？問い：連続値のアクションをLLMに出⼒させるには？答え①：アクションを離散化してトークンIDを割り当てる

Slide 52

Slide 52 text

52 関連研究：ALOHA ロボットアームの動きを⼈間の教⽰から模倣学習する研究 Encoder-Decoder styleのTransformerでロボットの関節位置を予測している Zhao, Tony Z., et al. "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS 2023.

Slide 53

Slide 53 text

53 VLMにアクションをどう出⼒させるか？問い：連続値のアクションをLLMに出⼒させるには？答え②：特殊トークンの出⼒を連続値のアクションとして解釈する

Slide 54

Slide 54 text

54 VLAモデルの⾃動運転への活⽤ VLMによる状況理解からさらに⼀歩進み、VLAモデルに直接運転操作を出⼒させる Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) VLMに特殊トークンを⼊⼒した時に、軌跡としてデコードするように学習を⾏う

Slide 55

Slide 55 text

55 VLAモデルの⾃動運転への活⽤ Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) 画像 - ⾔語 - アクションを統合したデータセットを作成ポスターも出しています([S5-P04]) Language Action “ The ego vehicle is moving slowly and turning right. There is a traﬃc light displaying a green signal … “ Frame-level captions Future trajectories Object of concern Scene recognition Reasoning captions Rule-based algorithm Behavior captions Sensor fusion Reconstructed trajectory Sensor signals Control information Throttle/brake position Steering angle Turn signal Vision 30s x 10,000 videos Radar Leading vehicle Position Speed Position Signal Object detection model Traﬃc light VLM

Slide 56

Slide 56 text

56 VLAモデルの⾃動運転への活⽤⾔語による⾏動計画により解釈性も向上させられる可能性がある Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traﬃc light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traﬃc light near the ego vehicle displaying a green signal. … VLAMが予測した軌跡 VLAモデルを使って、⾔語で運転判断をさせ、さらにそれを実際の操作にまで反映させる実際の軌跡

Slide 57

Slide 57 text

57 LINGO-2 https://wayve.ai/thinking/lingo-2-driving-with-language/ VLAモデルによる⾃動運転をすでに実現させている企業もある

Slide 58

Slide 58 text

58 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 59

Slide 59 text

59 ロングテールへの対応策運転状況の難しさ頻度少 ← → 難易 ← → 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース VLAMでいけるかも？

Slide 60

Slide 60 text

60 とはいえ、エッジケースの経験を収集したい運転状況の難しさ頻度少 ← → 難易 ← → 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース VLAMでいけるかも？こういったケースを⽣成できると嬉しい (学習にも評価にも使える)

Slide 61

Slide 61 text

61 シミュレータの利⽤シミュレータを⽤いてシーンを作成する試みは多いがSim2Real Gapが課題 CARLA Simulator https://carla.org/ Dosovitskiy, Alexey, et al. "CARLA: An open urban driving simulator." CoRL 2017. nuScenes https://www.nuscenes.org/nuscenes Caesar, Holger, et al. "nuscenes: A multimodal dataset for autonomous driving." CVPR 2020. シミュレータと現実の⾒た⽬の差があることに加え、写っている物体の頻度の分布差や、エージェント間の相互作⽤の挙動差が存在する。 Codevilla, Felipe, et al. "On offline evaluation of vision-based driving models." ECCV 2018. シミュレータ実環境

Slide 62

Slide 62 text

62 世界モデル：データドリブンでシミュレータを作る Ha, David, and Jürgen Schmidhuber. "World models." NIPS 2018. エージェントの操作や時間の発展により環境がどう変化するのかをモデル化状態ベクトルとアクションから未来の状態を予測し、エージェントの意思決定に利⽤世界モデルの予測した“夢”のなかで学習したエージェントの動作 https://worldmodels.github.io/

Slide 63

Slide 63 text

63 世界モデルの構築に⽣成AIを⽤いる「アクションで条件付け可能な未来の動画⽣成」を⽣成AIで⾏う Recurrent State Space Model(RSSM) 次の状態の予測のために、確率的な変数を導⼊した状態空間モデル。 Dreamer [Hafner+]などで使われている。⾃動運転関連ではほとんど使われていない。 Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023). Autoregressive Transformer ⾃⼰回帰トランスフォーマーを⽤いて未来の状態予測を⾏う⽅式。 IRIS(後述)などで⽤いられている。⾃動運転関連では、GAIA-1(後述)が有名。 Robine, Jan, et al. "Transformer-based world models are happy with 100k interactions." ICLR 2023. Diﬀusion Models 拡散モデルを⽤いて将来の状態予測を⾏う⽅式。GameNGen(後述)などはこの⽅式。⾃動運転では⾼精細な映像が求められるため、この⽅式が主流になっている。 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). ⾃動運転分野で主流の⽅式

Slide 64

Slide 64 text

64 関連研究：VQGAN Esser et al. (2021) Taming Transformers for High-Resolution Image Synthesis. CVPR. 2021. ⾃⼰回帰Transformerによる画像の⽣成 Encoder Decoder 1. 画像を離散トークン列に変換学習時 Transformer 1 42 3 3 94 60 1 42 3 3 94 60 ? 42 3 3 94 60 2.Causal Language Modeling 推論時 Transformer Decoder 3.⾃⼰回帰でトークン列を⽣成 1 4.Decoderで描画

Slide 65

Slide 65 text

65 関連研究：VideoGPT VQGANと同様の⼿法で⾃⼰回帰Transformerで動画⽣成を⾏う Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

Slide 66

Slide 66 text

66 関連研究：IRIS ⾃⼰回帰Transformerを⽤いてゲーム世界の世界モデルを構築 Micheli, Vincent, Eloi Alonso, and François Fleuret. "Transformers are sample-efficient world models." ICLR 2023. Transformer 画像トークン⾏動トークン MLP MLP 報酬Head 終了状態Head 0.71 “0” 未来の画像トークン

Slide 67

Slide 67 text

67 関連：拡散モデルに条件を導⼊する⽅法 Embedder Embedding加算条件ノイズ時刻変数などの条件導⼊に使われることが多い Cross Attention ノイズ条件 Encoder Cross Attention テキストなどの条件導⼊に使われることが多いチャンネル結合ノイズデータ Concatenate 動画⽣成において、過去のフレームなどの条件導⼊に使われることが多い

Slide 68

Slide 68 text

68 関連研究：DIAMOND 拡散モデルを⽤いてゲーム世界の世界モデルを構築 Alonso, Eloi, et al. "Diffusion for World Modeling: Visual Details Matter in Atari." arXiv preprint arXiv:2405.12399 (2024). Context チャンネル軸で結合 DNN 将来のフレームにノイズをかけて復元することで動画⽣成ができる。過去のフレーム列はチャンネル列で結合することが多い。 U-Netの各レイヤーで Embedding加算

Slide 69

Slide 69 text

69 関連研究：GameNGen 拡散モデルを⽤いてリアルタイム動作をする世界モデルを構築 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). https://www.youtube.com/watch?v=O3616ZFGpqw

Slide 70

Slide 70 text

70 ⾃動運転における世界モデルの取り組み①：GAIA-1 ⾃⼰回帰Transformerを使って、⾔語やアクションで操作可能な世界モデルを構築 Hu, Anthony, et al. "Gaia-1: A generative world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). (上) アクション操作ありの動画⽣成 (右上) テキストからの動画⽣成 (右) モデルの概要

Slide 71

Slide 71 text

71 ⾃動運転における世界モデルの取り組み②：Vista 拡散モデルを⽤いて、⾼解像度の世界モデルを構築 Gao, Shenyuan, et al. "Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability." arXiv preprint arXiv:2405.17398 (2024). https://vista-demo.github.io/

Slide 72

Slide 72 text

72 ⾃動運転における世界モデルの取り組み③：Terra チューリングでも⾃⼰回帰Transformerベースの世界モデルを構築 https://www.youtube.com/watch?v=LAv-8GkzgtQ

Slide 73

Slide 73 text

73 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 74

Slide 74 text

74 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 75

Slide 75 text

75 推論速度の問題⾃動運転システムは 10Hz ~ の動作周期で動く必要がある。また、計算処理も全てオンボードで実施が必要な環境のため、⼤規模モデルの活⽤にはハードルがある。世界モデルも現状ではリアルタイムで動作しないためシミュレータとしては使いづらい。課題対策 ● 軽量なモデル(数B程度)の利⽤、量⼦化などのモデルの軽量化の⼯夫 ● ⼊出⼒のトークン数の削減 ○ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など ● ⾼速な推論アルゴリズムの利⽤ ○ MaskGITスタイル(Appendix)のトークン⽣成など

Slide 76

Slide 76 text

76 関連研究：TiTok (再掲) “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

Slide 77

Slide 77 text

77 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 78

Slide 78 text

78 Long Contextの問題運転シーンでは数分 ~ 数時間前にコンテキストに⼊った情報が重要な場合が存在し、⻑い系列を保持する必要性がある。世界モデルにおいても⻑期間にわたって⼀貫性が保たれた動画を⽣成する必要性がある。⼀⽅で、⻑い系列の処理はメモリ消費や計算速度‧精度の観点で難しい。課題対策 ● ICAE等のコンテキスト圧縮⼿法の活⽤ ● ⼊出⼒のトークン数の削減 ○ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など

Slide 79

Slide 79 text

79 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context compression in a large language model." ICLR 2024. 関連研究：ICAE (再掲)

Slide 80

Slide 80 text

80 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 81

Slide 81 text

81 Hallucinations VLMは存在しないobjectの存在を主張したり、事実と反する内容を記述したりすることがある。世界モデルでも突然⾞が虚空から出現したり、物理法則や因果の法則に反する結果が現れることもある。課題対策 ● モデルの予測が誤った際のフェイルセーフ機構の構築 ○ OOD検知、⼈間への操作の委譲、⾃動運転システムの判断の可視化など ● モデル‧データの⼤規模化

Slide 82

Slide 82 text

82 権限委譲できる⾃動運転システムの例：Tesla FSD

Slide 83

Slide 83 text

83 まとめ ● ⾃動運転では周囲の情報を⼊⼒として、⾃⾞の進むべき軌跡を出⼒し続けるのが⼀つのゴール ● 稀で対応が難しいエッジケースの存在が課題となっている ● エッジケースへの対応として、Webスケールのデータで学習されたLLM / VLM / VLAMの利⽤が研究されている ● 収集が難しいシーンを世界モデルを⽤いて⽣成する研究もある

Slide 84

Slide 84 text

84 Appendix

Slide 85

Slide 85 text

85 画像特徴をどうトークン化するか Projectorを⽤いる⽅法と、特殊トークンにCross Attentionで情報を移す⽅法が存在特徴ベクトル群 Projector (MLPなど) Image Encoder 画像のトークン列 Transformer ⾔語のトークン列 Image Encoder Adapter ⾔語のトークン列 Transformer 特殊トークン Projectorを⽤いる⽅式 GIT [Wang+], LLaVA [Liu+]など Cross Attentionを⽤いる⽅式 BLIP2 [Li+], Flamingo [Alayrac+] など Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." NeurIPS 2022. Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." ICML 2023. Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022). Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024.

Slide 86

Slide 86 text

86 画像特徴をどう離散トークン化するか事前に⽤意したコードブック中のベクトルのIDを割り当てる形で離散化を⾏う Van Den Oord, Aaron, and Oriol Vinyals. "Neural discrete representation learning." NeurIPS 2017.

Slide 87

Slide 87 text

87 関連研究：Non-Autoregressive Generation (NAR) “反復的に解を改善する”という考え⽅を系列⽣成に導⼊ He, Zhengfu, et al. "Diffusionbert: Improving generative masked language models with diffusion models." ACL 2023. Discrete Diﬀusion Model Continuous Diﬀusion Model マスクを徐々に減らすように⽣成トークンEmbeddingのノイズ除去で⽣成 Li, Xiang, et al. "Diffusion-lm improves controllable text generation." NeurIPS 2022. トークン間の依存関係を反映しづらく精度では劣るが⻑い系列の⽣成速度が強み

Slide 88

Slide 88 text

88 関連研究：MaskGIT “反復的に解を改善する”という考え⽅を画像⽣成に導⼊し⼤幅な⾼速化を実現 Chang, Huiwen, et al. "Maskgit: Masked generative image transformer." CVPR 2022.