Slide 1

Slide 1 text

⽣成AIの⼆⼤潮流と⾃動運転 Turing株式会社 ⽣成AIチーム 荒居 秀尚 2024/09/06 YANS 2024 チュートリアル

Slide 2

Slide 2 text

⾃⼰紹介 2 荒居 秀尚 / Hidehisa Arai Turing株式会社 ↓Kaggle 2x Grandmaster ↓これを作りました(今⽇話す内容の⼀部)

Slide 3

Slide 3 text

Turing株式会社 3 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉

Slide 4

Slide 4 text

Turing株式会社 4 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ なぜ⾃動運転の会社が⾃然⾔語処理のシンポジウムに?

Slide 5

Slide 5 text

5 なぜ⾃動運転の会社が、NLPのシンポジウムに? 「異分野交流」 「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン

Slide 6

Slide 6 text

6 なぜ⾃動運転の会社が、NLPのシンポジウムに? 「異分野交流」 「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン Q: ⾃動運転に「ことばがつむぐ」要素はあるの? A: 実はあります!

Slide 7

Slide 7 text

7 ⾃動運転開発の⼤きな障壁は“エッジケース” 次のようなケース、皆さんが直⾯したらどう対処しますか?

Slide 8

Slide 8 text

8 ⾃動運転開発の⼤きな障壁は“エッジケース” ⾃動運転研究の最先端では、これを“ことば”を⽤いて解決しようとしています → 後半で解説します

Slide 9

Slide 9 text

9 Agenda 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 10

Slide 10 text

10 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 11

Slide 11 text

11 ⾃動運転AIの役割 周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する 自動運転 AI 入力の例:マルチカメラ /LiDAR/IMU ※最終的にはパスに沿って進むための制御⼊⼒を出⼒するのがゴールですが、この場では簡単化のため割愛します

Slide 12

Slide 12 text

if condition0: return else if condition1: return else if condition2: ・・・ 12 経路の出⼒には様々なアプローチがあり得る ルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能 自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル

Slide 13

Slide 13 text

13 End-to-End⾃動運転AI マルチカメラ画像 Neural Network 将来の経路 ⼊⼒から経路予測までを全てNNで⾏うアプローチが近年出てきている → どう学習する?

Slide 14

Slide 14 text

14 End-to-End⾃動運転AIの学習 ⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/b rake Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡

Slide 15

Slide 15 text

15 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 16

Slide 16 text

16 ⽣成AI周りではLLMと拡散モデルが⼆⼤トレンド ICLR2024 https://github.com/ranpox/iclr2024-openreview-submissions NeurIPS2023 https://github.com/jacobmarks/awesome-neurips-2023

Slide 17

Slide 17 text

17 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

Slide 18

Slide 18 text

18 LLMの発展に伴い発達‧浸透した考え⽅/⼿法 ⾊々あるとは思いますが‧‧‧ ● ⾔語以外のモダリティもトークン化して⾔語モデリングと 同じ枠組みで扱う(“全てをTransformerで”という考え⽅) ● Attention機構を⽤いて特殊なトークン列に情報を移動させ る(特殊トークンの利⽤)

Slide 19

Slide 19 text

19 “全てをTransformerで”という考え⽅ データを「トークン列」としてTransformerで処理する⽅法は⾔語以外でも浸透 Dosovitskiy et al. (2021) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. 画像分類 Vision Transformer [Dosovitskiy+] ⾳声認識 Whisper [Radford+] Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.

Slide 20

Slide 20 text

20 “全てをTransformerで”という考え⽅ 複数のモーダルのデータも同じインターフェースで扱うことができる Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024. LLaVA [Liu+]

Slide 21

Slide 21 text

21 “全てをTransformerで”という考え⽅ 様々なモーダルのデータを⼊出⼒し多様なタスクを解かせようという流れが存在 Reed, Scott, et al. "A Generalist Agent." Transactions on Machine Learning Research.

Slide 22

Slide 22 text

22 特殊トークンの利⽤ 特殊なトークン列にAttentionで徐々に情報を移動させ、固定⻑の系列に圧縮する 例) BERTの[CLS]トークンの出⼒は⽂章全体の情報を集約したベクトルとして使われ ることが多い Devlin, Jacob, et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL. 2019.

Slide 23

Slide 23 text

23 特殊トークンを利⽤した新しい情報圧縮 Encoder Decoder ‧‧‧ ‧‧‧ ‧‧‧ ⼀般的な⼿法による情報圧縮 データ 圧縮された表現 再構成されたデータ 特殊トークンを⽤いた情報圧縮 Transformer ‧‧‧ ‧‧‧ ‧‧‧ Transformer ‧‧‧ ‧‧‧ ‧‧‧ データ 特殊トークン 特殊トークン 再構成されたデータ

Slide 24

Slide 24 text

24 特殊トークンを利⽤した情報圧縮の例①: TiTok “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

Slide 25

Slide 25 text

25 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context compression in a large language model." ICLR 2024. 特殊トークンを利⽤した情報圧縮の例②: ICAE In-Context Autoencoder

Slide 26

Slide 26 text

26 特殊トークンの利⽤ 特殊なトークン列で⽬的のタスクに必要な情報を集める指⽰を導⼊する 例) Detection Transformerでは“Object Queries”と呼ばれる特殊トークンにエン コーダから物体検出の出⼒に必要な情報を集める Carion, Nicolas, et al. "End-to-end object detection with transformers." ECCV 2020.

Slide 27

Slide 27 text

27 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

Slide 28

Slide 28 text

28 拡散モデル データが徐々にノイズに変わっていく過程(拡散過程)の逆過程としてデータ⽣成を モデル化している データに微⼩なノイズを付加することを何度も 繰り返すことでデータをノイズに変換する 微⼩なノイズをDNNで除去することを何度も 繰り返すことでノイズをデータに変換する 拡散過程 データ⽣成(逆拡散過程) Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 時刻というパラメータで ノイズ強度を制御する

Slide 29

Slide 29 text

29 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新

Slide 30

Slide 30 text

30 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新 時刻情報 t が⼩さい時は、弱めに ノイズを付加し、t が⼤きい時は 強めにノイズを付加する

Slide 31

Slide 31 text

31 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新 様々な時刻 t の値でモデルを学習 することで、どの時刻についても ⼀つのモデルでノイズ予測ができ るようになる

Slide 32

Slide 32 text

32 Denoising Diffusion Probabilistic Models(DDPM) Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. ⽣成時は、完全なノイズから始めてノイズを少しずつ取り除く t = T t = T-1 t = T-2 t = 1 t = 2 時刻をTから少しずつ減らしながら、ノイズ予測とそのノイズの除去を繰り返す

Slide 33

Slide 33 text

33 拡散モデルは学習⽅法を指しているので、ノイズ除去のDNNの選択は⾃由 ノイズ除去モデルについて DNN ⼊⼒と出⼒が同じ形状 なことが条件 よく使われるのはU-Net Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." MICCAI 2015. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." ICCV 2023. Transformerでもよい(DiT)

Slide 34

Slide 34 text

34 拡散モデルの代表的な使⽤例 テキストからの画像⽣成 Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR 2022. https://github.com/CompVis/stable-diffusion テキストからの動画⽣成 https://research.nvidia.com/labs/toronto-ai/VideoLDM/ Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." CVPR 2023. 画像の編集 Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." SIGGRAPH 2022.

Slide 35

Slide 35 text

35 拡散モデルの発展に伴い発達‧浸透した考え⽅ ⾊々あるとは思いますが‧‧‧ ● 反復的に解を改善するという⽣成⼿法

Slide 36

Slide 36 text

36 ここまでのまとめ LLMの発展に伴い発達‧浸透した考え⽅/⼿法 ● “全てをTransformerで”という考え⽅ ● 特殊トークンの利⽤ 拡散モデルの発展に伴い発達‧浸透した考え⽅ ● 反復的に解を改善する → これらの考え⽅/⼿法を武器に⽣成AIが⾃動運転にどのよう に取り⼊れられているのかを解説します

Slide 37

Slide 37 text

37 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 38

Slide 38 text

38 運転は驚くほど難しく、⼈間は驚くほど賢い

Slide 39

Slide 39 text

39 運転は驚くほど難しく、⼈間は驚くほど賢い ローカルの言語 と記号の理解 複雑な三者の 関係の理解 カラーコーン 配置の意味 人間の身体的 指示の理解 運転をしていると、時折周辺環境 に関する深い理解が求められる瞬 間が出てくる

Slide 40

Slide 40 text

40 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 交通環境には頻度が少ないが、 多様で困難な状況が存在する (= ロングテール) 100%に近づけるには既存の技術 では達成困難 数%の極めて難しい状況に対応するには、⾛⾏データから得られる経験では不⼗分 Makansi, Osama, et al. "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.

Slide 41

Slide 41 text

41 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース 問い:⾛⾏データから得られる経験では不⼗分。    ではどうする?

Slide 42

Slide 42 text

42 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース 問い:⾛⾏データから得られる経験では不⼗分。    ではどうする? 答え:Webスケールのデータからの知識を取り⼊れる

Slide 43

Slide 43 text

43 Webスケールのデータの知識を持ったLLMを運転に役⽴てる試みが現れた LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが 並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで 状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろには コーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM

Slide 44

Slide 44 text

44 LLMの⾃動運転への活⽤例 運転環境の複雑な状況理解‧判断にLLMを活⽤する Fu, Daocheng, et al. "Drive like a human: Rethinking autonomous driving with large language models." WACV 2024. (上) 運転環境において発⽣しうるレアシーンをVLMを ⽤いて⾔語で記述し、GPT-3.5に状況理解を⾏わせる (右) 状況を⾔語で記述し、GPT-3.5に次の運転操作を 判断させる

Slide 45

Slide 45 text

45 LLMの⾃動運転への活⽤例 チューリングでもGPT-4などのモデルを運転に活⽤する試みを⾏っている Tanahashi, Kotaro, et al. "Evaluation of large language models for decision making in autonomous driving." arXiv preprint arXiv:2312.06351 (2023). 物体検出器で検出した物体と、ユーザーからの運転指⽰をプロンプトとして与え、運転操作コマンドの選 択と、その理由の記述をLLMに⾏わせて、実際にその操作に従って運転を⾏う試み

Slide 46

Slide 46 text

46 状況をテキストで表現する必要があり、制限が厳しすぎるため活⽤が難しい LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが 並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで 状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろには コーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM わざわざテキストで状況説明する必 要があるのはかなり⾯倒 →画像を直接LLMにいれたい

Slide 47

Slide 47 text

47 Vision & Language Models (VLMs) 学習済みLLMにVision Encoderをアダプタを⽤いて接続する⽅式が主流 Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022).

Slide 48

Slide 48 text

48 VLMの⾃動運転への活⽤ VLMを⽤いて、質問応答の枠組みで状況理解や運転操作の判断を⾏わせる Marcu, Ana-Maria, et al. "Lingoqa: Video question answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) LLMにAdapterを取り付けて動画(=画像列)を扱え るようにしている Video Question Answering(VQA)タスクとして、周辺 状況の理解や運転操作の判断を⾏わせている

Slide 49

Slide 49 text

49 VLMの⾃動運転への活⽤ Marcu, Ana-Maria, et al. "Lingoqa: Video question answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) もはや直接アクションを出⼒してほしい! 連続値のアクションをLLMに出⼒させるには?

Slide 50

Slide 50 text

50 関連研究:RT-2 学習済みのVLMをロボットアームのアクションのデータで追加学習 Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." CoRL 2023. Vision-Language-Action(VLA)モデルという新しいパラダイムを提案

Slide 51

Slide 51 text

51 VLMにアクションをどう出⼒させるか? 問い:連続値のアクションをLLMに出⼒させるには? 答え①:アクションを離散化してトークンIDを割り当てる

Slide 52

Slide 52 text

52 関連研究:ALOHA ロボットアームの動きを⼈間の教⽰から模倣学習する研究 Encoder-Decoder styleのTransformerでロボットの関節位置を予測している Zhao, Tony Z., et al. "Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS 2023.

Slide 53

Slide 53 text

53 VLMにアクションをどう出⼒させるか? 問い:連続値のアクションをLLMに出⼒させるには? 答え②:特殊トークンの出⼒を連続値のアクションとして解釈する

Slide 54

Slide 54 text

54 VLAモデルの⾃動運転への活⽤ VLMによる状況理解からさらに⼀歩進み、VLAモデルに直接運転操作を出⼒させる Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) VLMに特殊トークンを⼊⼒した時に、軌跡としてデコードするように学習を⾏う

Slide 55

Slide 55 text

55 VLAモデルの⾃動運転への活⽤ Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) 画像 - ⾔語 - アクションを統合したデータセットを作成 ポスターも出しています([S5-P04]) Language Action “ The ego vehicle is moving slowly and turning right. There is a traffic light displaying a green signal … “ Frame-level captions Future trajectories Object of concern Scene recognition Reasoning captions Rule-based algorithm Behavior captions Sensor fusion Reconstructed trajectory Sensor signals Control information Throttle/brake position Steering angle Turn signal Vision 30s x 10,000 videos Radar Leading vehicle Position Speed Position Signal Object detection model Traffic light VLM

Slide 56

Slide 56 text

56 VLAモデルの⾃動運転への活⽤ ⾔語による⾏動計画により解釈性も向上させられる可能性がある Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traffic light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traffic light near the ego vehicle displaying a green signal. … VLAMが予測した軌跡 VLAモデルを使って、⾔語で運転判断をさせ、さらにそれを実際の操作にまで反映させる 実際の軌跡

Slide 57

Slide 57 text

57 LINGO-2 https://wayve.ai/thinking/lingo-2-driving-with-language/ VLAモデルによる⾃動運転をすでに実現させている企業もある

Slide 58

Slide 58 text

58 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 59

Slide 59 text

59 ロングテールへの対応策 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース VLAMでいけるかも?

Slide 60

Slide 60 text

60 とはいえ、エッジケースの経験を収集したい 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース VLAMでいけるかも? こういったケースを⽣成できると 嬉しい (学習にも評価にも使える)

Slide 61

Slide 61 text

61 シミュレータの利⽤ シミュレータを⽤いてシーンを作成する試みは多いがSim2Real Gapが課題 CARLA Simulator https://carla.org/ Dosovitskiy, Alexey, et al. "CARLA: An open urban driving simulator." CoRL 2017. nuScenes https://www.nuscenes.org/nuscenes Caesar, Holger, et al. "nuscenes: A multimodal dataset for autonomous driving." CVPR 2020. シミュレータと現実の⾒た⽬の差があることに加え、写っている物体の頻度の分布差 や、エージェント間の相互作⽤の挙動差が存在する。 Codevilla, Felipe, et al. "On offline evaluation of vision-based driving models." ECCV 2018. シミュレータ 実環境

Slide 62

Slide 62 text

62 世界モデル:データドリブンでシミュレータを作る Ha, David, and Jürgen Schmidhuber. "World models." NIPS 2018. エージェントの操作や時間の発展により環境がどう変化するのかをモデル化 状態ベクトル とアクションから未来の状態  を予測し、エージェントの意思決定に利⽤ 世界モデルの予測した“夢”のなかで学習した エージェントの動作 https://worldmodels.github.io/

Slide 63

Slide 63 text

63 世界モデルの構築に⽣成AIを⽤いる 「アクションで条件付け可能な未来の動画⽣成」を⽣成AIで⾏う Recurrent State Space Model(RSSM) 次の状態の予測のために、確率的な 変数を導⼊した状態空間モデル。 Dreamer [Hafner+]などで使われて いる。⾃動運転関連ではほとんど使 われていない。 Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023). Autoregressive Transformer ⾃⼰回帰トランスフォーマーを⽤い て未来の状態予測を⾏う⽅式。 IRIS(後述)などで⽤いられている。⾃ 動運転関連では、GAIA-1(後述)が有 名。 Robine, Jan, et al. "Transformer-based world models are happy with 100k interactions." ICLR 2023. Diffusion Models 拡散モデルを⽤いて将来の状態予測 を⾏う⽅式。GameNGen(後述)など はこの⽅式。⾃動運転では⾼精細な 映像が求められるため、この⽅式が 主流になっている。 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). ⾃動運転分野で主流の⽅式

Slide 64

Slide 64 text

64 関連研究:VQGAN Esser et al. (2021) Taming Transformers for High-Resolution Image Synthesis. CVPR. 2021. ⾃⼰回帰Transformerによる画像の⽣成 Encoder Decoder 1. 画像を離散トークン列に変換 学習時 Transformer 1 42 3 3 94 60 1 42 3 3 94 60 ? 42 3 3 94 60 2.Causal Language Modeling 推論時 Transformer Decoder 3.⾃⼰回帰でトークン列を⽣成 1 4.Decoderで描画

Slide 65

Slide 65 text

65 関連研究:VideoGPT VQGANと同様の⼿法で⾃⼰回帰Transformerで動画⽣成を⾏う Yan, Wilson, et al. "Videogpt: Video generation using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

Slide 66

Slide 66 text

66 関連研究:IRIS ⾃⼰回帰Transformerを⽤いてゲーム世界の世界モデルを構築 Micheli, Vincent, Eloi Alonso, and François Fleuret. "Transformers are sample-efficient world models." ICLR 2023. Transformer 画像トークン ⾏動トークン MLP MLP 報酬Head 終了状態Head 0.71 “0” 未来の画像トークン

Slide 67

Slide 67 text

67 関連:拡散モデルに条件を導⼊する⽅法 Embedder Embedding加算 条件 ノイズ 時刻変数などの条件導⼊に使わ れることが多い Cross Attention ノイズ 条件 Encoder Cross Attention テキストなどの条件導⼊に使わ れることが多い チャンネル結合 ノイズ データ Concatenate 動画⽣成において、過去のフレームな どの条件導⼊に使われることが多い

Slide 68

Slide 68 text

68 関連研究:DIAMOND 拡散モデルを⽤いてゲーム世界の世界モデルを構築 Alonso, Eloi, et al. "Diffusion for World Modeling: Visual Details Matter in Atari." arXiv preprint arXiv:2405.12399 (2024). Context チャンネル軸で結合 DNN 将来のフレームにノイズをかけて復元す ることで動画⽣成ができる。 過去のフレーム列はチャンネル列で結合 することが多い。 U-Netの各レイヤーで Embedding加算

Slide 69

Slide 69 text

69 関連研究:GameNGen 拡散モデルを⽤いてリアルタイム動作をする世界モデルを構築 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). https://www.youtube.com/watch?v=O3616ZFGpqw

Slide 70

Slide 70 text

70 ⾃動運転における世界モデルの取り組み①:GAIA-1 ⾃⼰回帰Transformerを使って、⾔語やアクションで操作可能な世界モデルを構築 Hu, Anthony, et al. "Gaia-1: A generative world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). (上) アクション操作ありの動画⽣成 (右上) テキストからの動画⽣成 (右) モデルの概要

Slide 71

Slide 71 text

71 ⾃動運転における世界モデルの取り組み②:Vista 拡散モデルを⽤いて、⾼解像度の世界モデルを構築 Gao, Shenyuan, et al. "Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability." arXiv preprint arXiv:2405.17398 (2024). https://vista-demo.github.io/

Slide 72

Slide 72 text

72 ⾃動運転における世界モデルの取り組み③:Terra チューリングでも⾃⼰回帰Transformerベースの世界モデルを構築 https://www.youtube.com/watch?v=LAv-8GkzgtQ

Slide 73

Slide 73 text

73 1. ⾃動運転は何をするタスクなのか? 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4. ⾃動運転と世界モデル 5. 課題と今後の展望

Slide 74

Slide 74 text

74 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 75

Slide 75 text

75 推論速度の問題 ⾃動運転システムは 10Hz ~ の動作周期で動く必要がある。また、計算処理も全てオンボー ドで実施が必要な環境のため、⼤規模モデルの活⽤にはハードルがある。 世界モデルも現状ではリアルタイムで動作しないためシミュレータとしては使いづらい。 課題 対策 ● 軽量なモデル(数B程度)の利⽤、量⼦化などのモデルの軽量化の⼯夫 ● ⼊出⼒のトークン数の削減 ○ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など ● ⾼速な推論アルゴリズムの利⽤ ○ MaskGITスタイル(Appendix)のトークン⽣成など

Slide 76

Slide 76 text

76 関連研究:TiTok (再掲) “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

Slide 77

Slide 77 text

77 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 78

Slide 78 text

78 Long Contextの問題 運転シーンでは数分 ~ 数時間前にコンテキストに⼊った情報が重要な場合が存在し、⻑い系 列を保持する必要性がある。 世界モデルにおいても⻑期間にわたって⼀貫性が保たれた動画を⽣成する必要性がある。⼀ ⽅で、⻑い系列の処理はメモリ消費や計算速度‧精度の観点で難しい。 課題 対策 ● ICAE等のコンテキスト圧縮⼿法の活⽤ ● ⼊出⼒のトークン数の削減 ○ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など

Slide 79

Slide 79 text

79 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context compression in a large language model." ICLR 2024. 関連研究:ICAE (再掲)

Slide 80

Slide 80 text

80 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

Slide 81

Slide 81 text

81 Hallucinations VLMは存在しないobjectの存在を主張したり、事実と反する内容を記述したりすることがある。 世界モデルでも突然⾞が虚空から出現したり、物理法則や因果の法則に反する結果が現れること もある。 課題 対策 ● モデルの予測が誤った際のフェイルセーフ機構の構築 ○ OOD検知、⼈間への操作の委譲、⾃動運転システムの判断の可視化など ● モデル‧データの⼤規模化

Slide 82

Slide 82 text

82 権限委譲できる⾃動運転システムの例:Tesla FSD

Slide 83

Slide 83 text

83 まとめ ● ⾃動運転では周囲の情報を⼊⼒として、⾃⾞の進むべき軌 跡を出⼒し続けるのが⼀つのゴール ● 稀で対応が難しいエッジケースの存在が課題となっている ● エッジケースへの対応として、Webスケールのデータで学 習されたLLM / VLM / VLAMの利⽤が研究されている ● 収集が難しいシーンを世界モデルを⽤いて⽣成する研究も ある

Slide 84

Slide 84 text

84 Appendix

Slide 85

Slide 85 text

85 画像特徴をどうトークン化するか Projectorを⽤いる⽅法と、特殊トークンにCross Attentionで情報を移す⽅法が存在 特徴ベクトル群 Projector (MLPなど) Image Encoder 画像のトークン列 Transformer ⾔語のトークン列 Image Encoder Adapter ⾔語のトークン列 Transformer 特殊トークン Projectorを⽤いる⽅式 GIT [Wang+], LLaVA [Liu+]など Cross Attentionを⽤いる⽅式 BLIP2 [Li+], Flamingo [Alayrac+] など Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." NeurIPS 2022. Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." ICML 2023. Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022). Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024.

Slide 86

Slide 86 text

86 画像特徴をどう離散トークン化するか 事前に⽤意したコードブック中のベクトルのIDを割り当てる形で離散化を⾏う Van Den Oord, Aaron, and Oriol Vinyals. "Neural discrete representation learning." NeurIPS 2017.

Slide 87

Slide 87 text

87 関連研究:Non-Autoregressive Generation (NAR) “反復的に解を改善する”という考え⽅を系列⽣成に導⼊ He, Zhengfu, et al. "Diffusionbert: Improving generative masked language models with diffusion models." ACL 2023. Discrete Diffusion Model Continuous Diffusion Model マスクを徐々に減らすように⽣成 トークンEmbeddingのノイズ除去で⽣成 Li, Xiang, et al. "Diffusion-lm improves controllable text generation." NeurIPS 2022. トークン間の依存関係を反映しづらく精度では劣るが⻑い系列の⽣成速度が強み

Slide 88

Slide 88 text

88 関連研究:MaskGIT “反復的に解を改善する”という考え⽅を画像⽣成に導⼊し⼤幅な⾼速化を実現 Chang, Huiwen, et al. "Maskgit: Masked generative image transformer." CVPR 2022.