生成AIの二大潮流と自動運転

⽣成AIの⼆⼤潮流と⾃動運転 Turing株式会社⽣成AIチーム荒居秀尚 2024/09/06 YANS 2024 チュートリアル

⾃⼰紹介 2 荒居秀尚 / Hidehisa Arai Turing株式会社 ↓Kaggle 2x
Grandmaster ↓これを作りました(今⽇話す内容の⼀部)

Turing株式会社 3 累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発⽣成AIによる実現を⽬指す
代表取締役: ⼭本⼀成設⽴: 2021年8⽉

Turing株式会社 4 累計調達額: 60億円従業員数: 40名+ 会社概要事業完全⾃動運転⾞の開発⽣成AIによる実現を⽬指す
代表取締役: ⼭本⼀成設⽴: 2021年8⽉なぜ⾃動運転の会社が⾃然⾔語処理のシンポジウムに？

5 なぜ⾃動運転の会社が、NLPのシンポジウムに？「異分野交流」「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン

6 なぜ⾃動運転の会社が、NLPのシンポジウムに？「異分野交流」「ことばがつむぐ、新たなつながり~分野の境界を超えて~」 YANS 2024のキーワード YANS 2024のスローガン Q: ⾃動運転に「ことばがつむぐ」要素はあるの？
A: 実はあります！

7 ⾃動運転開発の⼤きな障壁は“エッジケース” 次のようなケース、皆さんが直⾯したらどう対処しますか？

8 ⾃動運転開発の⼤きな障壁は“エッジケース” ⾃動運転研究の最先端では、これを“ことば”を⽤いて解決しようとしています → 後半で解説します

9 Agenda 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する
4. ⾃動運転と世界モデル 5. 課題と今後の展望

10 1. ⾃動運転は何をするタスクなのか？ 2. LLM / 拡散モデルについて 3. マルチモーダルLLMを⾃動運転に利⽤する 4.
⾃動運転と世界モデル 5. 課題と今後の展望

11 ⾃動運転AIの役割周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する自動運転 AI 入力の例：マルチカメラ /LiDAR/IMU ※最終的にはパスに沿って進むための制御⼊⼒を出⼒するのがゴールですが、この場では簡単化のため割愛します

if condition0: return else if condition1: return else if condition2:
・・・ 12 経路の出⼒には様々なアプローチがあり得るルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル

13 End-to-End⾃動運転AI マルチカメラ画像 Neural Network 将来の経路⼊⼒から経路予測までを全てNNで⾏うアプローチが近年出てきている → どう学習する？

14 End-to-End⾃動運転AIの学習⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/b rake
Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡

16 ⽣成AI周りではLLMと拡散モデルが⼆⼤トレンド ICLR2024 https://github.com/ranpox/iclr2024-openreview-submissions NeurIPS2023 https://github.com/jacobmarks/awesome-neurips-2023

17 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

18 LLMの発展に伴い発達‧浸透した考え⽅/⼿法⾊々あるとは思いますが‧‧‧ • ⾔語以外のモダリティもトークン化して⾔語モデリングと同じ枠組みで扱う(“全てをTransformerで”という考え⽅) • Attention機構を⽤いて特殊なトークン列に情報を移動させる(特殊トークンの利⽤)

19 “全てをTransformerで”という考え⽅データを「トークン列」としてTransformerで処理する⽅法は⾔語以外でも浸透 Dosovitskiy et al. (2021) An Image Is
Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. 画像分類 Vision Transformer [Dosovitskiy+] ⾳声認識 Whisper [Radford+] Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.

20 “全てをTransformerで”という考え⽅複数のモーダルのデータも同じインターフェースで扱うことができる Liu, Haotian, et al. "Visual instruction tuning."
NeurIPS 2024. LLaVA [Liu+]

21 “全てをTransformerで”という考え⽅様々なモーダルのデータを⼊出⼒し多様なタスクを解かせようという流れが存在 Reed, Scott, et al. "A Generalist Agent."
Transactions on Machine Learning Research.

22 特殊トークンの利⽤特殊なトークン列にAttentionで徐々に情報を移動させ、固定⻑の系列に圧縮する例) BERTの[CLS]トークンの出⼒は⽂章全体の情報を集約したベクトルとして使われることが多い Devlin, Jacob, et al.
“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL. 2019.

23 特殊トークンを利⽤した新しい情報圧縮 Encoder Decoder ‧‧‧ ‧‧‧ ‧‧‧ ⼀般的な⼿法による情報圧縮データ圧縮された表現
再構成されたデータ特殊トークンを⽤いた情報圧縮 Transformer ‧‧‧ ‧‧‧ ‧‧‧ Transformer ‧‧‧ ‧‧‧ ‧‧‧ データ特殊トークン特殊トークン再構成されたデータ

24 特殊トークンを利⽤した情報圧縮の例①: TiTok “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image
is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

25 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context
compression in a large language model." ICLR 2024. 特殊トークンを利⽤した情報圧縮の例②: ICAE In-Context Autoencoder

26 特殊トークンの利⽤特殊なトークン列で⽬的のタスクに必要な情報を集める指⽰を導⼊する例) Detection Transformerでは“Object Queries”と呼ばれる特殊トークンにエンコーダから物体検出の出⼒に必要な情報を集める Carion, Nicolas,
et al. "End-to-end object detection with transformers." ECCV 2020.

27 LLM / 拡散モデルについて a. LLMの発展に伴って発達した考え⽅/⼿法 b. 拡散モデルと関連技術

28 拡散モデルデータが徐々にノイズに変わっていく過程(拡散過程)の逆過程としてデータ⽣成をモデル化しているデータに微⼩なノイズを付加することを何度も繰り返すことでデータをノイズに変換する微⼩なノイズをDNNで除去することを何度も繰り返すことでノイズをデータに変換する拡散過程データ⽣成(逆拡散過程)
Sohl-Dickstein, Jascha, et al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 時刻というパラメータでノイズ強度を制御する

29 Denoising Diﬀusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et
al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新

al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新時刻情報 t が⼩さい時は、弱めにノイズを付加し、t が⼤きい時は強めにノイズを付加する

al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報学習データノイズノイズ付きデータ予測されたノイズモデルを更新様々な時刻 t の値でモデルを学習することで、どの時刻についても⼀つのモデルでノイズ予測ができるようになる

32 Denoising Diﬀusion Probabilistic Models(DDPM) Ho, Jonathan, Ajay Jain, and
Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. ⽣成時は、完全なノイズから始めてノイズを少しずつ取り除く t = T t = T-1 t = T-2 t = 1 t = 2 時刻をTから少しずつ減らしながら、ノイズ予測とそのノイズの除去を繰り返す

33 拡散モデルは学習⽅法を指しているので、ノイズ除去のDNNの選択は⾃由ノイズ除去モデルについて DNN ⼊⼒と出⼒が同じ形状なことが条件よく使われるのはU-Net Ronneberger, Olaf, Philipp
Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." MICCAI 2015. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." ICCV 2023. Transformerでもよい(DiT)

34 拡散モデルの代表的な使⽤例テキストからの画像⽣成 Rombach, Robin, et al. "High-resolution image synthesis
with latent diffusion models." CVPR 2022. https://github.com/CompVis/stable-diffusion テキストからの動画⽣成 https://research.nvidia.com/labs/toronto-ai/VideoLDM/ Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." CVPR 2023. 画像の編集 Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." SIGGRAPH 2022.

35 拡散モデルの発展に伴い発達‧浸透した考え⽅⾊々あるとは思いますが‧‧‧ • 反復的に解を改善するという⽣成⼿法

36 ここまでのまとめ LLMの発展に伴い発達‧浸透した考え⽅/⼿法 • “全てをTransformerで”という考え⽅ • 特殊トークンの利⽤拡散モデルの発展に伴い発達‧浸透した考え⽅ • 反復的に解を改善する
→ これらの考え⽅/⼿法を武器に⽣成AIが⾃動運転にどのように取り⼊れられているのかを解説します

38 運転は驚くほど難しく、⼈間は驚くほど賢い

39 運転は驚くほど難しく、⼈間は驚くほど賢いローカルの言語と記号の理解複雑な三者の関係の理解カラーコーン配置の意味人間の身体的指示の理解
運転をしていると、時折周辺環境に関する深い理解が求められる瞬間が出てくる

40 運転環境はロングテール運転状況の難しさ頻度少 ← → 難易 ←
→ 多多い / 簡単少ない / 難しい交通環境には頻度が少ないが、多様で困難な状況が存在する（= ロングテール） 100％に近づけるには既存の技術では達成困難数%の極めて難しい状況に対応するには、⾛⾏データから得られる経験では不⼗分 Makansi, Osama, et al. "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.

→ 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース問い：⾛⾏データから得られる経験では不⼗分。ではどうする？

→ 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース問い：⾛⾏データから得られる経験では不⼗分。ではどうする？答え：Webスケールのデータからの知識を取り⼊れる

43 Webスケールのデータの知識を持ったLLMを運転に役⽴てる試みが現れた LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろには
コーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM

44 LLMの⾃動運転への活⽤例運転環境の複雑な状況理解‧判断にLLMを活⽤する Fu, Daocheng, et al. "Drive like a
human: Rethinking autonomous driving with large language models." WACV 2024. (上) 運転環境において発⽣しうるレアシーンをVLMを⽤いて⾔語で記述し、GPT-3.5に状況理解を⾏わせる (右) 状況を⾔語で記述し、GPT-3.5に次の運転操作を判断させる

45 LLMの⾃動運転への活⽤例チューリングでもGPT-4などのモデルを運転に活⽤する試みを⾏っている Tanahashi, Kotaro, et al. "Evaluation of large
language models for decision making in autonomous driving." arXiv preprint arXiv:2312.06351 (2023). 物体検出器で検出した物体と、ユーザーからの運転指⽰をプロンプトとして与え、運転操作コマンドの選択と、その理由の記述をLLMに⾏わせて、実際にその操作に従って運転を⾏う試み

46 状況をテキストで表現する必要があり、制限が厳しすぎるため活⽤が難しい LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろには
コーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM わざわざテキストで状況説明する必要があるのはかなり⾯倒 →画像を直接LLMにいれたい

47 Vision & Language Models (VLMs) 学習済みLLMにVision Encoderをアダプタを⽤いて接続する⽅式が主流 Wang, Jianfeng,
et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022).

48 VLMの⾃動運転への活⽤ VLMを⽤いて、質問応答の枠組みで状況理解や運転操作の判断を⾏わせる Marcu, Ana-Maria, et al. "Lingoqa: Video question
answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) LLMにAdapterを取り付けて動画(=画像列)を扱えるようにしている Video Question Answering(VQA)タスクとして、周辺状況の理解や運転操作の判断を⾏わせている

49 VLMの⾃動運転への活⽤ Marcu, Ana-Maria, et al. "Lingoqa: Video question answering
for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) もはや直接アクションを出⼒してほしい! 連続値のアクションをLLMに出⼒させるには？

50 関連研究：RT-2 学習済みのVLMをロボットアームのアクションのデータで追加学習 Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models
transfer web knowledge to robotic control." CoRL 2023. Vision-Language-Action(VLA)モデルという新しいパラダイムを提案

51 VLMにアクションをどう出⼒させるか？問い：連続値のアクションをLLMに出⼒させるには？答え①：アクションを離散化してトークンIDを割り当てる

52 関連研究：ALOHA ロボットアームの動きを⼈間の教⽰から模倣学習する研究 Encoder-Decoder styleのTransformerでロボットの関節位置を予測している Zhao, Tony Z., et al.
"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware." RSS 2023.

53 VLMにアクションをどう出⼒させるか？問い：連続値のアクションをLLMに出⼒させるには？答え②：特殊トークンの出⼒を連続値のアクションとして解釈する

54 VLAモデルの⾃動運転への活⽤ VLMによる状況理解からさらに⼀歩進み、VLAモデルに直接運転操作を出⼒させる Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action
Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) VLMに特殊トークンを⼊⼒した時に、軌跡としてデコードするように学習を⾏う

55 VLAモデルの⾃動運転への活⽤ Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset
for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) 画像 - ⾔語 - アクションを統合したデータセットを作成ポスターも出しています([S5-P04]) Language Action “ The ego vehicle is moving slowly and turning right. There is a traﬃc light displaying a green signal … “ Frame-level captions Future trajectories Object of concern Scene recognition Reasoning captions Rule-based algorithm Behavior captions Sensor fusion Reconstructed trajectory Sensor signals Control information Throttle/brake position Steering angle Turn signal Vision 30s x 10,000 videos Radar Leading vehicle Position Speed Position Signal Object detection model Traﬃc light VLM

56 VLAモデルの⾃動運転への活⽤⾔語による⾏動計画により解釈性も向上させられる可能性がある Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action
Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traﬃc light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traﬃc light near the ego vehicle displaying a green signal. … VLAMが予測した軌跡 VLAモデルを使って、⾔語で運転判断をさせ、さらにそれを実際の操作にまで反映させる実際の軌跡

57 LINGO-2 https://wayve.ai/thinking/lingo-2-driving-with-language/ VLAモデルによる⾃動運転をすでに実現させている企業もある

59 ロングテールへの対応策運転状況の難しさ頻度少 ← → 難易 ←
→ 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース VLAMでいけるかも？

60 とはいえ、エッジケースの経験を収集したい運転状況の難しさ頻度少 ← → 難易 ←
→ 多多い / 簡単少ない / 難しい模倣学習で対応可能なケース VLAMでいけるかも？こういったケースを⽣成できると嬉しい (学習にも評価にも使える)

61 シミュレータの利⽤シミュレータを⽤いてシーンを作成する試みは多いがSim2Real Gapが課題 CARLA Simulator https://carla.org/ Dosovitskiy, Alexey, et
al. "CARLA: An open urban driving simulator." CoRL 2017. nuScenes https://www.nuscenes.org/nuscenes Caesar, Holger, et al. "nuscenes: A multimodal dataset for autonomous driving." CVPR 2020. シミュレータと現実の⾒た⽬の差があることに加え、写っている物体の頻度の分布差や、エージェント間の相互作⽤の挙動差が存在する。 Codevilla, Felipe, et al. "On offline evaluation of vision-based driving models." ECCV 2018. シミュレータ実環境

62 世界モデル：データドリブンでシミュレータを作る Ha, David, and Jürgen Schmidhuber. "World models." NIPS
2018. エージェントの操作や時間の発展により環境がどう変化するのかをモデル化状態ベクトルとアクションから未来の状態を予測し、エージェントの意思決定に利⽤世界モデルの予測した“夢”のなかで学習したエージェントの動作 https://worldmodels.github.io/

63 世界モデルの構築に⽣成AIを⽤いる「アクションで条件付け可能な未来の動画⽣成」を⽣成AIで⾏う Recurrent State Space Model(RSSM) 次の状態の予測のために、確率的な変数を導⼊した状態空間モデル。 Dreamer
[Hafner+]などで使われている。⾃動運転関連ではほとんど使われていない。 Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023). Autoregressive Transformer ⾃⼰回帰トランスフォーマーを⽤いて未来の状態予測を⾏う⽅式。 IRIS(後述)などで⽤いられている。⾃動運転関連では、GAIA-1(後述)が有名。 Robine, Jan, et al. "Transformer-based world models are happy with 100k interactions." ICLR 2023. Diﬀusion Models 拡散モデルを⽤いて将来の状態予測を⾏う⽅式。GameNGen(後述)などはこの⽅式。⾃動運転では⾼精細な映像が求められるため、この⽅式が主流になっている。 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). ⾃動運転分野で主流の⽅式

64 関連研究：VQGAN Esser et al. (2021) Taming Transformers for High-Resolution
Image Synthesis. CVPR. 2021. ⾃⼰回帰Transformerによる画像の⽣成 Encoder Decoder 1. 画像を離散トークン列に変換学習時 Transformer 1 42 3 3 94 60 1 42 3 3 94 60 ? 42 3 3 94 60 2.Causal Language Modeling 推論時 Transformer Decoder 3.⾃⼰回帰でトークン列を⽣成 1 4.Decoderで描画

65 関連研究：VideoGPT VQGANと同様の⼿法で⾃⼰回帰Transformerで動画⽣成を⾏う Yan, Wilson, et al. "Videogpt: Video generation
using vq-vae and transformers." arXiv preprint arXiv:2104.10157 (2021).

66 関連研究：IRIS ⾃⼰回帰Transformerを⽤いてゲーム世界の世界モデルを構築 Micheli, Vincent, Eloi Alonso, and François Fleuret.
"Transformers are sample-efficient world models." ICLR 2023. Transformer 画像トークン⾏動トークン MLP MLP 報酬Head 終了状態Head 0.71 “0” 未来の画像トークン

67 関連：拡散モデルに条件を導⼊する⽅法 Embedder Embedding加算条件ノイズ時刻変数などの条件導⼊に使われることが多い Cross Attention
ノイズ条件 Encoder Cross Attention テキストなどの条件導⼊に使われることが多いチャンネル結合ノイズデータ Concatenate 動画⽣成において、過去のフレームなどの条件導⼊に使われることが多い

68 関連研究：DIAMOND 拡散モデルを⽤いてゲーム世界の世界モデルを構築 Alonso, Eloi, et al. "Diffusion for World
Modeling: Visual Details Matter in Atari." arXiv preprint arXiv:2405.12399 (2024). Context チャンネル軸で結合 DNN 将来のフレームにノイズをかけて復元することで動画⽣成ができる。過去のフレーム列はチャンネル列で結合することが多い。 U-Netの各レイヤーで Embedding加算

69 関連研究：GameNGen 拡散モデルを⽤いてリアルタイム動作をする世界モデルを構築 Valevski, Dani, et al. "Diffusion Models Are
Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). https://www.youtube.com/watch?v=O3616ZFGpqw

70 ⾃動運転における世界モデルの取り組み①：GAIA-1 ⾃⼰回帰Transformerを使って、⾔語やアクションで操作可能な世界モデルを構築 Hu, Anthony, et al. "Gaia-1: A generative
world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). (上) アクション操作ありの動画⽣成 (右上) テキストからの動画⽣成 (右) モデルの概要

71 ⾃動運転における世界モデルの取り組み②：Vista 拡散モデルを⽤いて、⾼解像度の世界モデルを構築 Gao, Shenyuan, et al. "Vista: A Generalizable
Driving World Model with High Fidelity and Versatile Controllability." arXiv preprint arXiv:2405.17398 (2024). https://vista-demo.github.io/

72 ⾃動運転における世界モデルの取り組み③：Terra チューリングでも⾃⼰回帰Transformerベースの世界モデルを構築 https://www.youtube.com/watch?v=LAv-8GkzgtQ

74 ⾃動運転への⽣成AI活⽤の課題 ① 推論速度の課題 ② Long Contextの問題 ③ Hallucinations

75 推論速度の問題⾃動運転システムは 10Hz ~ の動作周期で動く必要がある。また、計算処理も全てオンボードで実施が必要な環境のため、⼤規模モデルの活⽤にはハードルがある。世界モデルも現状ではリアルタイムで動作しないためシミュレータとしては使いづらい。課題対策
• 軽量なモデル(数B程度)の利⽤、量⼦化などのモデルの軽量化の⼯夫 • ⼊出⼒のトークン数の削減 ◦ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など • ⾼速な推論アルゴリズムの利⽤ ◦ MaskGITスタイル(Appendix)のトークン⽣成など

76 関連研究：TiTok (再掲) “特殊トークンの利⽤”によりわずか32トークンで256x256の画像を表現 Yu, Qihang, et al. "An Image
is Worth 32 Tokens for Reconstruction and Generation." arXiv preprint arXiv:2406.07550 (2024).

78 Long Contextの問題運転シーンでは数分 ~ 数時間前にコンテキストに⼊った情報が重要な場合が存在し、⻑い系列を保持する必要性がある。世界モデルにおいても⻑期間にわたって⼀貫性が保たれた動画を⽣成する必要性がある。⼀⽅で、⻑い系列の処理はメモリ消費や計算速度‧精度の観点で難しい。課題
対策 • ICAE等のコンテキスト圧縮⼿法の活⽤ • ⼊出⼒のトークン数の削減 ◦ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など

79 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context
compression in a large language model." ICLR 2024. 関連研究：ICAE (再掲)

81 Hallucinations VLMは存在しないobjectの存在を主張したり、事実と反する内容を記述したりすることがある。世界モデルでも突然⾞が虚空から出現したり、物理法則や因果の法則に反する結果が現れることもある。課題対策 • モデルの予測が誤った際のフェイルセーフ機構の構築 ◦
OOD検知、⼈間への操作の委譲、⾃動運転システムの判断の可視化など • モデル‧データの⼤規模化

82 権限委譲できる⾃動運転システムの例：Tesla FSD

83 まとめ • ⾃動運転では周囲の情報を⼊⼒として、⾃⾞の進むべき軌跡を出⼒し続けるのが⼀つのゴール • 稀で対応が難しいエッジケースの存在が課題となっている • エッジケースへの対応として、Webスケールのデータで学習されたLLM
/ VLM / VLAMの利⽤が研究されている • 収集が難しいシーンを世界モデルを⽤いて⽣成する研究もある

84 Appendix

85 画像特徴をどうトークン化するか Projectorを⽤いる⽅法と、特殊トークンにCross Attentionで情報を移す⽅法が存在特徴ベクトル群 Projector (MLPなど) Image Encoder 画像のトークン列
Transformer ⾔語のトークン列 Image Encoder Adapter ⾔語のトークン列 Transformer 特殊トークン Projectorを⽤いる⽅式 GIT [Wang+], LLaVA [Liu+]など Cross Attentionを⽤いる⽅式 BLIP2 [Li+], Flamingo [Alayrac+] など Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." NeurIPS 2022. Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." ICML 2023. Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022). Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024.

86 画像特徴をどう離散トークン化するか事前に⽤意したコードブック中のベクトルのIDを割り当てる形で離散化を⾏う Van Den Oord, Aaron, and Oriol Vinyals.
"Neural discrete representation learning." NeurIPS 2017.

87 関連研究：Non-Autoregressive Generation (NAR) “反復的に解を改善する”という考え⽅を系列⽣成に導⼊ He, Zhengfu, et al. "Diffusionbert:
Improving generative masked language models with diffusion models." ACL 2023. Discrete Diﬀusion Model Continuous Diﬀusion Model マスクを徐々に減らすように⽣成トークンEmbeddingのノイズ除去で⽣成 Li, Xiang, et al. "Diffusion-lm improves controllable text generation." NeurIPS 2022. トークン間の依存関係を反映しづらく精度では劣るが⻑い系列の⽣成速度が強み

88 関連研究：MaskGIT “反復的に解を改善する”という考え⽅を画像⽣成に導⼊し⼤幅な⾼速化を実現 Chang, Huiwen, et al. "Maskgit: Masked generative
image transformer." CVPR 2022.

生成AIの二大潮流と自動運転

生成AIの二大潮流と自動運転

More Decks by Hidehisa Arai

Featured

Transcript