Upgrade to Pro — share decks privately, control downloads, hide ads and more …

生成AIの二大潮流と自動運転

Hidehisa Arai
September 05, 2024
8.5k

 生成AIの二大潮流と自動運転

https://yans.anlp.jp/entry/yans2024 での講演スライドです。

Hidehisa Arai

September 05, 2024
Tweet

Transcript

  1. ⾃⼰紹介 2 荒居 秀尚 / Hidehisa Arai Turing株式会社 ↓Kaggle 2x

    Grandmaster ↓これを作りました(今⽇話す内容の⼀部)
  2. Turing株式会社 4 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す

    代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ なぜ⾃動運転の会社が⾃然⾔語処理のシンポジウムに?
  3. if condition0: return else if condition1: return else if condition2:

    ・・・ 12 経路の出⼒には様々なアプローチがあり得る ルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能 自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル
  4. 14 End-to-End⾃動運転AIの学習 ⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/b rake

    Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡
  5. 19 “全てをTransformerで”という考え⽅ データを「トークン列」としてTransformerで処理する⽅法は⾔語以外でも浸透 Dosovitskiy et al. (2021) An Image Is

    Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. 画像分類 Vision Transformer [Dosovitskiy+] ⾳声認識 Whisper [Radford+] Radford, Alec, et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.
  6. 23 特殊トークンを利⽤した新しい情報圧縮 Encoder Decoder ‧‧‧ ‧‧‧ ‧‧‧ ⼀般的な⼿法による情報圧縮 データ 圧縮された表現

    再構成されたデータ 特殊トークンを⽤いた情報圧縮 Transformer ‧‧‧ ‧‧‧ ‧‧‧ Transformer ‧‧‧ ‧‧‧ ‧‧‧ データ 特殊トークン 特殊トークン 再構成されたデータ
  7. 25 “特殊トークンの利⽤”をコンテキストの圧縮に利⽤ Ge, Tao, et al. "In-context autoencoder for context

    compression in a large language model." ICLR 2024. 特殊トークンを利⽤した情報圧縮の例②: ICAE In-Context Autoencoder
  8. 29 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et

    al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新
  9. 30 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et

    al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新 時刻情報 t が⼩さい時は、弱めに ノイズを付加し、t が⼤きい時は 強めにノイズを付加する
  10. 31 Denoising Diffusion Probabilistic Models(DDPM) ノイズが付加されたデータのノイズを予測するように学習 DNN Sohl-Dickstein, Jascha, et

    al. "Deep unsupervised learning using nonequilibrium thermodynamics." ICML 2015. Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. 学習の流れ ① ノイズの付加 ② ノイズ付きデータと時刻情報をノイズ除去モデルに⼊⼒する ③ ノイズ除去モデルは元のノイズを予測 ④ ⼆乗誤差を⼩さくするようにモデルを更新 ① ② ③ 二乗誤差 ④ 時刻情報 学習データ ノイズ ノイズ付き データ 予測された ノイズ モデルを更新 様々な時刻 t の値でモデルを学習 することで、どの時刻についても ⼀つのモデルでノイズ予測ができ るようになる
  11. 32 Denoising Diffusion Probabilistic Models(DDPM) Ho, Jonathan, Ajay Jain, and

    Pieter Abbeel. "Denoising diffusion probabilistic models." NeurIPS 2020. ⽣成時は、完全なノイズから始めてノイズを少しずつ取り除く t = T t = T-1 t = T-2 t = 1 t = 2 時刻をTから少しずつ減らしながら、ノイズ予測とそのノイズの除去を繰り返す
  12. 33 拡散モデルは学習⽅法を指しているので、ノイズ除去のDNNの選択は⾃由 ノイズ除去モデルについて DNN ⼊⼒と出⼒が同じ形状 なことが条件 よく使われるのはU-Net Ronneberger, Olaf, Philipp

    Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." MICCAI 2015. Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." ICCV 2023. Transformerでもよい(DiT)
  13. 34 拡散モデルの代表的な使⽤例 テキストからの画像⽣成 Rombach, Robin, et al. "High-resolution image synthesis

    with latent diffusion models." CVPR 2022. https://github.com/CompVis/stable-diffusion テキストからの動画⽣成 https://research.nvidia.com/labs/toronto-ai/VideoLDM/ Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." CVPR 2023. 画像の編集 Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." SIGGRAPH 2022.
  14. 40 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ←

    → 多 多い / 簡単 少ない / 難しい 交通環境には頻度が少ないが、 多様で困難な状況が存在する (= ロングテール) 100%に近づけるには既存の技術 では達成困難 数%の極めて難しい状況に対応するには、⾛⾏データから得られる経験では不⼗分 Makansi, Osama, et al. "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.
  15. 41 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ←

    → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース 問い:⾛⾏データから得られる経験では不⼗分。    ではどうする?
  16. 42 運転環境はロングテール 運転状況の難しさ 頻度 少 ← → 難 易 ←

    → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース 問い:⾛⾏データから得られる経験では不⼗分。    ではどうする? 答え:Webスケールのデータからの知識を取り⼊れる
  17. 44 LLMの⾃動運転への活⽤例 運転環境の複雑な状況理解‧判断にLLMを活⽤する Fu, Daocheng, et al. "Drive like a

    human: Rethinking autonomous driving with large language models." WACV 2024. (上) 運転環境において発⽣しうるレアシーンをVLMを ⽤いて⾔語で記述し、GPT-3.5に状況理解を⾏わせる (右) 状況を⾔語で記述し、GPT-3.5に次の運転操作を 判断させる
  18. 45 LLMの⾃動運転への活⽤例 チューリングでもGPT-4などのモデルを運転に活⽤する試みを⾏っている Tanahashi, Kotaro, et al. "Evaluation of large

    language models for decision making in autonomous driving." arXiv preprint arXiv:2312.06351 (2023). 物体検出器で検出した物体と、ユーザーからの運転指⽰をプロンプトとして与え、運転操作コマンドの選 択と、その理由の記述をLLMに⾏わせて、実際にその操作に従って運転を⾏う試み
  19. 46 状況をテキストで表現する必要があり、制限が厳しすぎるため活⽤が難しい LLMの⾃動運転への活⽤ “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろにはコーンが 並べられているエリアがあり⼯事をしている。⼯事中のエリアは‧‧‧” 何らかの⼿段でテキストで 状況を説明 Prompt > “交差点の⼿前には交通指⽰員が⽴っている。指⽰員の後ろには

    コーンが並べられているエリアがあり⼯事をしている。⼯事中のエリアは ‧‧‧” GPT > “このような状況では交通指⽰員の指⽰に従う必要があります ‧‧‧” LLM わざわざテキストで状況説明する必 要があるのはかなり⾯倒 →画像を直接LLMにいれたい
  20. 47 Vision & Language Models (VLMs) 学習済みLLMにVision Encoderをアダプタを⽤いて接続する⽅式が主流 Wang, Jianfeng,

    et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022).
  21. 48 VLMの⾃動運転への活⽤ VLMを⽤いて、質問応答の枠組みで状況理解や運転操作の判断を⾏わせる Marcu, Ana-Maria, et al. "Lingoqa: Video question

    answering for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) LLMにAdapterを取り付けて動画(=画像列)を扱え るようにしている Video Question Answering(VQA)タスクとして、周辺 状況の理解や運転操作の判断を⾏わせている
  22. 49 VLMの⾃動運転への活⽤ Marcu, Ana-Maria, et al. "Lingoqa: Video question answering

    for autonomous driving." arXiv preprint arXiv:2312.14115 (2023) もはや直接アクションを出⼒してほしい! 連続値のアクションをLLMに出⼒させるには?
  23. 50 関連研究:RT-2 学習済みのVLMをロボットアームのアクションのデータで追加学習 Zitkovich, Brianna, et al. "Rt-2: Vision-language-action models

    transfer web knowledge to robotic control." CoRL 2023. Vision-Language-Action(VLA)モデルという新しいパラダイムを提案
  24. 54 VLAモデルの⾃動運転への活⽤ VLMによる状況理解からさらに⼀歩進み、VLAモデルに直接運転操作を出⼒させる Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action

    Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) VLMに特殊トークンを⼊⼒した時に、軌跡としてデコードするように学習を⾏う
  25. 55 VLAモデルの⾃動運転への活⽤ Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action Dataset

    for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) 画像 - ⾔語 - アクションを統合したデータセットを作成 ポスターも出しています([S5-P04]) Language Action “ The ego vehicle is moving slowly and turning right. There is a traffic light displaying a green signal … “ Frame-level captions Future trajectories Object of concern Scene recognition Reasoning captions Rule-based algorithm Behavior captions Sensor fusion Reconstructed trajectory Sensor signals Control information Throttle/brake position Steering angle Turn signal Vision 30s x 10,000 videos Radar Leading vehicle Position Speed Position Signal Object detection model Traffic light VLM
  26. 56 VLAモデルの⾃動運転への活⽤ ⾔語による⾏動計画により解釈性も向上させられる可能性がある Arai, Hidehisa, et al. "CoVLA: Comprehensive Vision-Language-Action

    Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traffic light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traffic light near the ego vehicle displaying a green signal. … VLAMが予測した軌跡 VLAモデルを使って、⾔語で運転判断をさせ、さらにそれを実際の操作にまで反映させる 実際の軌跡
  27. 59 ロングテールへの対応策 運転状況の難しさ 頻度 少 ← → 難 易 ←

    → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース VLAMでいけるかも?
  28. 60 とはいえ、エッジケースの経験を収集したい 運転状況の難しさ 頻度 少 ← → 難 易 ←

    → 多 多い / 簡単 少ない / 難しい 模倣学習で対応可能なケース VLAMでいけるかも? こういったケースを⽣成できると 嬉しい (学習にも評価にも使える)
  29. 61 シミュレータの利⽤ シミュレータを⽤いてシーンを作成する試みは多いがSim2Real Gapが課題 CARLA Simulator https://carla.org/ Dosovitskiy, Alexey, et

    al. "CARLA: An open urban driving simulator." CoRL 2017. nuScenes https://www.nuscenes.org/nuscenes Caesar, Holger, et al. "nuscenes: A multimodal dataset for autonomous driving." CVPR 2020. シミュレータと現実の⾒た⽬の差があることに加え、写っている物体の頻度の分布差 や、エージェント間の相互作⽤の挙動差が存在する。 Codevilla, Felipe, et al. "On offline evaluation of vision-based driving models." ECCV 2018. シミュレータ 実環境
  30. 62 世界モデル:データドリブンでシミュレータを作る Ha, David, and Jürgen Schmidhuber. "World models." NIPS

    2018. エージェントの操作や時間の発展により環境がどう変化するのかをモデル化 状態ベクトル とアクションから未来の状態  を予測し、エージェントの意思決定に利⽤ 世界モデルの予測した“夢”のなかで学習した エージェントの動作 https://worldmodels.github.io/
  31. 63 世界モデルの構築に⽣成AIを⽤いる 「アクションで条件付け可能な未来の動画⽣成」を⽣成AIで⾏う Recurrent State Space Model(RSSM) 次の状態の予測のために、確率的な 変数を導⼊した状態空間モデル。 Dreamer

    [Hafner+]などで使われて いる。⾃動運転関連ではほとんど使 われていない。 Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023). Autoregressive Transformer ⾃⼰回帰トランスフォーマーを⽤い て未来の状態予測を⾏う⽅式。 IRIS(後述)などで⽤いられている。⾃ 動運転関連では、GAIA-1(後述)が有 名。 Robine, Jan, et al. "Transformer-based world models are happy with 100k interactions." ICLR 2023. Diffusion Models 拡散モデルを⽤いて将来の状態予測 を⾏う⽅式。GameNGen(後述)など はこの⽅式。⾃動運転では⾼精細な 映像が求められるため、この⽅式が 主流になっている。 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). ⾃動運転分野で主流の⽅式
  32. 64 関連研究:VQGAN Esser et al. (2021) Taming Transformers for High-Resolution

    Image Synthesis. CVPR. 2021. ⾃⼰回帰Transformerによる画像の⽣成 Encoder Decoder 1. 画像を離散トークン列に変換 学習時 Transformer 1 42 3 3 94 60 1 42 3 3 94 60 ? 42 3 3 94 60 2.Causal Language Modeling 推論時 Transformer Decoder 3.⾃⼰回帰でトークン列を⽣成 1 4.Decoderで描画
  33. 66 関連研究:IRIS ⾃⼰回帰Transformerを⽤いてゲーム世界の世界モデルを構築 Micheli, Vincent, Eloi Alonso, and François Fleuret.

    "Transformers are sample-efficient world models." ICLR 2023. Transformer 画像トークン ⾏動トークン MLP MLP 報酬Head 終了状態Head 0.71 “0” 未来の画像トークン
  34. 67 関連:拡散モデルに条件を導⼊する⽅法 Embedder Embedding加算 条件 ノイズ 時刻変数などの条件導⼊に使わ れることが多い Cross Attention

    ノイズ 条件 Encoder Cross Attention テキストなどの条件導⼊に使わ れることが多い チャンネル結合 ノイズ データ Concatenate 動画⽣成において、過去のフレームな どの条件導⼊に使われることが多い
  35. 68 関連研究:DIAMOND 拡散モデルを⽤いてゲーム世界の世界モデルを構築 Alonso, Eloi, et al. "Diffusion for World

    Modeling: Visual Details Matter in Atari." arXiv preprint arXiv:2405.12399 (2024). Context チャンネル軸で結合 DNN 将来のフレームにノイズをかけて復元す ることで動画⽣成ができる。 過去のフレーム列はチャンネル列で結合 することが多い。 U-Netの各レイヤーで Embedding加算
  36. 69 関連研究:GameNGen 拡散モデルを⽤いてリアルタイム動作をする世界モデルを構築 Valevski, Dani, et al. "Diffusion Models Are

    Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). https://www.youtube.com/watch?v=O3616ZFGpqw
  37. 70 ⾃動運転における世界モデルの取り組み①:GAIA-1 ⾃⼰回帰Transformerを使って、⾔語やアクションで操作可能な世界モデルを構築 Hu, Anthony, et al. "Gaia-1: A generative

    world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). (上) アクション操作ありの動画⽣成 (右上) テキストからの動画⽣成 (右) モデルの概要
  38. 71 ⾃動運転における世界モデルの取り組み②:Vista 拡散モデルを⽤いて、⾼解像度の世界モデルを構築 Gao, Shenyuan, et al. "Vista: A Generalizable

    Driving World Model with High Fidelity and Versatile Controllability." arXiv preprint arXiv:2405.17398 (2024). https://vista-demo.github.io/
  39. 75 推論速度の問題 ⾃動運転システムは 10Hz ~ の動作周期で動く必要がある。また、計算処理も全てオンボー ドで実施が必要な環境のため、⼤規模モデルの活⽤にはハードルがある。 世界モデルも現状ではリアルタイムで動作しないためシミュレータとしては使いづらい。 課題 対策

    • 軽量なモデル(数B程度)の利⽤、量⼦化などのモデルの軽量化の⼯夫 • ⼊出⼒のトークン数の削減 ◦ TiTok等の圧縮率の⾼い画像エンコーダの利⽤など • ⾼速な推論アルゴリズムの利⽤ ◦ MaskGITスタイル(Appendix)のトークン⽣成など
  40. 85 画像特徴をどうトークン化するか Projectorを⽤いる⽅法と、特殊トークンにCross Attentionで情報を移す⽅法が存在 特徴ベクトル群 Projector (MLPなど) Image Encoder 画像のトークン列

    Transformer ⾔語のトークン列 Image Encoder Adapter ⾔語のトークン列 Transformer 特殊トークン Projectorを⽤いる⽅式 GIT [Wang+], LLaVA [Liu+]など Cross Attentionを⽤いる⽅式 BLIP2 [Li+], Flamingo [Alayrac+] など Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." NeurIPS 2022. Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." ICML 2023. Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022). Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024.
  41. 87 関連研究:Non-Autoregressive Generation (NAR) “反復的に解を改善する”という考え⽅を系列⽣成に導⼊ He, Zhengfu, et al. "Diffusionbert:

    Improving generative masked language models with diffusion models." ACL 2023. Discrete Diffusion Model Continuous Diffusion Model マスクを徐々に減らすように⽣成 トークンEmbeddingのノイズ除去で⽣成 Li, Xiang, et al. "Diffusion-lm improves controllable text generation." NeurIPS 2022. トークン間の依存関係を反映しづらく精度では劣るが⻑い系列の⽣成速度が強み