Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Turing TechTalk #5

Turing
October 01, 2024
710

Turing TechTalk #5

2024年10月1日のイベント「Turing TechTalk #5 自動運転のための世界モデル」にて使用した資料です。

Turing

October 01, 2024

Transcript

  1. Twitterハッシュタグ: #TuringTechTalk Turing TechTalk! #5 19:00 オープニング‧全体案内 19:05 ⾃動運転のための世界モデル 19:25

    ディスカッション&質疑応答 19:45 終了 2 TechTalkとは? スケジュール メンバー ⼭⼝ 祐  CTO / Director of AI  ⾃動運転‧⽣成AI開発を統括 荒居 秀尚  ⽣成AIチーム  Kaggle Grandmaster  ⽣成世界モデルTerraを開発 岩政 公平  E2E⾃動運転チーム  Kaggle Master  ⾃動運転モデル‧データを開発 質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当する エンジニアが直接解説するオンラインイベント。 今回は「世界モデル」について深掘りします。 感想はハッシュタグ #TuringTechTalk まで
  2. Twitterハッシュタグ: #TuringTechTalk 世界モデルとは? AIがその周囲の環境を理解‧予測し、そこから 学習するための内部表現を構築するモデル • ⼈間はどう世界を認識しているか? ◦ 周囲の状況を内部的に抽象化して捉えている ◦

    現在から将来や全体を予測(卵が落ちたら割れる) • 深層学習への適応 [Ha+ 2018] ◦ 「World Model」という名称が確⽴ ◦ 時刻tの状態と⾏動からt+1の状態を予測する ◦ VAEベースの状態遷移モデルで強化学習 VMCモデル [D. Ha+ 2018] ⾃転⾞をこぐ⾃分を抽象化 6
  3. Twitterハッシュタグ: #TuringTechTalk 世界モデルができると何が嬉しい? プランニングに使える シミュレータとして使える ロボットなどのエージェントの動作を決め ることを「プランニング」と呼ぶが、世界 モデルが学習した状態表現はプランニング に有⽤である。 Enc

    Enc 観測 観測 状態表現 状態表現 Predictor “Go Right” アクションで条件付けした動画が⽣成でき るため、⾏動の結果何が起きるのかをシ ミュレートできる。これにより、モデルの 学習や評価ができる。 直進したら どうなる? 左に⾏ったら どうなる? 7
  4. Twitterハッシュタグ: #TuringTechTalk 世界モデルの発展の歴史 世界モデルは当初、強化学習やゲームAIの分野で発展した RSSM-based Transformer-based Diffusion-based Others PlaNet World

    Models Robot DreamPolicy Plan2Explore DreamerV1 SimPLe Dreaming DreamerV2 LEXA PathDreamer DreamerPro DreamingV2 TransDreamer IRIS Dr.G SWIM DreamerV3 HarmonyDream DayDreamer TWM STORM SafeDreamer Genie RoboDreamer UniSim ~2020 2020 2021 2022 2023 2024 E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM ⾃動運転関連 ⾃動運転以外 Zhu, Zheng, et al. "Is sora a world simulator? a comprehensive survey on general world models and beyond." arXiv preprint arXiv:2405.03520 (2024). 8
  5. Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 「環境をモデル化する」のがまず難しいため、プランニングまで⾏うことは稀 ~2020 2020 2021 2022 2023 2024

    E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM プランニングまで実施する研究は全てシ ミュレータ環境で学習されており、実環境 とは隔たりがある シミュレータ環境で世界モデルでプランニングする例 Hu, Anthony, et al. "Model-based imitation learning for urban driving." NeurIPS 2022. 11
  6. Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 点群やBEV表現、Voxel表現などを⽤いて3D空間における予測を⾏う⽅向性もある Zheng, Wenzhao, et al. "Occworld: Learning

    a 3d occupancy world model for autonomous driving." arXiv preprint arXiv:2311.16038 (2023). 3DのVoxel表現 (Occupancy)の時間発展を予測する研究の例:OccWorld 12
  7. Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 複雑で⾼精細な映像を⽣成するため拡散モデルや⾃⼰回帰Transformerが多い 拡散モデル ⾃⼰回帰 Transformer Hu, Anthony, et

    al. "Gaia-1: A generative world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). Wang, Xiaofeng, et al. "Drivedreamer: Towards real-world-driven world models for autonomous driving." arXiv preprint arXiv:2309.09777 (2023). 13
  8. Twitterハッシュタグ: #TuringTechTalk 研究紹介:GAIA-1 [Wayve , 2023] ⾛⾏状態を予測して未来の映像を⽣成できる ⾃動運転世界モデル。 • ⾛⾏状態を⽣成できるTransformer

    ◦ トークン化した映像、テキスト、アクションのセッ トをLLMのトークンのように扱うことで⾃⼰回帰的 に未来を予測できるように学習。 • ⾔語から動画を含むマルチモーダルに拡張 ◦ 動画を離散トークンに変換してTransformerで⾔語 トークンのように扱えるようにした。 • テキストやアクションで条件付けした映像⽣成 ◦ たとえば「Go left」という条件を与えて映像⽣成を すると、その条件に合った動画ができる。 GAIA-1のアーキテクチャ ( GAIA-1: A Generative World Model for Autonomous Driving ) Actionで条件付した⽣成動画のサンプル ( GAIA-1 Action conditioning ) 14
  9. Twitterハッシュタグ: #TuringTechTalk 研究紹介:OccWorld [W. Zheng(清華⼤)+ , 2023] 3次元Occupancyの時間発展を予測す るモデルを⾃⼰回帰モデルで構築 •

    周囲の⾞や⾃⾞の動きを含む3次元空間 の未来を予測することができる • ⾃⾞軌跡の予測(motion planning) タスクではSoTA相当 • 3次元Occupancyの離散トークン化に はVQ-VAEを利⽤ 15