Slide 1

Slide 1 text

⾃動運転のための世界モデル Turing TechTalk! #5 2024.10.1 19:00-19:45

Slide 2

Slide 2 text

Twitterハッシュタグ: #TuringTechTalk Turing TechTalk! #5 19:00 オープニング‧全体案内 19:05 ⾃動運転のための世界モデル 19:25 ディスカッション&質疑応答 19:45 終了 2 TechTalkとは? スケジュール メンバー ⼭⼝ 祐  CTO / Director of AI  ⾃動運転‧⽣成AI開発を統括 荒居 秀尚  ⽣成AIチーム  Kaggle Grandmaster  ⽣成世界モデルTerraを開発 岩政 公平  E2E⾃動運転チーム  Kaggle Master  ⾃動運転モデル‧データを開発 質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当する エンジニアが直接解説するオンラインイベント。 今回は「世界モデル」について深掘りします。 感想はハッシュタグ #TuringTechTalk まで

Slide 3

Slide 3 text

Twitterハッシュタグ: #TuringTechTalk チューリング株式会社 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発 ⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ 3

Slide 4

Slide 4 text

Twitterハッシュタグ: #TuringTechTalk ⽣成世界モデル「Terra」 ⾃動運転向け世界モデル「Terra」を発表 (2024.8.14) 4 Terraで⽣成した運転シーン https://www.nikkei.com/article/DGXZQOUC148HW0U4A810C2000000/

Slide 5

Slide 5 text

⾃動運転のための 世界モデル

Slide 6

Slide 6 text

Twitterハッシュタグ: #TuringTechTalk 世界モデルとは? AIがその周囲の環境を理解‧予測し、そこから 学習するための内部表現を構築するモデル ● ⼈間はどう世界を認識しているか? ○ 周囲の状況を内部的に抽象化して捉えている ○ 現在から将来や全体を予測(卵が落ちたら割れる) ● 深層学習への適応 [Ha+ 2018] ○ 「World Model」という名称が確⽴ ○ 時刻tの状態と⾏動からt+1の状態を予測する ○ VAEベースの状態遷移モデルで強化学習 VMCモデル [D. Ha+ 2018] ⾃転⾞をこぐ⾃分を抽象化 6

Slide 7

Slide 7 text

Twitterハッシュタグ: #TuringTechTalk 世界モデルができると何が嬉しい? プランニングに使える シミュレータとして使える ロボットなどのエージェントの動作を決め ることを「プランニング」と呼ぶが、世界 モデルが学習した状態表現はプランニング に有⽤である。 Enc Enc 観測 観測 状態表現 状態表現 Predictor “Go Right” アクションで条件付けした動画が⽣成でき るため、⾏動の結果何が起きるのかをシ ミュレートできる。これにより、モデルの 学習や評価ができる。 直進したら どうなる? 左に⾏ったら どうなる? 7

Slide 8

Slide 8 text

Twitterハッシュタグ: #TuringTechTalk 世界モデルの発展の歴史 世界モデルは当初、強化学習やゲームAIの分野で発展した RSSM-based Transformer-based Diffusion-based Others PlaNet World Models Robot DreamPolicy Plan2Explore DreamerV1 SimPLe Dreaming DreamerV2 LEXA PathDreamer DreamerPro DreamingV2 TransDreamer IRIS Dr.G SWIM DreamerV3 HarmonyDream DayDreamer TWM STORM SafeDreamer Genie RoboDreamer UniSim ~2020 2020 2021 2022 2023 2024 E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM ⾃動運転関連 ⾃動運転以外 Zhu, Zheng, et al. "Is sora a world simulator? a comprehensive survey on general world models and beyond." arXiv preprint arXiv:2405.03520 (2024). 8

Slide 9

Slide 9 text

Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野外の世界モデル ⾃動運転分野外では、「プランニングに使う」⽤途が主流 世界モデルの学習 プランニングの学習 ⾏動の予測 Hafner, Danijar, et al. "Dream to control: Learning behaviors by latent imagination." ICLR 2020. プランニングを⾏う世界モデルの例:Dreamer 9

Slide 10

Slide 10 text

Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野では何が違うのか? 「動きの⼤きさ」「環境の複雑性」「⾼解像映像の必要性」などが難しい点 ⾃動運転で扱う環境の例。現実世界の動 きが激しく複雑な環境を扱う必要があ る。また、信号などを適切に扱うために ⾼解像度である必要もある。 ゲームAIで扱う対象の例。⽐較的環境が単 純なため研究が先⾏して進められてきた背 景がある。強化学習と組み合わせるところ までが基本的にセットになっている。 10

Slide 11

Slide 11 text

Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 「環境をモデル化する」のがまず難しいため、プランニングまで⾏うことは稀 ~2020 2020 2021 2022 2023 2024 E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM プランニングまで実施する研究は全てシ ミュレータ環境で学習されており、実環境 とは隔たりがある シミュレータ環境で世界モデルでプランニングする例 Hu, Anthony, et al. "Model-based imitation learning for urban driving." NeurIPS 2022. 11

Slide 12

Slide 12 text

Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 点群やBEV表現、Voxel表現などを⽤いて3D空間における予測を⾏う⽅向性もある Zheng, Wenzhao, et al. "Occworld: Learning a 3d occupancy world model for autonomous driving." arXiv preprint arXiv:2311.16038 (2023). 3DのVoxel表現 (Occupancy)の時間発展を予測する研究の例:OccWorld 12

Slide 13

Slide 13 text

Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 複雑で⾼精細な映像を⽣成するため拡散モデルや⾃⼰回帰Transformerが多い 拡散モデル ⾃⼰回帰 Transformer Hu, Anthony, et al. "Gaia-1: A generative world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). Wang, Xiaofeng, et al. "Drivedreamer: Towards real-world-driven world models for autonomous driving." arXiv preprint arXiv:2309.09777 (2023). 13

Slide 14

Slide 14 text

Twitterハッシュタグ: #TuringTechTalk 研究紹介:GAIA-1 [Wayve , 2023] ⾛⾏状態を予測して未来の映像を⽣成できる ⾃動運転世界モデル。 ● ⾛⾏状態を⽣成できるTransformer ○ トークン化した映像、テキスト、アクションのセッ トをLLMのトークンのように扱うことで⾃⼰回帰的 に未来を予測できるように学習。 ● ⾔語から動画を含むマルチモーダルに拡張 ○ 動画を離散トークンに変換してTransformerで⾔語 トークンのように扱えるようにした。 ● テキストやアクションで条件付けした映像⽣成 ○ たとえば「Go left」という条件を与えて映像⽣成を すると、その条件に合った動画ができる。 GAIA-1のアーキテクチャ ( GAIA-1: A Generative World Model for Autonomous Driving ) Actionで条件付した⽣成動画のサンプル ( GAIA-1 Action conditioning ) 14

Slide 15

Slide 15 text

Twitterハッシュタグ: #TuringTechTalk 研究紹介:OccWorld [W. Zheng(清華⼤)+ , 2023] 3次元Occupancyの時間発展を予測す るモデルを⾃⼰回帰モデルで構築 ● 周囲の⾞や⾃⾞の動きを含む3次元空間 の未来を予測することができる ● ⾃⾞軌跡の予測(motion planning) タスクではSoTA相当 ● 3次元Occupancyの離散トークン化に はVQ-VAEを利⽤ 15

Slide 16

Slide 16 text

Twitterハッシュタグ: #TuringTechTalk 研究紹介:Panacea [Wen. Yuqing(中国科学技術⼤)+ , 2023] 3D-bboxなどを与えることで、交通エー ジェントを⾃由に配置できる⾃由度の⾼い 世界モデル ● BBoxを条件として与えることで、その bboxの物体を⽣成される動画に加える ● 6視点のカメラ映像を⽣成する 16

Slide 17

Slide 17 text

Twitterハッシュタグ: #TuringTechTalk 研究紹介:Vista [Gao. Shenyuan(OpenDriveLab)+ , 2024] (数少ない)オープンソースの拡散モデルベースの⾼解像度世界モデル 17

Slide 18

Slide 18 text

Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra チューリングでも2D Neural Driving Simulatorを開発している 18

Slide 19

Slide 19 text

Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraは⾃⼰回帰Transformer + LFQ Image Tokenizer + SVD Video Decoder Lookup Free Quantization(LFQ) 19

Slide 20

Slide 20 text

Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraは⾃⼰回帰Transformer + LFQ Image Tokenizer + SVD Video Decoder 20

Slide 21

Slide 21 text

Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraはなぜか事故映像(=分布外のデータ)の⽣成ができる 事故映像が⽣成できることに⾔及した研究は今のところないので多分世界初の成果 21

Slide 22

Slide 22 text

Twitterハッシュタグ: #TuringTechTalk まとめ ● 世界モデルの研究は強化学習の⽂脈で研究されてきた。 ● ⾃動運転分野では主にシミュレータとしての利⽤を狙って研究開発が進められ ている ● 動きの激しさ、環境の複雑性、⾼解像度映像の必要性、3D化など⾃動運転な らではの難しさも多くある トークセッションに続く 22

Slide 23

Slide 23 text

Twitterハッシュタグ: #TuringTechTalk アンケートのご案内 概要欄記載のアンケートへの ご協⼒をお願いします (所要時間:1~2分) 23 QRコードからも回答可能です 👇

Slide 24

Slide 24 text

Twitterハッシュタグ: #TuringTechTalk 完全⾃動運転の技術を ⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア        and more… 気になった⽅はYoutube概要欄の 求⼈のURLからご応募ください! 採⽤情報のご案内 24

Slide 25

Slide 25 text

Twitterハッシュタグ: #TuringTechTalk \今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 25

Slide 26

Slide 26 text

Twitterハッシュタグ: #TuringTechTalk 10/18(金)19:00〜 オープンオフィス イベント告知 オフラインとオンラインでイベントを開催中です 10/9 (水)18:30~ 10/29(火)18:30~ TechTalk #6 ➡アンケート回答後の画⾯からお申し込みをお待ちしております! 26

Slide 27

Slide 27 text

No content