Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Turing TechTalk #5
Search
Turing
PRO
October 01, 2024
1
710
Turing TechTalk #5
2024年10月1日のイベント「Turing TechTalk #5 自動運転のための世界モデル」にて使用した資料です。
Turing
PRO
October 01, 2024
More Decks by Turing
See All by Turing
Turing TechTalk! #6
turing
PRO
2
520
Turing Company Deck Nobember 2024ver
turing
PRO
1
49
End-to-End自動運転開発チーム紹介資料
turing
PRO
1
780
Edge Computer開発チーム/紹介資料
turing
PRO
0
100
生成AIチーム/紹介資料
turing
PRO
0
210
Turing会社紹介資料
turing
PRO
5
63k
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
2
290
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
For a Future-Friendly Web
brad_frost
175
9.4k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Designing for Performance
lara
604
68k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
2
170
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.4k
Transcript
⾃動運転のための世界モデル Turing TechTalk! #5 2024.10.1 19:00-19:45
Twitterハッシュタグ: #TuringTechTalk Turing TechTalk! #5 19:00 オープニング‧全体案内 19:05 ⾃動運転のための世界モデル 19:25
ディスカッション&質疑応答 19:45 終了 2 TechTalkとは? スケジュール メンバー ⼭⼝ 祐 CTO / Director of AI ⾃動運転‧⽣成AI開発を統括 荒居 秀尚 ⽣成AIチーム Kaggle Grandmaster ⽣成世界モデルTerraを開発 岩政 公平 E2E⾃動運転チーム Kaggle Master ⾃動運転モデル‧データを開発 質問はYouTube Liveコメントまで! チューリングの最新の研究開発内容を、担当する エンジニアが直接解説するオンラインイベント。 今回は「世界モデル」について深掘りします。 感想はハッシュタグ #TuringTechTalk まで
Twitterハッシュタグ: #TuringTechTalk チューリング株式会社 累計調達額: 60億円 従業員数: 40名+ 会社概要 事業 完全⾃動運転⾞の開発
⽣成AIによる実現を⽬指す 代表取締役: ⼭本⼀成 設⽴: 2021年8⽉ 3
Twitterハッシュタグ: #TuringTechTalk ⽣成世界モデル「Terra」 ⾃動運転向け世界モデル「Terra」を発表 (2024.8.14) 4 Terraで⽣成した運転シーン https://www.nikkei.com/article/DGXZQOUC148HW0U4A810C2000000/
⾃動運転のための 世界モデル
Twitterハッシュタグ: #TuringTechTalk 世界モデルとは? AIがその周囲の環境を理解‧予測し、そこから 学習するための内部表現を構築するモデル • ⼈間はどう世界を認識しているか? ◦ 周囲の状況を内部的に抽象化して捉えている ◦
現在から将来や全体を予測(卵が落ちたら割れる) • 深層学習への適応 [Ha+ 2018] ◦ 「World Model」という名称が確⽴ ◦ 時刻tの状態と⾏動からt+1の状態を予測する ◦ VAEベースの状態遷移モデルで強化学習 VMCモデル [D. Ha+ 2018] ⾃転⾞をこぐ⾃分を抽象化 6
Twitterハッシュタグ: #TuringTechTalk 世界モデルができると何が嬉しい? プランニングに使える シミュレータとして使える ロボットなどのエージェントの動作を決め ることを「プランニング」と呼ぶが、世界 モデルが学習した状態表現はプランニング に有⽤である。 Enc
Enc 観測 観測 状態表現 状態表現 Predictor “Go Right” アクションで条件付けした動画が⽣成でき るため、⾏動の結果何が起きるのかをシ ミュレートできる。これにより、モデルの 学習や評価ができる。 直進したら どうなる? 左に⾏ったら どうなる? 7
Twitterハッシュタグ: #TuringTechTalk 世界モデルの発展の歴史 世界モデルは当初、強化学習やゲームAIの分野で発展した RSSM-based Transformer-based Diffusion-based Others PlaNet World
Models Robot DreamPolicy Plan2Explore DreamerV1 SimPLe Dreaming DreamerV2 LEXA PathDreamer DreamerPro DreamingV2 TransDreamer IRIS Dr.G SWIM DreamerV3 HarmonyDream DayDreamer TWM STORM SafeDreamer Genie RoboDreamer UniSim ~2020 2020 2021 2022 2023 2024 E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM ⾃動運転関連 ⾃動運転以外 Zhu, Zheng, et al. "Is sora a world simulator? a comprehensive survey on general world models and beyond." arXiv preprint arXiv:2405.03520 (2024). 8
Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野外の世界モデル ⾃動運転分野外では、「プランニングに使う」⽤途が主流 世界モデルの学習 プランニングの学習 ⾏動の予測 Hafner, Danijar, et
al. "Dream to control: Learning behaviors by latent imagination." ICLR 2020. プランニングを⾏う世界モデルの例:Dreamer 9
Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野では何が違うのか? 「動きの⼤きさ」「環境の複雑性」「⾼解像映像の必要性」などが難しい点 ⾃動運転で扱う環境の例。現実世界の動 きが激しく複雑な環境を扱う必要があ る。また、信号などを適切に扱うために ⾼解像度である必要もある。 ゲームAIで扱う対象の例。⽐較的環境が単 純なため研究が先⾏して進められてきた背
景がある。強化学習と組み合わせるところ までが基本的にセットになっている。 10
Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 「環境をモデル化する」のがまず難しいため、プランニングまで⾏うことは稀 ~2020 2020 2021 2022 2023 2024
E2E Driving World Model 2D Neural Driving Simulator 3D Neural Driving Simulator Learning a Driving Simulator SEM2 MILE Iso-Dream TrafficBots UniWorld DriveDreamer GAIA-1 Driving Diffusion Copilot4D ADriver-I MUVO OccWorld Panacea DriveWM WoVoGen ViDAR Think2Drive DriveDreamer-2 GenAD SubjectDrive LidarDM プランニングまで実施する研究は全てシ ミュレータ環境で学習されており、実環境 とは隔たりがある シミュレータ環境で世界モデルでプランニングする例 Hu, Anthony, et al. "Model-based imitation learning for urban driving." NeurIPS 2022. 11
Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 点群やBEV表現、Voxel表現などを⽤いて3D空間における予測を⾏う⽅向性もある Zheng, Wenzhao, et al. "Occworld: Learning
a 3d occupancy world model for autonomous driving." arXiv preprint arXiv:2311.16038 (2023). 3DのVoxel表現 (Occupancy)の時間発展を予測する研究の例:OccWorld 12
Twitterハッシュタグ: #TuringTechTalk ⾃動運転分野の世界モデル研究 複雑で⾼精細な映像を⽣成するため拡散モデルや⾃⼰回帰Transformerが多い 拡散モデル ⾃⼰回帰 Transformer Hu, Anthony, et
al. "Gaia-1: A generative world model for autonomous driving." arXiv preprint arXiv:2309.17080 (2023). Wang, Xiaofeng, et al. "Drivedreamer: Towards real-world-driven world models for autonomous driving." arXiv preprint arXiv:2309.09777 (2023). 13
Twitterハッシュタグ: #TuringTechTalk 研究紹介:GAIA-1 [Wayve , 2023] ⾛⾏状態を予測して未来の映像を⽣成できる ⾃動運転世界モデル。 • ⾛⾏状態を⽣成できるTransformer
◦ トークン化した映像、テキスト、アクションのセッ トをLLMのトークンのように扱うことで⾃⼰回帰的 に未来を予測できるように学習。 • ⾔語から動画を含むマルチモーダルに拡張 ◦ 動画を離散トークンに変換してTransformerで⾔語 トークンのように扱えるようにした。 • テキストやアクションで条件付けした映像⽣成 ◦ たとえば「Go left」という条件を与えて映像⽣成を すると、その条件に合った動画ができる。 GAIA-1のアーキテクチャ ( GAIA-1: A Generative World Model for Autonomous Driving ) Actionで条件付した⽣成動画のサンプル ( GAIA-1 Action conditioning ) 14
Twitterハッシュタグ: #TuringTechTalk 研究紹介:OccWorld [W. Zheng(清華⼤)+ , 2023] 3次元Occupancyの時間発展を予測す るモデルを⾃⼰回帰モデルで構築 •
周囲の⾞や⾃⾞の動きを含む3次元空間 の未来を予測することができる • ⾃⾞軌跡の予測(motion planning) タスクではSoTA相当 • 3次元Occupancyの離散トークン化に はVQ-VAEを利⽤ 15
Twitterハッシュタグ: #TuringTechTalk 研究紹介:Panacea [Wen. Yuqing(中国科学技術⼤)+ , 2023] 3D-bboxなどを与えることで、交通エー ジェントを⾃由に配置できる⾃由度の⾼い 世界モデル
• BBoxを条件として与えることで、その bboxの物体を⽣成される動画に加える • 6視点のカメラ映像を⽣成する 16
Twitterハッシュタグ: #TuringTechTalk 研究紹介:Vista [Gao. Shenyuan(OpenDriveLab)+ , 2024] (数少ない)オープンソースの拡散モデルベースの⾼解像度世界モデル 17
Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra チューリングでも2D Neural Driving Simulatorを開発している 18
Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraは⾃⼰回帰Transformer + LFQ Image Tokenizer + SVD
Video Decoder Lookup Free Quantization(LFQ) 19
Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraは⾃⼰回帰Transformer + LFQ Image Tokenizer + SVD
Video Decoder 20
Twitterハッシュタグ: #TuringTechTalk チューリングの取り組み:Terra Terraはなぜか事故映像(=分布外のデータ)の⽣成ができる 事故映像が⽣成できることに⾔及した研究は今のところないので多分世界初の成果 21
Twitterハッシュタグ: #TuringTechTalk まとめ • 世界モデルの研究は強化学習の⽂脈で研究されてきた。 • ⾃動運転分野では主にシミュレータとしての利⽤を狙って研究開発が進められ ている • 動きの激しさ、環境の複雑性、⾼解像度映像の必要性、3D化など⾃動運転な
らではの難しさも多くある トークセッションに続く 22
Twitterハッシュタグ: #TuringTechTalk アンケートのご案内 概要欄記載のアンケートへの ご協⼒をお願いします (所要時間:1~2分) 23 QRコードからも回答可能です 👇
Twitterハッシュタグ: #TuringTechTalk 完全⾃動運転の技術を ⼀緒に作る仲間を募集しています ‧MLエンジニア ‧リサーチャー ‧ソフトウェアエンジニア ‧インフラエンジニア and more…
気になった⽅はYoutube概要欄の 求⼈のURLからご応募ください! 採⽤情報のご案内 24
Twitterハッシュタグ: #TuringTechTalk \今⽉末までの応募者にキャンペーンを実施中∕ 採⽤情報のご案内 25
Twitterハッシュタグ: #TuringTechTalk 10/18(金)19:00〜 オープンオフィス イベント告知 オフラインとオンラインでイベントを開催中です 10/9 (水)18:30~ 10/29(火)18:30~ TechTalk
#6 ➡アンケート回答後の画⾯からお申し込みをお待ちしております! 26
None