Slide 1

Slide 1 text

ITSC2024 論⽂発表ウェビナー 株式会社Elith 下村 晃太

Slide 2

Slide 2 text

自己紹介 2 下村 晃太@愛知 中部大学 工学研究科 博士後期課程1年 山下研究室 Elith : Computer Vision Researcher 研究テーマ • 安全な自律走行システムに関する研究 • 先進運転支援システムに関する研究 Interest • CV, VLM, 3DGS X : @Naruch11

Slide 3

Slide 3 text

アジェンダ ● ITSCとは ● ITSC2024採択論文のお話 ● ITSへのCV, NLPの応用 3

Slide 4

Slide 4 text

ITSCとは ● ITSC : International Conference on Intelligent Transportation Systems ○ 高度道路交通システム分野の主要国際会議 ○ 交通システムの安全性、効率性、持続可能性を向上させるためのITSに関する議論が活発 ● 主な採択テーマ ○ 自動運転車とロボティクス交通管理 ○ 制御システムコネクテッド交通 ○ 自動化技術機械学習やAIのITSへの応用 ○ 交通分野におけるセンシング、通信、ネットワーキング 4

Slide 5

Slide 5 text

How to Extend the Dataset to Account for Traffic Risk Considering the Surrounding Environments Elith Co.,Ltd1 Honda R&D Co.,Ltd2 Chubu University3 K.Shimomura1,3, K.Inoue1, K.Ohmori1, R.Shimogauchi1, R.Mimura2, A.Ishikawa2, T.Kawabuchi2

Slide 6

Slide 6 text

Background and Motivation 6 各地域の実情に合った実効性の⾼い対策が重要 - - - - - - Accident Analysis Traffic safety education Infrastructure improvement Development of laws Emergency medical care インフラが充実する地域 ADとADASにおける事故処理 インフラ整備が不十分な地域 交通安全の基盤を作ることが重要 インフラ整備や法整備

Slide 7

Slide 7 text

Background and Motivation ● 現状のインフラ整備フローでは,事故原因の把握に労⼒がかかる 7 ⼈による現地調査では,すべての危険地点における事故原因を把握できない 現地調査による情報収集・分析 インフラの改善施策 危険地点の特定

Slide 8

Slide 8 text

Background and Motivation 8 危険個所の抽出からその箇所におけるリスク要因の推定までを⾃動化 現地調査による情報収集・分析 インフラの改善施策 危険地点の特定 リスク要因の分析を⾼速化し,より多くの危険箇所の評価を実施 しかし,フレームワークを構築するには,データセットが必要

Slide 9

Slide 9 text

Background and Motivation ● 交通リスク分析のためのデータセットに必要な要素は4つ 9 ① 街路画像 ② 画像の位置情報(緯度・経度) ③ 道路環境情報 (車線の数,交差点までの距離など) この画像は、オハイオ州内にある道路である。道路脇に駐車車両が並んでいるため,この道 路を走行するドライバーは駐車車両から降車する人や駐車車両の間から飛び出してくる人に 注意が必要である.特に,この地域には子供が多いため,駐車車両の間から飛び出してくる 人に注意が必要である.これを避けるために駐車車両から離れて走行するべきであるが,対 向車線に進入しないようにしなければならない… ④ 交通リスクの説明文

Slide 10

Slide 10 text

先行研究の課題 10 Dataset PRD DoTA HDD BDD-X BDD-OID HAD DRAMA Rank2Tell Data Source cityscapes youtube Original Original bdd Original Original Original Risk Localization ✔ ✔ ✔ × × × × × Risk Caption × × × ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ 静的リスク ✔ × × × × ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object 交通リスクの説明テキストが不足 位置情報データが不足 道路環境への着目なし

Slide 11

Slide 11 text

先行研究の課題 11 Dataset PRD DoTA HDD BDD-X BDD-OID HAD DRAMA Rank2Tell Data Source cityscapes youtube Original Original bdd Original Original Original Risk Localization ✔ ✔ ✔ × × × × × Risk Caption × × × ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ 静的リスク ✔ × × × × ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object 交通リスクの説明テキストが不足 位置情報データが不足 道路環境への着目なし 街路画像における交通リスクのデータセットには,すべての要件を満たすものが存在しない

Slide 12

Slide 12 text

本研究の目的 12 危険個所の特定からその領域におけるリスク推定までを⾃動化 現地調査による情報収集・分析 インフラの改善施策 危険地点の特定 リスク要因の分析を⾼速化し,より多くの危険箇所の評価を実現

Slide 13

Slide 13 text

本研究の目的 ● すべての要件をみたすデータセットの構築を⽬指す 13 Dataset PRD DoTA HDD BDD-X BDD-OID HAD DRAMA Rank2Tell Ours Data Source cityscapes youtube Original Original bdd Original Original Original Original Risk Localizatio n ✔ ✔ ✔ × × × × × ✔ Risk Caption × × × ✔ ✔ ✔ ✔ ✔ ✔ 動的リスク × ✔ ✔ ✔ ✔ ✔ ✔ ✔ × 静的リスク ✔ × × × × ✔ ✔ ✔ ✔ 静的リスク の種類 Context Object Object Object Object Object Object Object Context Object 構築すべきデータセット ① 街路画像(メタ情報として ②位置情報 ③道路環境情報) ④ 交通リスクの説明文

Slide 14

Slide 14 text

Our Approach ● 交通リスクの特定 ○ 事故リスク予測モデルの作成 ○ ⾼リスク地点の画像取得 ● ⾼リスク地点のリスクの説明 ○ データセットの作成 ○ BLIPの学習 14 Prompt 交通事故予測モデル XGBoost [Chen et al., 2016] 事故リスクマップ 高リスク地点の街路画像 画像+リスク説明のデータセット作成 BLIP [Li et al., 2022] リスク説明 Trained by Open-GIS Data 🔥 🔥

Slide 15

Slide 15 text

Our Approach 交通リスクの特定 15 Prompt 交通事故予測モデル XGBoost [Chen et al., 2016] 事故リスクマップ 高リスク地点の街路画像 画像+リスク説明のデータセット作成 BLIP [Li et al., 2022] リスク説明 Trained by Open-GIS Data 🔥 🔥 危険地点の特定 現地調査を通した情報収集

Slide 16

Slide 16 text

Our Approach 高リスク地点のリスクの説明 16 データセットの作成方法 データセット 3種類のプロンプト データセットの評価 CoT Few-shot CoT GFCoT(Ours)

Slide 17

Slide 17 text

交通事故リスク予測モデルの学習 ● 使用データ 17 データ名 事故データ 道路ネットワーク 道路関連データ 地形 気象 人口・経済統計 土地利用 POI ● モデルの構築 ● 道路ネットワークのエッジごとに事故リスクを推定 Open-GIS Data ަ௨ࣄނ༧ଌϞσϧ

Slide 18

Slide 18 text

高リスク地点の画像取得 18 交通事故予測モデル 未学習の Open-GIS Data ࣄނϦεΫϚοϓ ࣄނϦεΫϚοϓ͔ΒߴϦεΫ஍఺ͷը૾Λநग़

Slide 19

Slide 19 text

道路環境を考慮したリスクデータセットの構築 ● プロンプトを用いて道路環境を考慮したリスクキャプションの生成 19 'FXTIPUQSPNQU $P5 QSPNQU ('$P5 QSPNQU 0QFO(*4 σʔλ ಓ࿏ߏ଄৘ใ (157JTJPO"OTXFS (157JTJPO

Slide 20

Slide 20 text

データセット作成時のプロンプト 20 # Context # Specifications # Example # Road information # Response $P5 [Wei+, Arxiv2022] # Context # Specifications # Road information Let’s think step by step # Response 'FXTIPU [Brown+, NeurIPS2020] ('$P5 0VST # Context # Specifications # Few chain of thought example # Road information Let’s think step by step # Response

Slide 21

Slide 21 text

GPT4-Visionを⽤いたデータセット構築 21 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF 6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB 3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information 3PBE/FUXPSL 5FSSBJO FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT

Slide 22

Slide 22 text

GPT4-Visionを⽤いたデータセット構築 22 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない 等 DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF 6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB 3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information 3PBE/FUXPSL 5FSSBJO FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT

Slide 23

Slide 23 text

GPT4-Visionを⽤いたデータセット構築 23 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない 等 # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF 6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB 3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information 3PBE/FUXPSL 5FSSBJO FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT

Slide 24

Slide 24 text

GPT4-Visionを⽤いたデータセット構築 24 # context 道路画像に基づいてSpecificationsに即した交 通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない 等 # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF 6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB 3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information 3PBE/FUXPSL 5FSSBJO FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT # Road Information 画像周辺のGISデータ

Slide 25

Slide 25 text

25 # context 道路画像に基づいてSpecificationsに即した 交通のリスクを説明する役割を設定 # Specifications 画像を参照した事故リスクの説明 動的リスクを考慮しない 等 # Example 出⼒キャプション例の提⽰ DPOUFYU :PVBSFBO"*EFTJHOFEUPFYQMBJOUSBGGJDBDDJEFOUSJTLTCBTFE POSPBEJNBHFTBOESPBEJOGPSNBUJPO 1MFBTFFYQMBJOUIFUSBGGJDBDDJEFOUSJTLJOBTJOHMFQBSBHSBQI GPMMPXJOHUIFTQFDJGJDBUJPOTCFMPX VTJOHUIFJOGPSNBUJPOQSPWJEFE 4QFDJGJDBUJPOT &YQMBJOUIFBDDJEFOUSJTLXJUISFGFSFODFUPUIFJNBHF 6TFSPBEJOGPSNBUJPOBTTVQQMFNFOUBSZEBUB 3FGSBJOGSPNDSFBUJOHEZOBNJDSJTLT (FOFSBUFBSFTQPOTFGPSUIFTFDPOEJNBHF &YBNQMF "OFYBNQMFSFTQPOTFGPSUIFGJSTUJNBHFJTBTGPMMPXT Road Information 3PBE/FUXPSL 5FSSBJO FUBM Let’s think step by step. 3FTQPOTF Grounded Few-shot CoT # Road Information 画像周辺のGISデータ

Slide 26

Slide 26 text

࣮ݧ ● τϨʔχϯά৚݅ ○ Ϟσϧɿ#-*1- ○ ࠷దԽख๏ "EBN8 ○ CBUDI@TJ[F ○ MS F ○ FQPDIT ○ %BUBTFUɿ)POEB%BUBTFU 26

Slide 27

Slide 27 text

キャプションの評価 ● ఆྔධՁͷධՁࢦඪ ○ BERT-Score Recall ○ BERT-Score Precision ○ BERT-Score F1 ○ CLIP-Score 27 CLIP-Score [Hessel et al., 2021]で類似度評価 BERT-SCORE [Zhang et al., 2020]で類似度評価

Slide 28

Slide 28 text

定量的評価結果 28 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot 0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 ఏҊख๏Ͱߏஙͨ͠σʔληοτ͸#-*1Ͱߴਫ਼౓ʹ࠶ݱՄೳ

Slide 29

Slide 29 text

定量的評価結果 29 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot 0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 なぜ BERT-Score Recallが低いのか︖

Slide 30

Slide 30 text

定量的評価結果 30 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot 0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 データセット作成時に連鎖思考を促すことにより, BLIPの正解キャプションを再現する能⼒が低下した

Slide 31

Slide 31 text

定量的評価結果 31 データセット作成時のプロンプト BERT-Score Precision BERT-Score Recall BERT-Score F1 Few-shot 0.8616 0.8879 0.8746 CoT 0.8520 0.8611 0.8565 GFCoT (Ours) 0.8774 0.8791 0.8783 データセット作成時に連鎖思考を促すことにより, BLIPの正解キャプションを再現する能力が低下した 仮説 • Few-shot では,画像情報をもとに説明される • 連鎖思考(CoT)を促すと,画像以外の情報も考慮して説明される

Slide 32

Slide 32 text

実験的な仮説検証 32 u 条件 • Few-shot, CoTで作成したデータセットを⽤いて実験 – データセット構築時にはGISデータは利⽤しない • 街路画像と交通リスク説明⽂の間の類似度を計算 – 評価指標には CLIP-Score を採⽤ – 街路画像以外の情報をもとに説明されるほどCLIP-Scoreが低い CLIP-ScoreはFew-shotが⾼くなると考えられる

Slide 33

Slide 33 text

実験結果 33 データセット作成時のプロンプト Test-time prompt BERT-Score Recall CLIP-Score Few-shot - 0.8934 0.2786 Few-shot 0.8544 - CoT 0.8232 - CoT - 0.8711 0.2524 Few-shot 0.8368 - CoT 0.8169 - 仮説通りFew-shotの⽅がCLIP-Scoreが⾼い CoTで⽣成したキャプションは連鎖思考によって画像から読む取ることが困難な⽂章表現になる

Slide 34

Slide 34 text

定性的評価:事故多発地点の説明例 Few-shot 34 時速25マイルという制限速度と10フィートという⾞線幅は、 この道路が中速の都市交通⽤に設計されていることを⽰している。 道路沿いに企業が⽴ち並ぶ都市環境を考えると、歩⾏者が存在する可能性があるが、 横断歩道とおそらく管理された交差点があるため、そのリスクはいくらか軽減されている。 道路の両側には柔軟な舗装が施されているため、 ⾞両には⼗分なトラクションがかかるはずだが、事故のリスクを最⼩限に抑えるためには、 いつものように交通標識、信号、道路標⽰を守ることが不可⽋である。 インフラ改善施策を提案することはできていない 道路環境による危険性に⾔及できている◎

Slide 35

Slide 35 text

定性的評価:事故多発地点の説明例 CoT 35 インフラ改善の必要性に⾔及できている◎ 詳細に説明されている 中央分離帯がないため、ドライバーが不注意で対向⾞線に逸脱した場合、正⾯衝突のリスクが⾼まる可能性があ り、この道路が全国トラックネットワークに分類されていることから、特に懸念される。 舗装が両側とも柔軟であるということは、路⾯が⼀定レベルの交通量に対応できることを⽰しているが、 事故の原因となる⽳やその他の問題を防ぐためのメンテナンスが必要かもしれない。 標⾼、アスペクト、勾配は、事故リスクの⼤きな要因とはならない程度に穏やかである。 さらに、横断歩道からのランクが低く、画像から交通の流れを阻害するものが観察されないことから、 インフラは中程度のリスク環境を助⻑しているように思われ、安全運転の実践が事故確率をさらに低下させるで あろう。

Slide 36

Slide 36 text

定性的評価:事故多発地点の説明例 GFCoT 36 道路の両側の舗装は柔軟性があり、⻑期にわたって重い荷重にさらされた場合の耐久性が低いことを⽰している。 中央分離帯はなく、道路は2⾞線で構成され、⾞線幅は10フィートと狭い。 制限速度が時速25マイルであるため、⾼速事故のリスクは低いが、駐⾞⾞両が⾛⾏⾞線に近接しているため、 特に⾞線間に緩衝スペースがない場合、側⾯衝突の危険性がある。 この地域の⼟地利⽤は中強度に分類され、歩⾏者や⾞両の通⾏量は多くないものの、 事故リスクの⼀因となりうる活動があることを⽰唆している。 交通環境から想定される事故形態を 説明できている◎ 簡潔に説明されている

Slide 37

Slide 37 text

Conclusion ● インフラ改善を⾃動化するためのフレームワークを提案 ● GISデータを⽤いて道路環境を考慮したデータセットを構築 ○ GFCoTが最も有効 ● 実験 ○ GFCoTを⽤いて⽣成したキャプションは⼩規模モデルのBLIPでも⾼精度で再現可能 ○ 連鎖思考を促すことで画像情報に依存しない交通リスクの説明が可能 ● 今後の課題 ○ ⼤規模なデータセットを⽤いた網羅的な実験 ○ GISデータをより正確に利⽤可能なフレームワークの構築 37

Slide 38

Slide 38 text

ITSへのCV, NLPの応⽤ 株式会社Elith 下村 晃太

Slide 39

Slide 39 text

自動運転の技術開発を取り巻く環境 39 https://arxiv.org/pdf/2401.12888 より

Slide 40

Slide 40 text

自動運転の技術開発を取り巻く環境:第1世代 40 https://arxiv.org/pdf/2401.12888 より 第1世代:認知機能の実現 (2012-2019) モダリティ:画像,LiDAR タスク:物体検出,セグメンテーション,白線検知など データ数:数万程度 機械学習・深層学習を利用して認知モデルを学習 認知->予測->計画のうち, 認知に特化してモデルを学習 予測,計画はクラシカルな方法

Slide 41

Slide 41 text

自動運転の技術開発を取り巻く環境:第2世代 41 https://arxiv.org/pdf/2401.12888 より 第1世代:認知機能の実現(2012-2019) モダリティ:画像,LiDAR タスク:物体検出,セグメンテーション,白線検知.. データ数:数万程度 機械学習・深層学習を利用して認知モデルを学習 認知->予測->計画のうち, 認知に特化してモデルを学習 予測,計画はクラシカルな方法

Slide 42

Slide 42 text

自動運転の技術開発を取り巻く環境:第3世代 42 https://arxiv.org/pdf/2401.12888 より 第3世代:コーナーケースの克服 (2023-) モダリティ:画像,LiDAR, マップ, 言語 タスク:物体検出,セグメンテー ション,白線検知,行動予測, 行動決定,言語説明 データ数:1000億km以上の走行データ 深層学習を利用して認知,予測,計画を一貫学習+状況を言語で説明 学習データに依存せず,コーナーケースに対応 *現時点では研究開発途上

Slide 43

Slide 43 text

第3世代における自動運転が目指すところ ● LLMやVLM等を活用することで複雑なシーン・コーナーケースに対応 ○ 現時点では限定されたケースでの自動運転が可能 ○ 複雑なシーンやコーナーケースへの対応が困難 43 出現頻度 運転状況の複雑度 多 少 易 難 ロングテー ル => 複雑なシーンやコーナーケースでの評価はどうするのか?

Slide 44

Slide 44 text

DriveLM: Driving with Graph Visual Question Answering [Shima+, CVPR WS Challenge, ECCV2024] 44 Graph Visual Question Answer (GVQA) 手法の提案 GVQAタスクのためのデータセットの提案 タスク定義:GVQAタスク • 各オブジェクト・タスク間の論理的な依存構造から自車両の安全な運転を計画 • 各タスク: Perception,Prediction,Planning,Behavior,Motion • GVQAグラフ:ドライバの意思決定プロセスをもとに構築 DriveLM-Agent モデル (VQAモデルはBLIP-2を採用) 学習時:Perception→Prediction →PlanningのVQAタスクを学習 • 子タスクは親タスクのVQA情報がコンテキストとして利用される 推論時:Perception→Prediction →Planning →Behavior→Motionで予測 • 最終的な運転計画は256個の離散トークンで表現 • Next Token Predictionとしてタスクが解ける

Slide 45

Slide 45 text

第3世代における評価環境の構築 ● 実現方法に2つの方向性がある(実環境データ,シミュレーション) 45 シミュレータによる シナリオ作成 実環境データの拡張による シナリオ作成 Vision and Language LLM NeRF 3DGS simulator Diffusion model

Slide 46

Slide 46 text

ChatSim: Editable Scene Simulation for Autonomous Driving via LLM-Agent Collaboration [Wei+, CVPR2024] 46 LLMとMulti-camera NeRF (3DGS) を用いたシミュレーションシーンの生成 シミュレーションシーンをLLMとの対話により編集可能な手法 ChatSim の提案 ① ② ③ ① Project Managerがユーザからの指示をもとに,他のediting agentsに指示 ② 各editing agentsが役割に沿った処理を実行(editing agentsは2チーム: background generation / foreground generation) background generation:background rendering agentがview adjustment agentからの外部パラメータを用いてレンダリング画像 を作成し,Vehicle deleting agentがインペインティングを実行 foreground generation:foreground rendering agentがview adjustment agentからの外部パラメータ, 3D asset management agentからの選択された3Dアセット, vehicle motion agentからの生成されたオブジェクトのモーションを使用して画像をレンダ リング ※ 画像のレンダリングにはMulti-camera NeRF (or 3DGS) を用いる ③ 前景画像と背景画像を合成して動画を作成 ChatSimによるシーンの編集例

Slide 47

Slide 47 text

Panacea: Panoramic and Controllable Video Generation for Autonomous Driving [Yang+, CVPR2024] 47 物体の位置指定やシーンの言語記述による任意の新規視点生成 Latet Diffusionを活用したマルチビューシナリオ生成手法の提案 a. 4D Attentionモジュールを持つDiffusionモデルの学習 b. 4D Attentionモジュールは3つの機能を持つ • 各ビュー内の空間的処理 • 隣接するビューにまたがる空間的処理 • フレーム間の時間的処理 c. 動画生成に用いる制御モジュール • 前フレームはdiffusion noiseとして利用 • テキストはCLIP Encoderを通し言語による条件付けとして利用 • 鳥瞰図はControlNetを通しレイアウトによる条件付けとして利用 物体・位置の条件付き予測 シーンの言語条件付き予測

Slide 48

Slide 48 text

HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [Zhou+, CVPR2024] 48 静的・動的3D Gaussian Splatting を組み合わせた走行シーンの再構成手法 ジオメトリ、アピアランス、セマンティクス、モ ーションを共同で最適化 ① 動画データに対し,学習済みモデルを用いてOptical Flow, Semantic Map, 3D Trackingの予測結果を生成 ② シーンを静的領域とN個の剛体的に動く動的オブジェクトに分解し,3D Gaussianによって表現 • 異なるパラメータを持つUnicycle Model を用いてN個の動的オブジェクトのMotionを表現 • 各3D Gaussianは外観とSemanticな情報を含み,Optical FlowはGaussian中心の動きから計算 ③ 統一された一つのモデル内でRGB画像, Semantic Map, Optical Flowのレンダリングを実現 新規視点生成 他手法との比較 ① ② ③

Slide 49

Slide 49 text

Slide Paper Thank you for your attention

Slide 50

Slide 50 text

Appendix

Slide 51

Slide 51 text

従来研究:プロンプトエンジニアリング 51 ## Context ## Specifications ## Response 'FXTIPU$P5 [Wei+, Arxiv2022] 'FXTIPU[Brown+, NeurIPS2020] ;FSPTIPU$P5 [Kojima+, NeurIPS2022] ## Context ## Specifications Let’s think step by step. ## Response ## Context ## Specifications ## Few examples ## Response ## Context ## Specifications ## Few chain of thought examples ## Response ;FSPTIPU [Wei+, Arxiv2022] 回答例を記載 複雑な推論をで きるように 複雑な推論をで きるように 回答例を記載

Slide 52

Slide 52 text

Feature Details ● 静的リスクの生成に用いたGIS特徴量 52 Road Structure Information Categories of Expressway Presence or absence of central reservation Pavement type of side road Number of traffic lanes Slope direction Distance from intersection Specified truck route