Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE DECOMPOSITION VIA SELF-SUPERVISION
Slide 2
Slide 2 text
従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception ● 物体認識 ● 標識認識 ● レーン認識 Prediction ● 移動予測 ● 将来マップ予測 ● 交通エージェント Planning ● 探索問題 ● 経路計画 Control ● 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning
Slide 3
Slide 3 text
End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ Perception ● 物体認識 ● 標識認識 ● レーン認識 Prediction ● 移動予測 ● 将来マップ予測 ● 交通エージェント Planning ● 探索問題 ● 経路計画 Control ● 制御アルゴリズ ム 従来のシステム
Slide 4
Slide 4 text
E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像: Tesla AI Day 2022より
Slide 5
Slide 5 text
Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要 空間上のvoxelラベルを予測する問題
Slide 6
Slide 6 text
EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築
Slide 7
Slide 7 text
運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像
Slide 8
Slide 8 text
D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス https://arxiv.org/pdf/2205.15838
Slide 9
Slide 9 text
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力 画像上のピクセルの色をレンダリングする シーン表現
Slide 10
Slide 10 text
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する
Slide 11
Slide 11 text
Novel View Synthesis
Slide 12
Slide 12 text
DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入
Slide 13
Slide 13 text
DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用
Slide 14
Slide 14 text
Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/
Slide 15
Slide 15 text
まとめ ● EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア ● D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした ● DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding の効果を削除) →オートラベリングなどに有用