Slide 1

Slide 1 text

EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE DECOMPOSITION VIA SELF-SUPERVISION

Slide 2

Slide 2 text

従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception ● 物体認識 ● 標識認識 ● レーン認識 Prediction ● 移動予測 ● 将来マップ予測 ● 交通エージェント Planning ● 探索問題 ● 経路計画 Control ● 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning

Slide 3

Slide 3 text

End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ Perception ● 物体認識 ● 標識認識 ● レーン認識 Prediction ● 移動予測 ● 将来マップ予測 ● 交通エージェント Planning ● 探索問題 ● 経路計画 Control ● 制御アルゴリズ ム 従来のシステム

Slide 4

Slide 4 text

E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像: Tesla AI Day 2022より

Slide 5

Slide 5 text

Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要 空間上のvoxelラベルを予測する問題

Slide 6

Slide 6 text

EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築

Slide 7

Slide 7 text

運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像

Slide 8

Slide 8 text

D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス https://arxiv.org/pdf/2205.15838

Slide 9

Slide 9 text

EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力 画像上のピクセルの色をレンダリングする シーン表現

Slide 10

Slide 10 text

EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する

Slide 11

Slide 11 text

Novel View Synthesis

Slide 12

Slide 12 text

DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入

Slide 13

Slide 13 text

DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用

Slide 14

Slide 14 text

Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/

Slide 15

Slide 15 text

まとめ ● EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア ● D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした ● DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding の効果を削除) →オートラベリングなどに有用