Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
EmerNerf: 自己教師あり学習による3次元空間認識
Search
kotaro_tanahashi
June 04, 2024
0
430
EmerNerf: 自己教師あり学習による3次元空間認識
ICLR 2024論文読会での発表資料です
kotaro_tanahashi
June 04, 2024
Tweet
Share
More Decks by kotaro_tanahashi
See All by kotaro_tanahashi
自動運転におけるモーション予測手法の進化
kotaro_tanahashi
1
360
[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化
kotaro_tanahashi
2
1.9k
Featured
See All Featured
Producing Creativity
orderedlist
PRO
341
39k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Raft: Consensus for Rubyists
vanstee
136
6.7k
Why You Should Never Use an ORM
jnunemaker
PRO
54
9.1k
Speed Design
sergeychernyshev
25
660
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
GitHub's CSS Performance
jonrohan
1030
460k
Transcript
EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE
DECOMPOSITION VIA SELF-SUPERVISION
従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception • 物体認識 •
標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning
End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ
Perception • 物体認識 • 標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム 従来のシステム
E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像:
Tesla AI Day 2022より
Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要
空間上のvoxelラベルを予測する問題
EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築
運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像
D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス
https://arxiv.org/pdf/2205.15838
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力
画像上のピクセルの色をレンダリングする シーン表現
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する
Novel View Synthesis
DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入
DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用
Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/
まとめ • EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア • D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした • DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding
の効果を削除) →オートラベリングなどに有用