Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
EmerNerf: 自己教師あり学習による3次元空間認識
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kotaro_tanahashi
June 04, 2024
750
0
Share
EmerNerf: 自己教師あり学習による3次元空間認識
ICLR 2024論文読会での発表資料です
kotaro_tanahashi
June 04, 2024
More Decks by kotaro_tanahashi
See All by kotaro_tanahashi
自動運転におけるモーション予測手法の進化
kotaro_tanahashi
1
450
[CV勉強会@関東 CVPR2023] 自動運転におけるBEVベース物体認識技術の進化
kotaro_tanahashi
2
3.3k
Featured
See All Featured
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
160
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.3k
So, you think you're a good person
axbom
PRO
2
2k
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
140
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
430
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
55k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
480
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
270
Documentation Writing (for coders)
carmenintech
77
5.3k
Transcript
EmerNerf 自己教師あり学習による3次元空間認識 ICLR2024 論文紹介 Turing(株) 棚橋 耕太郎 EMERGENT SPATIAL-TEMPORAL SCENE
DECOMPOSITION VIA SELF-SUPERVISION
従来の自動運転システム 機能ごとに分かれたモジュールが独立に動くので 全体最適化ができない 画像 LiDAR点群 HDマップ Perception • 物体認識 •
標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム https://paperswithcode.com/dataset/nuscenes prediction perception planning
End-to-end 自動運転AI マルチカメラ画像 Neural Network 車の経路 End-to-endモデルを構築し画像から車の経路を直接出力する 画像 LiDAR点群 HDマップ
Perception • 物体認識 • 標識認識 • レーン認識 Prediction • 移動予測 • 将来マップ予測 • 交通エージェント Planning • 探索問題 • 経路計画 Control • 制御アルゴリズ ム 従来のシステム
E2Eにおけるサブタスク マルチカメラ画像 車の経路 NNに様々なサブタスクを課すことで、 E2E自動運転に必要な強力な特徴を手にいれることができる Occupancy Prediction Map Prediction 画像:
Tesla AI Day 2022より
Occupancy Prediction https://github.com/CVPR2023-3D-Occupancy-Pre diction/CVPR2023-3D-Occupancy-Prediction 画像: https://arxiv.org/pdf/2306.02851 Good: 3次元認識が可能(lidarの代替) Bad: Voxelの教師ラベルが必要
空間上のvoxelラベルを予測する問題
EmerNerf Nerfベースの自己教師あり学習により動的・静的物体を分離して3次 元空間の学習が可能 動的・静的・flowフィールドの分離 Occupancyの構築
運転映像を扱う難しさ 通常のNerfと異なり、方向が固定されたカメラからの画像を扱うので画像が スパースになる 通常のNerfの入力 様々な角度からの画像 車載カメラで撮影する画像
D2Nerf 自己教師あり学習により動的・静的物体を分離する方法を提案 動的・静的・flowフィールドの分離 時間依存するフィールドと時間非依存なフィールドでcolor consistency lossを 構築 静的フィールド(時間依存なし) 動的フィールド(時間依存あり) 空間が動的or静的物体のどちらかで占有されるという制約を表すロス
https://arxiv.org/pdf/2205.15838
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 学習可能なHash関数を使って特徴量 gと密度σを構築 動的物体、静的物体、空、影に対して MLP Headで色を予測 静的物体と動的物体の重付き和で (x,t)に対する色を出力
画像上のピクセルの色をレンダリングする シーン表現
EmerNerfの全体像 動的物体、静的物体、空、 flowに分解して考える 前向きflow v_fと後ろ向きフローv_bの予測を行う Flow予測 t=t-1とt=t+1の特徴の重み付き和をとってflowの整合性を保証 する
Novel View Synthesis
DINOv2特徴量の3次元lift 特徴量用のMLPを用いて、f*とf_skyを構築 レンダリング計算により、画像上の featureを予測し、これが画像 上のDINOv2特徴量と一致するように学習する DINOのPosition Encodingが邪魔になるので、それを取り除く 項を導入
DINO特徴量の3次元lift 3D空間上にDINO特徴量を埋め込むことが可能→オートラベリングに有用
Nerfはもう古い? https://pkuvdig.github.io/DrivingGaussian/
まとめ • EmerNerfは自己教師あり学習とflow予測により動的物体を自然にNerf に取り入れ、新規視点生成タスクでSOTAスコア • D2Nerfに対してHash関数やlidar点群を利用できるようにし、広い空間 に対して適用できるようにした • DINO特徴量を3次元空間上にliftする方法を提案(Position Encoding
の効果を削除) →オートラベリングなどに有用