論文解説　CVPR2022 NeRF関連

Slide 1

Slide 1 text

論⽂解説 CVPR2022 NeRF関連 Takehiro Matsuda

Slide 2

Slide 2 text

2 CVPRの近年の注⽬Keywordの遷移【学会聴講報告】CVPR2022からみるVision最先端トレンドより https://www.youtube.com/watch?app=desktop&v=SeioHA14ND8&feature=youtu.be

Slide 3

Slide 3 text

3 NeRF デモ動画 https://www.matthewtancik.com/nerf 対象の任意視点からの画像を⾼精細に得られる。ぱっと⾒て気になるレベルのHoleやArtifactが画像に表れていない。

Slide 4

Slide 4 text

4 3次元情報の表現ボクセルピクセルを3次元に拡張 ○ 2次元画像処理からの拡張が容易 × メモリ消費量が多く、2563くらいが限界点群点の集合で3次元シーンを表現 ○ ボクセルよりコンパクト(物体表⾯のみを表現) × ⾯を表現できない × DNNで扱うのがやや難しい

Slide 5

Slide 5 text

5 3次元情報の表現メッシュ三⾓形(多⾓形)の貼り合わせで3Dシーンを表現 ○ メモリが少なくて良い × メッシュの張り合わせが職⼈的 × DNNで扱うのが難しい Neural Field 3次元座標pをニューラルネットワークfに与え、f(p)がモノがあるか、⾊、etc.などを表すようにする。 ○ コンパクトかつ柔軟(NNは形状が複雑なところの表現に多数のパラメータを使おうとするはず) ○ DNNと組み合わせるのが容易 × レンダリングが遅い(多数の点をDNNで推論する必要がある) × 与えた範囲(シーン)ごとにネットワークを学習する必要がある × ⼈⼿での編集が難しい

Slide 6

Slide 6 text

6 NeRF

Slide 7

Slide 7 text

7 NeRF Neural Radiance Field 𝜎 = 𝑁𝑁!(𝑥, 𝑦, 𝑧) 𝑐 = 𝑁𝑁"(𝑥, 𝑦, 𝑧, 𝜃, 𝜙) 3D座標モノがありそう度 3D座標, 視線⽅向⾊ In essence, they take the DeepSDF architecture but regress not a signed distance function, but density and color.

Slide 8

Slide 8 text

8 NeRFによる⾃由視点の再現液晶ディスプレイの映り込み、反射が視線により変わることを再現できている

Slide 9

Slide 9 text

9 NeRF flow ① 学習画像からピクセルを選ぶ ② ピクセルを通る光線上でサンプリングし、その点のモノがある度と⾊をNNにクエリする。 ③ カメラから出発し、ピクセルに向かって進み、どのあたりでモノにぶつかるかの確率分布を計算する ④ ピクセルの⾊の期待値を計算する ⑤ GTのピクセルの⾊に近づくようにNNの学習を進める ① ② ③ ④ ⑤

Slide 10

Slide 10 text

10 NeRF in CVPR 2022 • Block-NeRF NeRFによる⼤規模な範囲の⽣成(サンフランシシコのある地区) • Plenoxels ニューラルネットワークを使わずに微分可能ボリュームレンダリングのアーキテクチャで⾼速な⾃由視点画像⽣成が可能 CVPR2022で発表された2つの論⽂を紹介する

Slide 11

Slide 11 text

11 Block-NeRF デモ動画 https://waymo.com/research/block-nerf/

Slide 12

Slide 12 text

12 Block-NeRF Waymo(Google) carの360度Viewで⼤量の画像を撮影する。対象：San Francisco Alamo Square Neighbor (960x570m) 各Block-NeRFは下記で学習 18-28分のドライブ 38-48の異なる⾛⾏データ 64575-108216画像

Slide 13

Slide 13 text

13 Block-NeRF Architecture NeRF-W(NeRF in the Wild)の⼿法導⼊天候やライティングの変化などのAppearanceの違いを別にできる Lighting and whether change Exposure change mip-NeRFをベースにする: incorporating anti-aliasing for multiscale rendering 観光客がそれぞれ撮影したような画像から学習できる⼿法 Appearance Embedding, Exposure Embeddingの導⼊

Slide 14

Slide 14 text

14 Appearance Embedding 推論時に変化させて、レンダリングも可能 Appearance Embeddingにより⽇時の違いがあってもクリアなレンダリングを⾏える。

Slide 15

Slide 15 text

15 移動物体へのマスクセグメンテーションモデル(Panoptic-deeplab)で移動物体(⾞や⼈)を検出しマスクをかける

Slide 16

Slide 16 text

16 Block-NeRFsの統合街全体の画像再現をするため、35個のBlock-NeRFsを統合する。 Visibilityを出⼒するネットワーク VisibilityがOKのNeRFをAppearnce Matthingをした上で、距離の逆数の重みで統合する

Slide 17

Slide 17 text

17 Ablation study Learned pose refinement 原論⽂のReferences[34,59,66,70]

Slide 18

Slide 18 text

18 Plenoxels デモ動画

Slide 19

Slide 19 text

19 Plenoxels Our results show that the key component in NeRF is the differentiable volumetric rendering, not the neural network. NeRFでは1GPUで学習に1⽇以上、レンダリングに1フレームあたり30秒以上かかる

Slide 20

Slide 20 text

20 Plenoxels Flow Voxel opacitiesとSpherical harmonic coefficientsを最適化する。 Plenoxels represent a scene as a sparse 3D grid with spherical harmonics. Plenoptic voxels: 近傍のVoxel 球⾯調和関数：各視点での⾊の⾒え⽅を表現する関数とする？ 3次元での近傍からの補間処理

Slide 21

Slide 21 text

21 Optimization 推論画像とGTのMSE RMSPropを⽤いて最適化計算 ∆2x(v, d) shorthand for the squared difference between the dth value in voxel v := (i, j, k) and the dth value in voxel (i + 1, j, k) Total Variation正則化

Slide 22

Slide 22 text

22 Result 8 synthetic scenes 8 real, forward- facing scenes 4 real, 360° scenes

Slide 23

Slide 23 text

23 参考⽂献 • NeRF https://www.matthewtancik.com/nerf • Block-NeRF https://waymo.com/research/block-nerf/ • Plenoxels https://alexyu.net/plenoxels/ • SSII2022 [SS1] ニューラル3D表現の最新動向〜ニューラルネットでなんでも表せる？？〜 https://www.slideshare.net/SSII_Slides/ssii2022-ss1-3d • 【学会聴講報告】CVPR2022からみるVision最先端トレンド https://www.youtube.com/watch?app=desktop&v=SeioHA14ND8&feature=youtu.be • NeRF at CVPR 2022 https://dellaert.github.io/NeRF22/