Slide 1

Slide 1 text

Neural Fieldsメタサーベイ 1 http://xpaperchallenge.org/cv 
 上田樹、千葉直也、相澤宏旭、中原龍一、佐藤悠輝 佐藤和仁、武田司、伊藤颯汰、松澤郁哉、近藤生也

Slide 2

Slide 2 text

● Neural FIeldsとは ● Neural Fieldsの発展の現在:NeRF拡張のブレイクスルーを紹介 ○ 高速化 ○ 分解能の操作 ○ カメラ姿勢の最適化 ○ 遠景のモデル化 ● Neural Fieldsの派生研究 この発表について

Slide 3

Slide 3 text

Neural Fieldsとは

Slide 4

Slide 4 text

● Neural Networkにより、(主に)3次元の場を再構成する方法論に関する小研究 分野 ○ 代表例:NeRF(Neural Radiance Fields) ○ 代表タスク:多視点の撮影画像から新規視点の映像を生成 Neural Fieldsとは

Slide 5

Slide 5 text

密度及び色を記述するニューラル場と微分可能なvolume renderingの組み合わせ NeRF ニューラル場 volume rendering ■ 3次元座標や方向を入力に密度や色を出力す る関数をMLPなどのネットワークで回帰する表 現方法 ■ coordinate network、Implicit Neural Representationと呼ばれることも ■ 密度と色情報をレイに沿ってサンプリングし、 レンダリング画像を生成する ■ 微分可能な方程式によって、 3次元形状表現 とRGB画像を接続し、測光誤差 (Photometric Error)による最適化が可能になる https://arxiv.org/pdf/2003.08934.pdf

Slide 6

Slide 6 text

オリジナルNeRFの制限と進歩 計算コストが高い 膨大な撮影枚数が必要 被写体が小さい 高精度のカメラ姿勢が必要 形状の獲得に半日、推論に数分 1シーンに200枚程度要求 Out2Inな視点での撮影に限定 前処理としてCOLMAPが前提 グリッドモデルの併用により 5分以内での形状獲得、 120fpsでのレンダリングが可能 CLIP等の特徴量を未知視点で 一貫させることで 3~7枚程度での学習が可能 NeRFの分解能の操作可能性の発見で Coarse-to-FineなBAが実現し 条件によってはカメラ姿勢が不要 無限遠までをモデル化する座標系、 空間を分割したNeRFの学習の実現で 都市規模の復元が可能

Slide 7

Slide 7 text

オリジナルNeRFの制限と進歩 計算コストが高い 膨大な撮影枚数が必要 被写体が小さい 高精度のカメラ姿勢が必要 形状の獲得に半日、推論に数分 1シーンに200枚程度要求 Out2Inな視点での撮影に限定 前処理としてCOLMAPが前提 グリッドモデルの併用により 5分以内での形状獲得、 120fpsでのレンダリングが可能 CLIP等の特徴量を未知視点で 一貫させることで 3~7枚程度での学習が可能 NeRFの分解能の操作可能性の発見で Coarse-to-FineなBAが実現し 条件によってはカメラ姿勢が不要 無限遠までをモデル化する座標系、 空間を分割したNeRFの学習の実現で 都市規模の復元が可能 NeRF研究への参入障壁が軽減

Slide 8

Slide 8 text

Neural Fields関連研究の動向 ❏ Neural Fields関連論文の採択数が104本
 ❏ CVPR2022の38本,ECCV2022の25本から大幅に増加
 ※個別の論文については こちらに要約を置いています

Slide 9

Slide 9 text

NeRFの進歩について

Slide 10

Slide 10 text

NeRFでは1視点のレンダリング(500x500)で数分程度要求 → 2021年頃、推論の高速化が流行 NeRFの推論では、1画素あたり数百のサンプリング点でMLPを実行 → MLPの順伝搬時間とサンプリング点数が支配的 高速化の経緯① 推論時の高速化

Slide 11

Slide 11 text

◯サンプリング点の削減 AutoInt(CVPR2021): ボリュームレンダリングの積分構造を埋め込んだネットワークを作 成し、レイ両端の2点のサンプリングのみで定積分を計算可能 DONeRF(CVPR2021): 単眼デプス推定に基づいてサンプリング点配置の事前確率を設 定し、最大48倍の高速化 ◯ネットワークの分割 NSVF(CVPR2021): Sparse Voxel Octreeでモノのある箇所にのみNNを配置.NeRFより 10倍高速 DeRF (CVPR2021): Voronoi空間分割でシーンの分解方法を含め学習.NeRFより3倍高 速 KiloNeRF(ICCV2021): 数千オーダーの小規模なMLPに分割。NeRFより3000倍高速 高速化の経緯① 推論時の高速化

Slide 12

Slide 12 text

NeRFは位置θ+方向Φの5次元を入力にした関数 方向依存性成分の基底に球面調和関数をとることで 位置θの3次元入力の関数に置き換え 高速化のブレイクスルー 球面調和関数 arxiv.org/abs/2103.14024 関数の出力を3次元グリッドに記録可能に

Slide 13

Slide 13 text

視線依存成分を基底をとったパラメータ表示にして色場ネットワークを省略 訓練結果をグリッドなどにキャッシュすることで推論時間を削減するアプロー これによりNeRFのリアルタイムレンダリングが実現 PlenOctree(ICCV2021): 8分木構造にキャッシュをとる SNeRG(ICCV2021): 視点非依存特徴を事前に計算し2Dキャッシュを取る FastNeRF(Arxiv2021): 視線依存成分を分離したネットワークをとり基底を設定 MobileNeRF (CVPR2023): メッシュテクスチャにキャッシュ 高速化の経緯② NeRFのキャッシュ arxiv.org/abs/2103.14024

Slide 14

Slide 14 text

ボリュームレンダリングが微分可能であるなら、訓練済みのモデルをグリッドにキャッシュ するのではなくキャッシュ先のパラメータを直接訓練する発想が流行 空間的な独立性が高められるため訓練が数分単位になる大幅な高速化を実現 Plenoxels(CVPR2022): Sparce Gridを直接訓練する DVGO(CVPR2022): ボクセルと事後活性化関数の組み合わせで鮮明な表面を表現 InstantNGP(SIGGRAPH2022): 境界の異なる多層ハッシュグリッドでパラメータ化 高速化の経緯③ 訓練時の高速化

Slide 15

Slide 15 text

グリッドを利用したモデルでは時間計算量が圧縮できる一方で、 ボクセル表現と同様に空間全域を離散化するためパラメータ数が多くなる → 微分可能なパラメータの圧縮方法を用いてモデル化することで空間計算量も削減 TensoRF(ECCV2022): ボクセル表現をテンソル分解で近似してパラメータ化 HexPlane(CVPR2023):動的シーンを6つの特徴面へTensor分解して表現 MaskedWavelet(CVPR2023):ウェーブレット変換によりパラメータ効率を改善 VQRF (CVPR2023):Codebookを用いてパラメータを離散的に圧縮 高速化の経緯④ モデルサイズの削減 arxiv.org/abs/2203.09517

Slide 16

Slide 16 text

NeRFの拡張

Slide 17

Slide 17 text

mip-NeRF(ICCV2021)
 PositionalEncodingの高周波成分を適切に減衰させることで、mipmapのように
 異なる分解能の場を画一的に扱うことが可能であることを発見
 → 点ではなく球や円錐状のサンプリングの取り扱いが可能に
 - エイリアシングノイズの回避
 - サンプリングに必要な”CoarseなNeRF”を同じモデルから復元可能
 
 
 
 最大のブレイクスルー:空間分解能の操作 arxiv.org/abs/2103.13415

Slide 18

Slide 18 text

mip-NeRF360(CVPR2022)
 遠景ほど必要な分解能が下がる性質を利用し、無限遠までの空間を半径2の
 球の内部に写像する
 NeRFではOut-to-inに制限されていたが、自由なカメラ配置が可能に
 遠景のモデル化 arxiv.org/abs/2111.12077

Slide 19

Slide 19 text

iNeRF(IROS2021) / NeRF- -(Arxiv)
 ボリュームレンダリングはカメラ姿勢でも微分可能なため、最適化パラメータに含めること でカメラ姿勢の調整が可能
 色の勾配方向が滑らかな範囲でのみ最適化が進む為、利用可能な場面は限定的
 
 
 カメラ姿勢の推定

Slide 20

Slide 20 text

BARF(ICCV2021)
 mip-NeRF同様にPositioinalEncodingで高周波成分を減衰させるアプローチ
 低周波成分から合致させることで追従範囲を広げロバストに
 
 カメラ姿勢の推定 arxiv.org/abs/2104.06405 同様のアプローチが動的シーン・モーションブラー等の推定にも有用と普及

Slide 21

Slide 21 text

zip-NeRF(ICCV2023)
 グリッドベース手法は高速な一方で、PEを使わないため直接的な高周波減衰が困難
 mip-NeRFのようなレイのモデル化をサンプリングで解決することで
 グリッドベースでも利用可能に拡張
 
 
 グリッドベースでの利用 arxiv.org/abs/2304.06706

Slide 22

Slide 22 text

❏ 当初問題されていた”NeRFは学習/レンダリングが重い”という問題は
 実質的に解決
 →ニューラル場の応用や派生に関心が移りつつある
 ❏ ニューラル場で何を記述するか
 ❏ 入力に時間軸を追加→動的シーンを記述
 ❏ 出力に物体ラベルを追加→セグメンテーションタスクの3D一貫性に利用
 ❏ ニューラル場を何に使うか
 ❏ 拡散モデルの3次元記述方法として使用
 ❏ SLAMの地図表現として使用
 ❏ 言語ラベルと結びつけて移動や編集指示に使用
 Neural Fieldsの現在

Slide 23

Slide 23 text

NeRFの派生研究について

Slide 24

Slide 24 text

❏ CVPR2023では拡散モデルを用いた生成タスクの研究が急増
 ❏ これまでと共通して,動的シーン・Fewshot・編集性への注目度が高い
 
 
 Neural Fields関連の派生研究
 24 タスク別論文数


Slide 25

Slide 25 text

❏ 長時間・大変形化や反射光のモデル化,人物衣装・動物骨格などより高難易度の シーンへの活用が試みられている
 ❏ DynlBaR:長時間・大変形の動画から写実的な新規視点合成を実現
 ❏ ReRF:隣接するフレーム間の残差でモデル化し長時間の変形を平滑に保持
 ❏ DyLiN:トポロジー変化を伴うシーンでのLightFieldのモデル化
 ❏ DNRF:単眼または少数視点映像から服を含む人物動作を復元
 ❏ MonoHuman:人物運動に対し双方向制約を持つ変形場をモデル化
 ❏ MagicPony:自然環境下での動物骨格を含む復元
 変形可能NeRF
 25

Slide 26

Slide 26 text

❏ NeRFのデータ用意に必要なコストは問題視されており,視点数を減らしても
 高品質を実現可能な手法が多数提案されている
 ❏ Denoisingモデルなどで外部知識を使うアプローチが増加傾向
 ❏ DietNeRFのような事前知識付与の枠組みで、拡散モデルを使用することで完全に未知の
 視点の情報を与えられるように
 ❏ データ数の課題から,事前知識には2D処理を用い,NeRFを3次元的な一貫性を持たせるための仲 介に利用する方法が現状では主流
 ❏ DiffusioNeRF:ノイズ除去拡散モデルを用いて事前知識を付与
 ❏ NeRDi:2D DiffusionでNeRFの潜在空間中の特徴ベクトルの事前分布を設定.1枚の 画像からNeRFを構成
 Few shot
 26

Slide 27

Slide 27 text

❏ NeRFの編集では編集指示の与え方に課題があった
 → 指示の与え方やインターフェイスに着目した研究が増加傾向
 ❏ EditableNeRF:ユーザーがキーポイント操作で編集可能な動的シーンNeRFを提案
 ❏ PaletteNeRF:Diffuse成分をシーン中で共有するカラーパレットの線型結合に分解し, カラーパレットの編集により外観を操作可能に
 ❏ SINE:1枚の画像でスタイルを編集
 編集可能NeRF
 27

Slide 28

Slide 28 text

❏ NeRFでは高品質なカメラ姿勢が要求されるため,JointOptimization(iNeRF)を用いた 調整や推定が探索されてきた
 ❏ BARF以降,PEを介して低周波成分を対象にした学習初期の誘導が可能になった
 →CVPR2023ではBARFの拡張が多数提案
 ❏ DBARF(Yu et al.):汎化NeRFにBundle Adjustmentを導入
 ❏ L2G-NeRF(Yue et al.):ピクセル単位の対応に対して微分可能なパラメータ推定ソル バを用いてGlobalなBAを実施
 ❏ BAD-NeRF(Pen et al.):激しいモーションブラー画像や不正確なカメラポーズに強い BAを行うNeRFを提案
 カメラ姿勢推定
 28

Slide 29

Slide 29 text

❏ 照明情報をRGB画像観測から復元するためには,被写体の材質推定が必要
 ❏ SDFなど距離場でサーフェイスをパラメータ化し,BRDFのような境界面の反射モデル を復元するアプローチを取るものが多い
 ❏ VDN-NeRF:学習済NeRFにエンコードされている不変情報を抽出した正規化により, 非ランバート面や動的な照明条件下のNeRFを安定化
 ❏ I2-SDF:SDF上の微分可能なMonte Carlo raytracingを導入
 ❏ NeFLL:Monte Carlo Samplingに基づくパストレーシングを導入
 Lighting
 29

Slide 30

Slide 30 text

❏ DreamFusionを起点に,2Dの拡散モデルで生成した画像を,3次元的に整合性を持た せるための伝搬役としてNeRFを使用する研究が発展
 ❏ Text-to-3DタスクはCVPR2023以降もFantasia3Dなど急速に進展中
 ❏ Dream3D(Jiale et al.):CLIPガイド付き3D最適化手法に,Diffusionモデルから明示的 な3D形状事前分布を導入
 ❏ Latent-NeRF(Gal et al.):RGB画像ではなくNeRFの特徴ベクトル空間を対象にした Diffusionモデルを構築
 生成タスク
 30

Slide 31

Slide 31 text

❏ NeRFで3D(or 時系列で4D)をモデル化することが一般化
 ❏ NeRFを使うのは誰でもできる時代に
 ❏ 研究の方向性1:NeRFの適用可能性を広げる
 ❏ より簡単に,より高速に,より制約なく
 ❏ 特に簡単な工夫で高速化・高性能化・適用可能シナリオの拡大ができないかの
 試行錯誤が進められている印象
 ❏ 既存のパラメトリックな3Dモデルも活用(人体のSMPLなどが顕著)
 ❏ 研究の方向性2: 大規模化
 ❏ グリッドベースの特徴量記述を利用すれば都市レベルでできることがよく知られている
 ❏ 研究の方向性3: 複数シーン対応
 ❏ シーン単位学習から複数シーン同時最適化・未知シーンへの学習結果の活用
 ❏ 2Dやテキストの学習済みモデルをうまく利用
 ❏ 光線や2D画像など,3Dより軽量な単位の特徴量でシーンをまたぐ
 ❏ 研究の方向性4:これまでのCV研究の応用
 ❏ 2D CNNでの推論,パラメトリックな変形モデル,ルールベースの点群処理・画像処理など
 既に解けたタスクを3Dに持ち上げる道具として利用
 ❏ NeRFを使うとうまく「3D→2D」「2D→3D」のラベル・情報伝播ができる
 ❏ レンダリングを真面目に考えていることのメリット 
 Neural Field関連研究の動向まとめ
 31

Slide 32

Slide 32 text

❏ Depth値を活用した理論的な制約・事前確率を用いる手法が増加
 ❏ SCADE:単眼デプス推定の値を事前確率として使用
 ❏ NoPE-NeRF:カメラ姿勢の事前知識なしでNeRFとカメラ姿勢を同時最適化
 カメラ姿勢推定
 32 SCADE NoPE-NeRF

Slide 33

Slide 33 text

❏ 負荷を小さくすることで,モバイル端末でのレンダリングが可能なNeRFが登場
 ❏ MobileNeRF(CVPR2023):通常のNeRFを訓練後,密度を2値化してメッシュを抽出し ,不透明度と特徴量をテクスチャにbakeする
 ❏ Real-Time NeLF(CVPR2023):Neural Light fieldのアプローチで高速化. MobileNeRFの15~24倍低容量
 高速化の経緯⑤ エッジ端末での応用