DynIBaR (第60回CV勉強会@関東)

第60回CV勉強会@関東「CVPR2023読会（後編）」 DynIBaR: Neural Dynamic Image Based Rendering 2023/08/26

本⽇の論⽂ • GitHub • CVPR Image Based Renderingの動的シーン拡張

従来法の課題 u HyperNeRF、Neural Scene Flow Field u カメラの動きが限定的 u 移動体の動きが⽐較的⼤きくない
u 短い映像（1秒程度）への適⽤のみ HyperNeRF NSFF

従来法と提案法の⽐較⼊⼒映像 NSFF HyperNeRF DynIBaR 提案法がぼけが少なく、画質も良い

Motion-adjusted feature aggregation 𝐼! , … , 𝐼" Ρ! ,
… , Ρ" 𝑖, 𝑗 ∈ Ν 𝑖 = 𝑖 − 𝑟, 𝑖 + 𝑟 𝐼), Ρ ), 𝐹) 𝐹! , … , 𝐹" ︓画像 ︓カメラパラメータ ︓2D CNN feature map 2D CNN feature extractor 移動体があるため動きを考慮した特徴を作成する

Motion trajectory fields︓移動体の軌跡 u 学習された基底関数で記述されたmotion trajectory fieldで表現 Motion trajectory fields[67]
∆*,+ 𝑗 = Γ*,+ 𝑗 − Γ*,+ 𝑖 𝜙+ , 𝑥 ,-. / = 𝐺01 𝛾 𝑥 , 𝛾 𝑖 Γ*,+ 𝑗 = / ,-. / ℎ) ,𝜙+ , 𝑥 ターゲットRayに沿った3D点xに対してMLPでエンコード学習可能なmotion basisを導⼊し、3D点xに対するmotion trajectoryを最適化時刻jにおいて3D点xとその3次元対応点𝑥!→# の変位（動き）

Rendering u 画像𝐼の特徴𝐹をMLPに⼊⼒し、加重平均プーリングでRay 𝑟に沿った3D点𝒙の特徴ベクトルを作成 u Ray Transformerで特徴と𝛾 𝑖 をシーケンスで処理し、
𝑐! 𝑡 , 𝜎! 𝑡 を予測し、⼀般的なNeRFでレンダリング[4]

Cross-time rendering for temporal consistency u Cross-time rendering u 時刻iのビューを近傍の時刻jを経由してレンダリングする
u Ray 𝑟!→# に沿った3D点𝑥!→# を時刻jのRayとする u MLPとMTFの係数を予測し、 ∆$,! 𝑗 を⽤いて画像kに対応する新しい3D点 𝑥!→# &→' とする。これをレンダリングに使う u 𝐼' , 𝑃' , 𝐹' とγ 𝑗 を⼊⼒したRay Transformerから 𝑐# , 𝜎# を出⼒し、レンダリングにより , 𝐶#→! を得る u 最適化 ; 𝑊 #⟶! 𝑟 ︓各サンプル位置𝑟 𝑡 における累積重み ︓正解と予測した画素値の⼀般化Charbonnier loss[10]

Combining static and dynamic model u NSFFでは少ないSource Viewで新しいビューをレンダリングする際、staticなシーン領域の品質が低いという課題があった u
2つの別々な表現を⽤いてシーン全体をモデル化する u dynamic content︓time-varying modelで表現 u static content︓time-invariant modelで表現 u 2つのモデルによる予測を統合してレンダリングして⾊= C#→! %&''を予測

Time-varying model u ⼊⼒のRayは曲がっているが出⼒のRayは直線のため、Ray Transformerの後で座標埋め込み 𝛾 𝑥 , 𝛾 𝑑
を連結して⾊と密度を出⼒する Fourier position encoding ⼊⼒特徴中間特徴と重み特徴 global空間での embedding ビュー⽅向のEmbedding

Time-invariant model u ⼊⼒特徴はそれぞれの特徴をconcateしてposition embeddingをMLPで特徴を作成してRay transformerにより⾊と密度を出⼒ Target ray coordinate embedding
⼊⼒特徴相対View⽅向

Motion segmentation u Motionによるsegmentationでstatic/dynamicのmaskを作成 Encoder-Decoder Segmentation (RGB, opacity, conf) 負の対数尤度をとって、セグメンテーションlossは
重み付き再構成lossで記述

Supervision with segmentation masks u time-varying modelとtime-invariant modelそれぞれのマスク𝑀! で初期化し、動的領域と静的領域をrenderingの再構成lossを適⽤する。
u 動的領域・静的領域マスクを得る u 最適化ステップ50Kごとに重みを5減衰させる

最適化Loss u 動的シーンの単眼再構成はphotometryのみでは局所解を回避できないので正則化を⾏う u 正則化項︓ ℒ()* = ℒ+,-, + ℒ./
+ ℒ01- u ℒ+,-, ︓ℓ2 単眼Depthとオプティカルフロー[80, 65] u ℒ./ ︓motion trajectory の正則化 u ℒ01- ︓static-dynamicシーン分解のエントロピーloss Mip-NeRF360で提案した正則化 (参考) u ⾒た⽬・レンダリングの画質は改善するが、数値評価は変わらず u 各項の詳細はsupplementary materialを参照

Implementation details u データセット 1. Nvidia Dataset[75]、UCSD Dynamic Scenes Dataset[37]
2. NSFF[35]のデータセット(100-250frame) u Source Viewの選択: 𝑖 − 𝑟, 𝑖 + 𝑟 u Dynamic model: r = 3 u Static model: u データセット１はターゲット時間から12フレーム以内での近傍の明確な視点を全て選択 u データセット２に関しては[34]の⽅法で𝑟!"# を求めて$%!"#. &%& としている（𝑁'( = 16） u Setup u カメラPose︓COLMAPで算出 u Ray 𝑟! に対して128のcoarse-to-fine samplingを⾏う[70] u OptimizerはAdam u 最適化︓3のデータセット10秒動画1つに対してA100×8で2⽇ u rendering映像は768×432、20秒程度 u 最適化パラメータはsupplementary materialを参照

定量評価 u Nvidia, UCSD Dataset u Depth, optical flow, maskは本論⽂の⼿法で作成、それらを使って各⼿法で
renderingした結果を定量⽐較 u PSNRで2-4dBの改善、LPIPSは50％低減

定量評価 u Nvidia Dataset︓動きがある物体のレンダリング品質が改善

映像でのレンダリング u [35] データセット(10秒映像）のIBR結果 ※GitHubから引⽤

Limitation u 現時点での課題 u ⾸輪のロープなど細⻑い物体 u 物体が 𝑖 − 𝑟,
𝑖 + 𝑟 フレームでも⾒切れている u Source Viewの特徴が不⼗分な場合、レンダリングに失敗

まとめ u 動的シーンのIBR⼿法としてNeural Dynamic IBRを提案 u カメラの動きに制約が少なくなった u 動く物体に対してrendering品質を改善 u
⻑時間のシーンに対応可能 u 感想 u シーンをStaticとDynamicに分けてそれぞれでrenderingし、最後にcombinedする考え⽅はシンプル u 細かい違いがあって試すにも慣れてないと難しい u 既存⼿法の活⽤が多数あるため、システムとして複雑 u 最適化項⽬が多い（IBR、Motion Trajectory、Segmentation）

参考⽂献 u [4] Sai Bi et al, Neural reflectance fields
for appearance acquisition. ArXiv, 2008.03824, 2020. u [10] Perre Charbonnier et al, Two deterministic half-quadratic regularization algorithms for computed imaging. ICIP , vol.2, pages 168-172, 1994. u [34] Zhengqi Li et al, Learning the depths of moving people by watching frozen people. CVPR 2019 u [35] Zhengqi Li et al, Neural scene flow for space-time view synthesis of dynamic scenes. CVPR 2021. u [50] Keunhong Park et al, HyperNeRF: A higher-dimensional representation for topologically varying neural radiance fields. arXiv:2106.1328, 2021. u [65]Zachary Teed et al, RAFT: Recurrent all-pairs field transforms for optical flow. EECV 2020. u [67]Chaoyang Wang et al, Neural prior for trajectory estimation. CVPR 2022. u [70]Qianqian Wang et al, IBRNet: Learning Multi-View Image-Based Rendering, CVPR 2021 u [80]Zhoutong Zhang et al, Consistent depth of moving objects in video, ACM Transactions on Graphcis. 40(4):1-12, 2021

DynIBaR (第60回CV勉強会@関東)

DynIBaR (第60回CV勉強会@関東)

TSUKAMOTO Kenji

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Featured

Transcript

第60回CV勉強会@関東「CVPR2023読会（後編）」 DynIBaR: Neural Dynamic Image Based Rendering 2023/08/26

本⽇の論⽂ • GitHub • CVPR Image Based Renderingの動的シーン拡張

従来法の課題 u HyperNeRF、Neural Scene Flow Field u カメラの動きが限定的 u 移動体の動きが⽐較的⼤きくない

従来法と提案法の⽐較⼊⼒映像 NSFF HyperNeRF DynIBaR 提案法がぼけが少なく、画質も良い

Motion-adjusted feature aggregation 𝐼! , … , 𝐼" Ρ! ,

Motion trajectory fields︓移動体の軌跡 u 学習された基底関数で記述されたmotion trajectory fieldで表現 Motion trajectory fields[67]

Rendering u 画像𝐼の特徴𝐹をMLPに⼊⼒し、加重平均プーリングでRay 𝑟に沿った3D点𝒙の特徴ベクトルを作成 u Ray Transformerで特徴と𝛾 𝑖 をシーケンスで処理し、

Cross-time rendering for temporal consistency u Cross-time rendering u 時刻iのビューを近傍の時刻jを経由してレンダリングする

Combining static and dynamic model u NSFFでは少ないSource Viewで新しいビューをレンダリングする際、staticなシーン領域の品質が低いという課題があった u

Time-varying model u ⼊⼒のRayは曲がっているが出⼒のRayは直線のため、Ray Transformerの後で座標埋め込み 𝛾 𝑥 , 𝛾 𝑑

Time-invariant model u ⼊⼒特徴はそれぞれの特徴をconcateしてposition embeddingをMLPで特徴を作成してRay transformerにより⾊と密度を出⼒ Target ray coordinate embedding

Motion segmentation u Motionによるsegmentationでstatic/dynamicのmaskを作成 Encoder-Decoder Segmentation (RGB, opacity, conf) 負の対数尤度をとって、セグメンテーションlossは

Supervision with segmentation masks u time-varying modelとtime-invariant modelそれぞれのマスク𝑀! で初期化し、動的領域と静的領域をrenderingの再構成lossを適⽤する。

最適化Loss u 動的シーンの単眼再構成はphotometryのみでは局所解を回避できないので正則化を⾏う u 正則化項︓ ℒ()* = ℒ+,-, + ℒ./

Implementation details u データセット 1. Nvidia Dataset[75]、UCSD Dynamic Scenes Dataset[37]

定量評価 u Nvidia, UCSD Dataset u Depth, optical flow, maskは本論⽂の⼿法で作成、それらを使って各⼿法で

定量評価 u Nvidia Dataset︓動きがある物体のレンダリング品質が改善

映像でのレンダリング u [35] データセット(10秒映像）のIBR結果 ※GitHubから引⽤

Limitation u 現時点での課題 u ⾸輪のロープなど細⻑い物体 u 物体が 𝑖 − 𝑟,

まとめ u 動的シーンのIBR⼿法としてNeural Dynamic IBRを提案 u カメラの動きに制約が少なくなった u 動く物体に対してrendering品質を改善 u

参考⽂献 u [4] Sai Bi et al, Neural reflectance fields