Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DynIBaR (第60回CV勉強会@関東)

DynIBaR (第60回CV勉強会@関東)

TSUKAMOTO Kenji

August 25, 2023
Tweet

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Transcript

  1. Motion-adjusted feature aggregation 𝐼! , … , 𝐼" Ρ! ,

    … , Ρ" 𝑖, 𝑗 ∈ Ν 𝑖 = 𝑖 − 𝑟, 𝑖 + 𝑟 𝐼), Ρ ), 𝐹) 𝐹! , … , 𝐹" ︓画像 ︓カメラパラメータ ︓2D CNN feature map 2D CNN feature extractor 移動体があるため動きを考慮した特徴を作成する
  2. Motion trajectory fields︓移動体の軌跡 u 学習された基底関数で記述されたmotion trajectory fieldで表現 Motion trajectory fields[67]

    ∆*,+ 𝑗 = Γ*,+ 𝑗 − Γ*,+ 𝑖 𝜙+ , 𝑥 ,-. / = 𝐺01 𝛾 𝑥 , 𝛾 𝑖 Γ*,+ 𝑗 = / ,-. / ℎ) ,𝜙+ , 𝑥 ターゲットRayに沿った3D点xに対してMLPでエンコード 学習可能なmotion basisを導⼊し、3D点xに対するmotion trajectoryを最適化 時刻jにおいて3D点xとその3次元対応点𝑥!→# の変位(動き)
  3. Cross-time rendering for temporal consistency u Cross-time rendering u 時刻iのビューを近傍の時刻jを経由してレンダリングする

    u Ray 𝑟!→# に沿った3D点𝑥!→# を時刻jのRayとする u MLPとMTFの係数を予測し、 ∆$,! 𝑗 を⽤いて画像kに対応する 新しい3D点 𝑥!→# &→' とする。これをレンダリングに使う u 𝐼' , 𝑃' , 𝐹' とγ 𝑗 を⼊⼒したRay Transformerから 𝑐# , 𝜎# を出⼒し、 レンダリングにより , 𝐶#→! を得る u 最適化 ; 𝑊 #⟶! 𝑟 ︓各サンプル位置𝑟 𝑡 における累積重み ︓正解と予測した画素値の⼀般化Charbonnier loss[10]
  4. Combining static and dynamic model u NSFFでは少ないSource Viewで新しいビューをレンダリングする際、staticな シーン領域の品質が低いという課題があった u

    2つの別々な表現を⽤いてシーン全体をモデル化する u dynamic content︓time-varying modelで表現 u static content︓time-invariant modelで表現 u 2つのモデルによる予測を統合してレンダリングして⾊= C#→! %&''を予測
  5. Time-varying model u ⼊⼒のRayは曲がっているが出⼒のRayは直線のため、Ray Transformerの後で座標埋め込み 𝛾 𝑥 , 𝛾 𝑑

    を連結して⾊と密度を出⼒する Fourier position encoding ⼊⼒特徴 中間特徴と重み 特徴 global空間での embedding ビュー⽅向のEmbedding
  6. 最適化Loss u 動的シーンの単眼再構成はphotometryのみでは局所解を回避できないので正則化を⾏う u 正則化項︓ ℒ()* = ℒ+,-, + ℒ./

    + ℒ01- u ℒ+,-, ︓ℓ2 単眼Depthとオプティカルフロー[80, 65] u ℒ./ ︓motion trajectory の正則化 u ℒ01- ︓static-dynamicシーン分解のエントロピーloss Mip-NeRF360で提案した正則化 (参考) u ⾒た⽬・レンダリングの画質は改善するが、数値評価は変わらず u 各項の詳細はsupplementary materialを参照
  7. Implementation details u データセット 1. Nvidia Dataset[75]、UCSD Dynamic Scenes Dataset[37]

    2. NSFF[35]のデータセット(100-250frame) u Source Viewの選択: 𝑖 − 𝑟, 𝑖 + 𝑟 u Dynamic model: r = 3 u Static model: u データセット1はターゲット時間から12フレーム以内での近傍の明確な視点を全て選択 u データセット2に関しては[34]の⽅法で𝑟!"# を求めて$%!"#. &%& としている(𝑁'( = 16) u Setup u カメラPose︓COLMAPで算出 u Ray 𝑟! に対して128のcoarse-to-fine samplingを⾏う[70] u OptimizerはAdam u 最適化︓3のデータセット10秒動画1つに対してA100×8で2⽇ u rendering映像は768×432、20秒程度 u 最適化パラメータはsupplementary materialを参照
  8. Limitation u 現時点での課題 u ⾸輪のロープなど細⻑い物体 u 物体が 𝑖 − 𝑟,

    𝑖 + 𝑟 フレームでも⾒切れている u Source Viewの特徴が不⼗分な場合、レンダリングに失敗
  9. まとめ u 動的シーンのIBR⼿法としてNeural Dynamic IBRを提案 u カメラの動きに制約が少なくなった u 動く物体に対してrendering品質を改善 u

    ⻑時間のシーンに対応可能 u 感想 u シーンをStaticとDynamicに分けてそれぞれでrenderingし、最後にcombinedする考 え⽅はシンプル u 細かい違いがあって試すにも慣れてないと難しい u 既存⼿法の活⽤が多数あるため、システムとして複雑 u 最適化項⽬が多い(IBR、Motion Trajectory、Segmentation)
  10. 参考⽂献 u [4] Sai Bi et al, Neural reflectance fields

    for appearance acquisition. ArXiv, 2008.03824, 2020. u [10] Perre Charbonnier et al, Two deterministic half-quadratic regularization algorithms for computed imaging. ICIP , vol.2, pages 168-172, 1994. u [34] Zhengqi Li et al, Learning the depths of moving people by watching frozen people. CVPR 2019 u [35] Zhengqi Li et al, Neural scene flow for space-time view synthesis of dynamic scenes. CVPR 2021. u [50] Keunhong Park et al, HyperNeRF: A higher-dimensional representation for topologically varying neural radiance fields. arXiv:2106.1328, 2021. u [65]Zachary Teed et al, RAFT: Recurrent all-pairs field transforms for optical flow. EECV 2020. u [67]Chaoyang Wang et al, Neural prior for trajectory estimation. CVPR 2022. u [70]Qianqian Wang et al, IBRNet: Learning Multi-View Image-Based Rendering, CVPR 2021 u [80]Zhoutong Zhang et al, Consistent depth of moving objects in video, ACM Transactions on Graphcis. 40(4):1-12, 2021