Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NeuralFieldsメタサーベイ:CCC Summer 2023 in MIRUチュートリ...
Search
ueda
July 26, 2023
Technology
0
1k
NeuralFieldsメタサーベイ:CCC Summer 2023 in MIRUチュートリアル(配布版)
MIRU 2023チュートリアル「NeuralFieldsメタサーベイ」(17:30-18:00 チュートリアル講演3-3)で使用したスライドの配布版です。
ueda
July 26, 2023
Tweet
Share
More Decks by ueda
See All by ueda
MIRU2024 Neural Density-Distance Fieldを用いた ボリュームレンダリングの 透過率バウンドおよび高速化
i_ueda0319
0
6
NeDDF: Neural Density-Distance Field
i_ueda0319
0
5
Other Decks in Technology
See All in Technology
[PyCon Korea 2024] Lightning Talk: PyPI패키지를 의심하세요
studioego
PRO
0
130
急成長中のWINTICKETにおける品質と開発スピードと向き合ったQA戦略と今後の展望 / winticket-autify
cyberagentdevelopers
PRO
1
150
Nix入門パラダイム編
asa1984
2
170
Java x Spring Boot Warm up
kazu_kichi_67
2
440
Mackerelが取り組むオブザーバビリティ - Mackerel Tech Day
mackerelio
0
360
KaigiOnRails2024
igaiga
6
4.1k
都市伝説バスターズ「WebアプリのボトルネックはDBだから言語の性能は関係ない」 - Kaigi on Rails 2024
osyoyu
15
8.2k
pandasはPolarsに性能面で追いつき追い越せるのか
vaaaaanquish
3
1.4k
わたしとトラックポイント / TrackPoint tips
masahirokawahara
1
220
小規模に始めるデータメッシュとデータガバナンスの実践
kimujun
3
380
Comparing Apache Flink and Spark for Modern Stream Data Processing
sharonx
0
190
Data Migration on Rails
ohbarye
7
4.9k
Featured
See All Featured
Producing Creativity
orderedlist
PRO
341
39k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
Statistics for Hackers
jakevdp
796
220k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Automating Front-end Workflow
addyosmani
1365
200k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.6k
Typedesign – Prime Four
hannesfritz
39
2.4k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9k
Transcript
Neural Fieldsメタサーベイ 1 http://xpaperchallenge.org/cv 上田樹、千葉直也、相澤宏旭、中原龍一、佐藤悠輝 佐藤和仁、武田司、伊藤颯汰、松澤郁哉、近藤生也
• Neural FIeldsとは • Neural Fieldsの発展の現在:NeRF拡張のブレイクスルーを紹介 ◦ 高速化 ◦ 分解能の操作
◦ カメラ姿勢の最適化 ◦ 遠景のモデル化 • Neural Fieldsの派生研究 この発表について
Neural Fieldsとは
• Neural Networkにより、(主に)3次元の場を再構成する方法論に関する小研究 分野 ◦ 代表例:NeRF(Neural Radiance Fields) ◦ 代表タスク:多視点の撮影画像から新規視点の映像を生成
Neural Fieldsとは
密度及び色を記述するニューラル場と微分可能なvolume renderingの組み合わせ NeRF ニューラル場 volume rendering ▪ 3次元座標や方向を入力に密度や色を出力す る関数をMLPなどのネットワークで回帰する表 現方法
▪ coordinate network、Implicit Neural Representationと呼ばれることも ▪ 密度と色情報をレイに沿ってサンプリングし、 レンダリング画像を生成する ▪ 微分可能な方程式によって、 3次元形状表現 とRGB画像を接続し、測光誤差 (Photometric Error)による最適化が可能になる https://arxiv.org/pdf/2003.08934.pdf
オリジナルNeRFの制限と進歩 計算コストが高い 膨大な撮影枚数が必要 被写体が小さい 高精度のカメラ姿勢が必要 形状の獲得に半日、推論に数分 1シーンに200枚程度要求 Out2Inな視点での撮影に限定 前処理としてCOLMAPが前提 グリッドモデルの併用により
5分以内での形状獲得、 120fpsでのレンダリングが可能 CLIP等の特徴量を未知視点で 一貫させることで 3~7枚程度での学習が可能 NeRFの分解能の操作可能性の発見で Coarse-to-FineなBAが実現し 条件によってはカメラ姿勢が不要 無限遠までをモデル化する座標系、 空間を分割したNeRFの学習の実現で 都市規模の復元が可能
オリジナルNeRFの制限と進歩 計算コストが高い 膨大な撮影枚数が必要 被写体が小さい 高精度のカメラ姿勢が必要 形状の獲得に半日、推論に数分 1シーンに200枚程度要求 Out2Inな視点での撮影に限定 前処理としてCOLMAPが前提 グリッドモデルの併用により
5分以内での形状獲得、 120fpsでのレンダリングが可能 CLIP等の特徴量を未知視点で 一貫させることで 3~7枚程度での学習が可能 NeRFの分解能の操作可能性の発見で Coarse-to-FineなBAが実現し 条件によってはカメラ姿勢が不要 無限遠までをモデル化する座標系、 空間を分割したNeRFの学習の実現で 都市規模の復元が可能 NeRF研究への参入障壁が軽減
Neural Fields関連研究の動向 ❏ Neural Fields関連論文の採択数が104本 ❏ CVPR2022の38本,ECCV2022の25本から大幅に増加 ※個別の論文については こちらに要約を置いています
NeRFの進歩について
NeRFでは1視点のレンダリング(500x500)で数分程度要求 → 2021年頃、推論の高速化が流行 NeRFの推論では、1画素あたり数百のサンプリング点でMLPを実行 → MLPの順伝搬時間とサンプリング点数が支配的 高速化の経緯① 推論時の高速化
◯サンプリング点の削減 AutoInt(CVPR2021): ボリュームレンダリングの積分構造を埋め込んだネットワークを作 成し、レイ両端の2点のサンプリングのみで定積分を計算可能 DONeRF(CVPR2021): 単眼デプス推定に基づいてサンプリング点配置の事前確率を設 定し、最大48倍の高速化 ◯ネットワークの分割 NSVF(CVPR2021): Sparse
Voxel Octreeでモノのある箇所にのみNNを配置.NeRFより 10倍高速 DeRF (CVPR2021): Voronoi空間分割でシーンの分解方法を含め学習.NeRFより3倍高 速 KiloNeRF(ICCV2021): 数千オーダーの小規模なMLPに分割。NeRFより3000倍高速 高速化の経緯① 推論時の高速化
NeRFは位置θ+方向Φの5次元を入力にした関数 方向依存性成分の基底に球面調和関数をとることで 位置θの3次元入力の関数に置き換え 高速化のブレイクスルー 球面調和関数 arxiv.org/abs/2103.14024 関数の出力を3次元グリッドに記録可能に
視線依存成分を基底をとったパラメータ表示にして色場ネットワークを省略 訓練結果をグリッドなどにキャッシュすることで推論時間を削減するアプロー これによりNeRFのリアルタイムレンダリングが実現 PlenOctree(ICCV2021): 8分木構造にキャッシュをとる SNeRG(ICCV2021): 視点非依存特徴を事前に計算し2Dキャッシュを取る FastNeRF(Arxiv2021): 視線依存成分を分離したネットワークをとり基底を設定 MobileNeRF
(CVPR2023): メッシュテクスチャにキャッシュ 高速化の経緯② NeRFのキャッシュ arxiv.org/abs/2103.14024
ボリュームレンダリングが微分可能であるなら、訓練済みのモデルをグリッドにキャッシュ するのではなくキャッシュ先のパラメータを直接訓練する発想が流行 空間的な独立性が高められるため訓練が数分単位になる大幅な高速化を実現 Plenoxels(CVPR2022): Sparce Gridを直接訓練する DVGO(CVPR2022): ボクセルと事後活性化関数の組み合わせで鮮明な表面を表現 InstantNGP(SIGGRAPH2022): 境界の異なる多層ハッシュグリッドでパラメータ化
高速化の経緯③ 訓練時の高速化
グリッドを利用したモデルでは時間計算量が圧縮できる一方で、 ボクセル表現と同様に空間全域を離散化するためパラメータ数が多くなる → 微分可能なパラメータの圧縮方法を用いてモデル化することで空間計算量も削減 TensoRF(ECCV2022): ボクセル表現をテンソル分解で近似してパラメータ化 HexPlane(CVPR2023):動的シーンを6つの特徴面へTensor分解して表現 MaskedWavelet(CVPR2023):ウェーブレット変換によりパラメータ効率を改善 VQRF (CVPR2023):Codebookを用いてパラメータを離散的に圧縮
高速化の経緯④ モデルサイズの削減 arxiv.org/abs/2203.09517
NeRFの拡張
mip-NeRF(ICCV2021) PositionalEncodingの高周波成分を適切に減衰させることで、mipmapのように 異なる分解能の場を画一的に扱うことが可能であることを発見 → 点ではなく球や円錐状のサンプリングの取り扱いが可能に - エイリアシングノイズの回避 - サンプリングに必要な”CoarseなNeRF”を同じモデルから復元可能
最大のブレイクスルー:空間分解能の操作 arxiv.org/abs/2103.13415
mip-NeRF360(CVPR2022) 遠景ほど必要な分解能が下がる性質を利用し、無限遠までの空間を半径2の 球の内部に写像する NeRFではOut-to-inに制限されていたが、自由なカメラ配置が可能に 遠景のモデル化 arxiv.org/abs/2111.12077
iNeRF(IROS2021) / NeRF- -(Arxiv) ボリュームレンダリングはカメラ姿勢でも微分可能なため、最適化パラメータに含めること でカメラ姿勢の調整が可能 色の勾配方向が滑らかな範囲でのみ最適化が進む為、利用可能な場面は限定的 カメラ姿勢の推定
BARF(ICCV2021) mip-NeRF同様にPositioinalEncodingで高周波成分を減衰させるアプローチ 低周波成分から合致させることで追従範囲を広げロバストに カメラ姿勢の推定 arxiv.org/abs/2104.06405 同様のアプローチが動的シーン・モーションブラー等の推定にも有用と普及
zip-NeRF(ICCV2023) グリッドベース手法は高速な一方で、PEを使わないため直接的な高周波減衰が困難 mip-NeRFのようなレイのモデル化をサンプリングで解決することで グリッドベースでも利用可能に拡張 グリッドベースでの利用 arxiv.org/abs/2304.06706
❏ 当初問題されていた”NeRFは学習/レンダリングが重い”という問題は 実質的に解決 →ニューラル場の応用や派生に関心が移りつつある ❏ ニューラル場で何を記述するか ❏ 入力に時間軸を追加→動的シーンを記述 ❏ 出力に物体ラベルを追加→セグメンテーションタスクの3D一貫性に利用
❏ ニューラル場を何に使うか ❏ 拡散モデルの3次元記述方法として使用 ❏ SLAMの地図表現として使用 ❏ 言語ラベルと結びつけて移動や編集指示に使用 Neural Fieldsの現在
NeRFの派生研究について
❏ CVPR2023では拡散モデルを用いた生成タスクの研究が急増 ❏ これまでと共通して,動的シーン・Fewshot・編集性への注目度が高い Neural Fields関連の派生研究 24 タスク別論文数
❏ 長時間・大変形化や反射光のモデル化,人物衣装・動物骨格などより高難易度の シーンへの活用が試みられている ❏ DynlBaR:長時間・大変形の動画から写実的な新規視点合成を実現 ❏ ReRF:隣接するフレーム間の残差でモデル化し長時間の変形を平滑に保持 ❏ DyLiN:トポロジー変化を伴うシーンでのLightFieldのモデル化 ❏
DNRF:単眼または少数視点映像から服を含む人物動作を復元 ❏ MonoHuman:人物運動に対し双方向制約を持つ変形場をモデル化 ❏ MagicPony:自然環境下での動物骨格を含む復元 変形可能NeRF 25
❏ NeRFのデータ用意に必要なコストは問題視されており,視点数を減らしても 高品質を実現可能な手法が多数提案されている ❏ Denoisingモデルなどで外部知識を使うアプローチが増加傾向 ❏ DietNeRFのような事前知識付与の枠組みで、拡散モデルを使用することで完全に未知の 視点の情報を与えられるように ❏ データ数の課題から,事前知識には2D処理を用い,NeRFを3次元的な一貫性を持たせるための仲
介に利用する方法が現状では主流 ❏ DiffusioNeRF:ノイズ除去拡散モデルを用いて事前知識を付与 ❏ NeRDi:2D DiffusionでNeRFの潜在空間中の特徴ベクトルの事前分布を設定.1枚の 画像からNeRFを構成 Few shot 26
❏ NeRFの編集では編集指示の与え方に課題があった → 指示の与え方やインターフェイスに着目した研究が増加傾向 ❏ EditableNeRF:ユーザーがキーポイント操作で編集可能な動的シーンNeRFを提案 ❏ PaletteNeRF:Diffuse成分をシーン中で共有するカラーパレットの線型結合に分解し, カラーパレットの編集により外観を操作可能に ❏ SINE:1枚の画像でスタイルを編集
編集可能NeRF 27
❏ NeRFでは高品質なカメラ姿勢が要求されるため,JointOptimization(iNeRF)を用いた 調整や推定が探索されてきた ❏ BARF以降,PEを介して低周波成分を対象にした学習初期の誘導が可能になった →CVPR2023ではBARFの拡張が多数提案 ❏ DBARF(Yu et al.):汎化NeRFにBundle
Adjustmentを導入 ❏ L2G-NeRF(Yue et al.):ピクセル単位の対応に対して微分可能なパラメータ推定ソル バを用いてGlobalなBAを実施 ❏ BAD-NeRF(Pen et al.):激しいモーションブラー画像や不正確なカメラポーズに強い BAを行うNeRFを提案 カメラ姿勢推定 28
❏ 照明情報をRGB画像観測から復元するためには,被写体の材質推定が必要 ❏ SDFなど距離場でサーフェイスをパラメータ化し,BRDFのような境界面の反射モデル を復元するアプローチを取るものが多い ❏ VDN-NeRF:学習済NeRFにエンコードされている不変情報を抽出した正規化により, 非ランバート面や動的な照明条件下のNeRFを安定化 ❏ I2-SDF:SDF上の微分可能なMonte
Carlo raytracingを導入 ❏ NeFLL:Monte Carlo Samplingに基づくパストレーシングを導入 Lighting 29
❏ DreamFusionを起点に,2Dの拡散モデルで生成した画像を,3次元的に整合性を持た せるための伝搬役としてNeRFを使用する研究が発展 ❏ Text-to-3DタスクはCVPR2023以降もFantasia3Dなど急速に進展中 ❏ Dream3D(Jiale et al.):CLIPガイド付き3D最適化手法に,Diffusionモデルから明示的 な3D形状事前分布を導入
❏ Latent-NeRF(Gal et al.):RGB画像ではなくNeRFの特徴ベクトル空間を対象にした Diffusionモデルを構築 生成タスク 30
❏ NeRFで3D(or 時系列で4D)をモデル化することが一般化 ❏ NeRFを使うのは誰でもできる時代に ❏ 研究の方向性1:NeRFの適用可能性を広げる ❏ より簡単に,より高速に,より制約なく ❏
特に簡単な工夫で高速化・高性能化・適用可能シナリオの拡大ができないかの 試行錯誤が進められている印象 ❏ 既存のパラメトリックな3Dモデルも活用(人体のSMPLなどが顕著) ❏ 研究の方向性2: 大規模化 ❏ グリッドベースの特徴量記述を利用すれば都市レベルでできることがよく知られている ❏ 研究の方向性3: 複数シーン対応 ❏ シーン単位学習から複数シーン同時最適化・未知シーンへの学習結果の活用 ❏ 2Dやテキストの学習済みモデルをうまく利用 ❏ 光線や2D画像など,3Dより軽量な単位の特徴量でシーンをまたぐ ❏ 研究の方向性4:これまでのCV研究の応用 ❏ 2D CNNでの推論,パラメトリックな変形モデル,ルールベースの点群処理・画像処理など 既に解けたタスクを3Dに持ち上げる道具として利用 ❏ NeRFを使うとうまく「3D→2D」「2D→3D」のラベル・情報伝播ができる ❏ レンダリングを真面目に考えていることのメリット Neural Field関連研究の動向まとめ 31
❏ Depth値を活用した理論的な制約・事前確率を用いる手法が増加 ❏ SCADE:単眼デプス推定の値を事前確率として使用 ❏ NoPE-NeRF:カメラ姿勢の事前知識なしでNeRFとカメラ姿勢を同時最適化 カメラ姿勢推定 32 SCADE NoPE-NeRF
❏ 負荷を小さくすることで,モバイル端末でのレンダリングが可能なNeRFが登場 ❏ MobileNeRF(CVPR2023):通常のNeRFを訓練後,密度を2値化してメッシュを抽出し ,不透明度と特徴量をテクスチャにbakeする ❏ Real-Time NeLF(CVPR2023):Neural Light fieldのアプローチで高速化.
MobileNeRFの15~24倍低容量 高速化の経緯⑤ エッジ端末での応用