Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Mip-NeRF ICCV2021輪読会スライド
Search
Daigo HIROOKA
December 12, 2021
Research
1
1.6k
Mip-NeRF ICCV2021輪読会スライド
Presentation slide at
https://kantocv.connpass.com/event/228283/
Daigo HIROOKA
December 12, 2021
Tweet
Share
More Decks by Daigo HIROOKA
See All by Daigo HIROOKA
1年 SRE をやって見えてきた SRE とプロダクト開発の関わり方
daigo0927
0
390
Introducing "Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
daigo0927
0
830
GroupViT CVPR2022読み会スライド
daigo0927
0
970
Cloud WorkflowsによるMLワークフロー
daigo0927
2
640
CVPR2021読み会スライド
daigo0927
2
940
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
daigo0927
1
2.2k
Your_Classifier_is_Secretly_an_Energy_Based_Model_and_You_Should_Treat_It_Like_One.pdf
daigo0927
0
1k
Other Decks in Research
See All in Research
第 2 部 11 章「大規模言語モデルの研究開発から実運用に向けて」に向けて / MLOps Book Chapter 11
upura
0
390
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
150
SNLP2024:Planning Like Human: A Dual-process Framework for Dialogue Planning
yukizenimoto
1
330
授業評価アンケートのテキストマイニング
langstat
1
360
文献紹介:A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications
a1da4
1
220
最近のVisual Odometryと Depth Estimation
sgk
1
270
Weekly AI Agents News! 7月号 論文のアーカイブ
masatoto
1
230
[依頼講演] 適応的実験計画法に基づく効率的無線システム設計
k_sato
0
130
Weekly AI Agents News! 10月号 論文のアーカイブ
masatoto
1
250
秘伝:脆弱性診断をうまく活用してセキュリティを確保するには
okdt
PRO
3
740
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
240
Human-Informed Machine Learning Models and Interactions
hiromu1996
2
480
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Unsuck your backbone
ammeep
668
57k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.5k
Building Better People: How to give real-time feedback that sticks.
wjessup
364
19k
BBQ
matthewcrist
85
9.3k
Building Applications with DynamoDB
mza
90
6.1k
Done Done
chrislema
181
16k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
890
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
47
2.1k
Transcript
第9回全日本コンピュータビジョン勉強会 Presenter:廣岡大吾
自己紹介 • 廣岡大吾 ◦ Twitter:dhirooka (@daigo_hirooka) • 機械学習エンジニア@ BrainPad ◦
関心:Deep LearningとMLOps ◦ BrainPad Advent Calendar 2021 進行中 • その他 ◦ GoProがゲレンデで活躍してます 2
紹介論文:Mip-NeRF • 目標:NeRFレンダリング時のスケール変化に伴うエイリアスの抑制(アンチエイリアス) 3 NeRF in the Wild
4 NeRF in the Wild
• 既存のNeRF ◦ レンダリング時のスケール変化は想定外 ◦ 近くからのレンダリング:ぼやける ◦ 遠くからのレンダリング:エイリアス • Mip-NeRF
◦ スケール変化に対応 ◦ レンダリング時のアンチエイリアスを実現 ◦ 計算コストもほぼ同じ 紹介論文:Mip-NeRF 5
NeRFのおさらい 6
NeRF:Neural Radiance Field • シーンの見え方を生成( view synthesis)するアプローチの一つ • 1つのシーンに対して1つの NeRFのモデルを学習する
◦ 学習データ:対象シーンを写した画像群 ◦ 推論:任意の視点からのシーンの見え方(レンダリング) 7 [2003.08934] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
NeRFによるシーンのモデル化 • NeRFの学習=全結合NNの学習 ◦ 入力:3次元上の位置xyz、視点からの向きθ,Φ ◦ 出力:入力(評価点)に対応する色 RGB・密度σ ◦ シーンに応じた色・密度の場(
Radiance Field)をNNによってモデル化・学習している 8
Radiance Fieldに基づくピクセル値の計算 • ①視点からピクセルへの半直線( camera ray)を用意 9
Radiance Fieldに基づくピクセル値の計算 • ①視点からピクセルへの半直線( camera ray)を用意 • ②Camera ray上の各点について、 radiance
fieldによって色・密度を評価 10
Radiance Fieldに基づくピクセル値の計算 • ①視点からピクセルへの半直線( camera ray)を用意 • ②Camera ray上の各点について、 radiance
fieldによって色・密度を評価 • ③各点の色・密度をボリュームレンダリングによって集約、ピクセル値を得る 11 ピクセル値
Radiance Fieldに基づくピクセル値の計算 • ①視点からピクセルへの半直線( camera ray)を用意 • ②Camera ray上の各点について、 radiance
fieldによって色・密度を評価 • ③ボリュームレンダリングによって各点の色・密度を集約、ピクセル値を得る • 必要なピクセル分計算することで 1枚の画像をレンダリングする 12 ピクセル値
NeRFの学習 • 学習データの各視点から画像を再構成し、ピクセル値の二乗誤差に基づいて教師あり学習 • ボリュームレンダリングは微分可能なので、 end2endな学習が可能 13
NeRF:まとめ • アーキテクチャ ◦ Radiance Field:空間上の位置・角度 →色・密度の関数 ◦ ボリュームレンダリングによって camera
rayからピクセル値を計算 • 既存の多くのモデルよりも高精細なレンダリングが可能 • NNモデルとしては軽量、効率よくシーン情報を保持できている 14
NeRF at ICCV2021 15
NeRF at ICCV2021 • Frank Dellaertさん(Georgia Tech/Google)によるまとめ • NeRFの課題 ◦
学習、推論(レンダリング)ともに遅い ◦ 静的(static)なシーンのみ表現可能 ◦ 照明がシーンの一部として焼きつく( baking) ◦ 1つの学習済みモデルで、1つのシーン・物体のみ表現可能 16
NeRF at ICCV2021 • Frank Dellaertさん(Georgia Tech/Google)によるまとめ • NeRFの改善アプローチ ◦
レンダリング精度など基礎的な改善 ▪ 今回のMip-NeRFなど ◦ レンダリング速度の向上 ◦ ポーズフリー:事前のカメラ位置計算の排除 ◦ 条件付き生成、シーンの編集 ◦ 動画など、時間方向への拡張 ◦ etc 17
None
NeRFの課題:スケール変化時のエイリアシング • NeRFの学習データは基本的に同じスケールの画像 • 学習データと異なる距離でのレンダリングでは精度が劣化 ◦ 近くの描画:ぼやける ◦ 遠くの描画:エイリアス 19
提案:Cone Tracingによるスケールの考慮 • Cone Tracing ◦ ピクセルに対してcamera ray(線)ではなくcone(円錐)を投射 ◦ 点ではなく円錐台(conical
frustum)領域の色・密度を評価する • 視点から遠いほどconical frustumが大きくなり、スケールを考慮できる 20
Conical frustumの評価 • NeRF:空間上の点の位置・向きに対して Positional Encodingを特徴表現として利用 • Mip-NeRF:conical frustumを評価するための特徴表現とは? ◦
領域を積分するような形で、効率よく計算できるような定式化だと良い 21
Conical frustumの近似 • 3次元ガウス分布によって conical frustumの領域を近似する ◦ frustumの対称性から、平均、 ray方向・垂直方向の分散の 3つの値で定義できる
◦ 導出は論文のappendixを参照 22
Integrated Positional Encoding • ガウス分布を用いることで、 conical frustumにおけるPositional Encodingの期待値を 解析的に計算できる= Integrated
Positional Encoding 23
Integrated Positional Encodingの効果 • Conical frustumの形状に応じて、Positional Encoding(PE)をフィルタリングできる 24 Conical frustumが小さい(近くのシーン)
Conical frustumが大きい(遠くのシーン) ガウス分布の分散小 ガウス分布の分散大 PEの高周波数成分まで保持 PEの高周波数成分は減衰 シーンの細かい特徴まで保持 シーン特徴を大まかに保持 IPEの各周波数成分▶ ガウス分布の分散▼ 高周波数成分 は減衰 ガウス分布の 分散大
Mip-NeRF:学習 • Positional Encodingの代わりにIPEを用いる ◦ 期待値は解析的に得られるので、計算コストはあまり変わらない • スケール別モデルの排除 ◦ NeRFではcoarse,
fineの2つのNNを用意して学習していた ◦ Mip-NeRFはマルチスケールなモデルなので 1つのNNで良い ▪ →パラメータ数が半分で済む • Jaxによって実装 ◦ google/mipnerf ◦ JaxNeRF(オリジナルのNeRFチームの実装)をベースとしている 25
Experiment:Multiscale Blender Dataset • Blender Datasetをマルチスケールに拡張して学習 • 多様なスケールでのレンダリング精度を評価 ◦ 実験した全てのスケールで
NeRFより優れたレンダリングを達成 26
Experiment:Multiscale Blender Dataset • Blender Datasetをマルチスケールに拡張して学習 • 多様なスケールでのレンダリング精度を評価 ◦ 実験した全てのスケールで
NeRFより優れたレンダリングを達成 27
Experiment:Single-scale Blender Dataset • オリジナルのBlender Dataset(単一スケール)についても学習、評価 ◦ 単一スケールのレンダリングでも優れた性能 ◦ (Conical
frustumによるモデル化、IPEがレンダリング方法として根本的に優れている?) 28
Mip-NeRF:まとめ • 目標:NeRFにおいてスケール変化時に発生するエイリアスの抑制(アンチエイリアス) • アプローチ ◦ Camera ray上の点ではなくconical frustum(円錐台)を評価 ◦
Conical frustumをガウス分布で近似することで 解析的な特徴表現: Integrated Positional Encodingを導出 ◦ 単一のマルチスケールなモデル を構築 • 結果 ◦ 多様なスケールで優れた レンダリングが可能になった ◦ モデル軽量化 29
参考:MipMapによるテクスチャ描画 • MipMapping:3DCGなどでテクスチャの描画効率を向上するための技術 ◦ mip:multum in parvo(much in little) ◦
オリジナルのテクスチャに対して pre-filteringした画像群を用意することで、 スケール変化時のエイリアスを抑制できる • Mip-NeRFのIntegrated Positional Encodingは 特徴表現(PE)に対するpre-filteringと捉えられる ◦ →NeRFにおけるアンチエイリアス 30 ミップマップ - Wikipedia オリジナル画像 pre-filteringした 画像群
References • 記載のない限り画像は Mip-NeRFの論文より引用 • 論文 ◦ NeRF: Neural Radiance
Fields ◦ mip-NeRF ◦ Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields • その他 ◦ NeRF at ICCV 2021 ◦ [2111.05849] Advances in Neural Rendering ◦ ミップマップ - Wikipedia 31
Appendix 32
NeRFの仮定:ピンホールカメラモデル • 3D座標とピクセル座標の関係を表すモデル ◦ NeRFにおけるレンダリング上の仮定 ◦ Camera ray:カメラの位置からピクセルへの半直線 33 OpenCV:
Camera Calibration and 3D Reconstruction camera ray
ピンホールカメラモデル • 3D座標とピクセル座標の関係を表すモデル ◦ NeRFにおけるレンダリング上の仮定 ◦ Camera ray:カメラの位置からピクセルへの半直線 • ピクセルに対応する
camera ray上で、Radiance Fieldによって色と密度を評価する 34
NeRFにおけるボリュームレンダリング • ボリュームレンダリングによるピクセル値の計算 ◦ Camera ray上の色c・密度σの積分 ◦ 実装上は数値積分によって計算 35 Camera
ray rに対応する ピクセル値 点iより手前の透過 点iの不透明度 密度σ大で1に近づく 点iの色 点iの3D座標 N等分した各区間から uniform sampling
NeRF:実装上の工夫①:Positional Encoding • Radiance Fieldの入力は位置と角度 • Positional Encodingによって各成分を高次元ベクトルに加工 ◦ 画像の細かい特徴(高周波数成分)を捉えられるようになった
36
NeRF:実装上の工夫②:Hierarchical Sampling • N等分区間からの一様サンプリングは無駄が多い ◦ 何もない位置 ◦ 視点奥の直接見えない位置 • Hierarchical
Sampling ◦ まずN等分区間から評価点の一様サンプリングを行う ◦ 各評価点の密度に基づいて、再度サンプリングを行う ◦ ピクセル描画に重要な領域にフォーカスする 37 視点手前の物体を重視 何もない 直接 見えない
NeRF:実装上の工夫②:Hierarchical Sampling • Coarse, Fineの2モデルを用意する • Hierarchical Samplingを用いた推論 ◦ 等分区間からNc個の評価点をサンプリング
◦ Coarseモデル:Nc個の評価点の色・密度を計算 ◦ 区間を重み付けして再度 Nf個の評価点をサンプリング ◦ Fineモデル:Nc+Nf個の評価点の色・密度を計算 • Hierarchical Samplingを用いた学習 ◦ Coarse, Fineモデルそれぞれで ピクセル値の二乗誤差を学習 38 Coarseモデルの 二乗誤差 Fineモデルの 二乗誤差