NeRF-RPN_carnavi

CVPR2023読み会(後編) 8/26 NeRF-RPN: A general framework for object detec9on in
NeRFs @cv_carnavi https://kantocv.connpass.com/event/288902/

1 アジェンダ • 自己紹介 • あらまし • 背景・目的 • 手法の説明
• 結果 • 所感

2 自己紹介川波稜 n 所属 n ⾃動⾞関係ではない会社のR&D部⾨ n 業務
n AI-OCR, 画像⽣成, NeRF(New) かーなび @cv_carnavi かわなみりょう

あらまし 3

NeRF-RPN

NeRF-RPN の中でを使って物体検出を行う

6 どんな論文？ [1] Hu B (The Hong Kong University of
Science and Technology) et al., “NeRF-RPN: A general framework for object detection in NeRFs”, CVPR2023. [1] n NeRFの中で物体検出する⼿法 • 1）NeRFする • 2) NeRF空間をボクセル化し離散化した各座標における⾊の平均と密度を求める • 3）2)に対してOriented R-CNNを⽤いて3D物体検出を⾏う ※NeRFのための物体検出を評価する際のベンチマークとなるデータセットも構築 1) 3) 2)

7 検出イメージ • ⽔平⽅向に対して回転した3D物体の検出が可能 • クラス分類は（まだ）できない

• NeRF空間中の物体に触ったりインタラクションできるようになる Ø 家具・インテリアの配置シミュレーションなどが可能になるか • 論文中に検出領域の密度を 0 とすることで、あたかもその物体が存在しないかのように編集できる Ø
お部屋をNeRFして公開する前に版権のあるデ⚫ズ⚫ ーのぬいぐるみなどを後から消せたりする u しかしNeRFshopなどより編集に適した手法が出てきているため、あくまでNeRFに物体検出を適用したベースラインの提案に留まる印象 8 想定されるユースケース（個人の妄想）

• NeRF空間中の物体をポリゴン形式で捉えて動かし編集したりすることが可能 9 参考： NeRFshop [2] Clément Jambon et
al., “NeRFshop: Interactive Editing of Neural Radiance Fields”, I3D 2023.

背景・目的 10

11 背景・目的 • 点群ベースの場合、点群をボクセルへ変換し畳み込みなどを⾏い検出しようとするが使⽤メモリが膨⼤になる • 単眼カメラの場合、深度推定や擬似的なLiDARを再現するなどして3Dに変換したデータに対して検出する⼿法があるが現状の精度的に困難 • NeRFを点群やボクセルに変換して従来の3D物体検出を適⽤する⼿法もあるが、効率が悪くノイズが
多いため精度も⾒込めず、NeRFの持つ3D物体内部の密度情報など重要な特徴が活かしきれていない →2Dマルチビュー画像のみから3Dシーンの意味的特徴を獲得できるNeRFの内部情報を⽤いて物体検出した⽅が、単眼カメラのみで⼿軽に3D物体検出できるのでは︖ 3D物体検出の課題

手法の説明 12

13 何をしているのか NeRF RPN（物体検出） n 名前の通り、NeRFの中でRPNをしているまずはそれぞれをおさらいする

14 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用

15 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用

16 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用 NeRFとしての空間が出来上がる

17 NeRFのおさらい https://www.youtube.com/watch?v=JuH79E8rdKc （0:00~1:00ごろまで）

18 RPNのおさらい https://arxiv.org/abs/1506.01497 • RPN(Region Proposal Network)はFaster R-CNNの論文中で登場 • Faster
R-CNNでは ① ある矩形の中身が物体なのか背景なのかを学習 ② ①で検出した場所に、具体的に何が写っているのかを学習という2段プロセスを取るが、①でRPNを使用 • RPNではCNN中間層である特徴マップに対してAnchor boxを設定して GTのbox情報と比較しながら検出領域を学習する • RPNの結果を元にRoI poolingで規格化したboxの中の物体を分類するこれがRPN このCNN中間層で物体検出する方式を NeRFに適用

• 後続研究であるOriented R-CNN の論文の中で水平方向における回転物体にも対応できる Oriented RPNが登場 19 RPNのおさらい https://arxiv.org/abs/2108.05699
NeRF空間で回転物体の検出に対応

20 ・NeRF空間のグリッド化して物体検出できるようボクセル表現に変換する・グリッド化したボクセル表現に対して特徴を抽出し物体検出を⾏う NeRFをサンプリングしてボクセル化アーキテクチャ構成要素を3次元化しFPNを噛ませてRPN （各モデルの2D Conv層が3D Conv層に置換される） NeRFとRPNをどう組み合わせているのか

21 NeRFをサンプリングしてボクセル化密度 n NeRFからサンプリングを経てボクセル化 • 各サンプルは(r,g,b,α)と書くことができる • (r,g,b)は平均化されたサンプリング後の輝度 •
αは密度σから変換されるサンプリング後の密度密度を含めて丸ごとサンプリングしてRPN処理に回すことで物体の中身が詰まっているかなどの情報を考慮して3D物体検出が可能になる

• 実験では特徴抽出器として VGG、ResNet、Swin Transformerを使用 • 特徴レイヤごとの異なるNeRF シーン間のスケールの違いを考慮して、マルチスケール特徴量を生成し高解像度特徴量に高レベルのセマンティクス
を注入するためにFPNを組み込んでいる 22 アーキテクチャ構成要素を3次元化しFPNを噛ませてRPN

• 学習時 • ランダム反転や回転といったデータオーグメンテーションを使用 • 評価時 • RPN により得られた関心領域のうち中心がシーン境界から逸脱しているものを除外
• その上で、各階層における上位2500件の提案領域を独立に選んだのち、NMS（Non-Maximum Suppression：非極大値抑制）により冗長な提案が排除され、最終出力となる（デフォルトではNMSの回転IoUの閾値は0.1） 23 学習と評価

結果 24

25 アンカーありとなしでの精度差 • アンカーなしの方がAPが高い Ø NeRF入力にノイズなどがある場合にアンカーありではノイズを含めてbboxとしやすくアンカーなしの中心予測の方が良かったと考えられる Ø 3D物体のサイズに対してアンカーのアスペクト比・スケールの数が限られていたため。

26 アンカーありとなしでの精度差 • アンカーなしの方がAPが高い Ø NeRF入力にノイズなどがある場合にアンカーありではノイズを含めてbboxとしやすくアンカーなしの中心予測の方が良かったと考えられる Ø 3D物体のサイズに対してアンカーのアスペクト比・スケールの数が限られていたため •
全体的にはVGG19が優れたAPとRecallを示す Ø 理由は言及なし

27 アンカーありとなしでの精度差 • アンカーなしの方がAPが高い Ø NeRF入力にノイズなどがある場合にアンカーありではノイズを含めてbboxとしやすくアンカーなしの中心予測の方が良かったと考えられる Ø 3D物体のサイズに対してアンカーのアスペクト比・スケールの数が限られていたため •
全体的にはVGG19が優れたAPとRecallを示す Ø 理由は言及なし • HypersimにおけるアンカーありだけはSwin-Sが優れたAPとRecallを示す Ø HypersimのNeRF結果がノイズが多くシーンが複雑なので、Swin-Sの大きい受容野とウィンドウがアンカーあり手法に有利な結果をもたらしている

28 他手法と比較したときの精度 • このサンプルを見る限りでは提案手法がGround truthに近いように見える Hypersim Hypersim 3D-FRONT
3D-FRONT

29 他手法と比較したときの精度 • ImVoxelNet：マルチビューRGBを入力とするため、学習にはNeRF入力画像を使用し評価 • FCAF3D：点群ベースの3D検出器であるため、HypersimとScanNetから得られたGround-Truthの深度、3D-FRONT用のNeRFレンダリング深度、および対応するRGB画像を使用して点群を構築し評価 Ø 提案手法は3D-FRONT以外では大差で上回った

30 所感 • NeRFという一般的な3Dデータと比較して圧縮されたデータを用いて3D物体検出するというアイデアも面白く精度も良いが NeRFで物体検出した後のユースケースがいまいち思いつかない（編集しても少しノイズ残ったりするのでNeRFshopの方が編集用途としては良さそう） • クラス分類できるようになれば3D物体にタグをつけるなどは
考えられるか

• NeRF-RPN: A general framework for object detection in NeRFs
• https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_NeRF- RPN_A_General_Framework_for_Object_Detection_in_NeRFs_CVPR_2023 _paper.pdf • https://github.com/lyclyc52/NeRF_RPN 31 参考

Ø アンカーベースの 3D RPN Ø アンカーフリーな 3D RPN 32 2種類のRPN手法をそれぞれ用意

• アンカーサイズに対して位置のずれがどれくらいかを予測する 33 アンカーベースの 3D RPN

• ボクセルの中心座標（赤点）から各領域面への距離等を予測 34 アンカーフリーな 3D RPN

• ROIの精度を向上させるため、前景／背景の分類を実現するサブコンポーネントとして、二値分類ネットワークを追加 • 1)RPNからのROI、2)特徴抽出器からの特徴ピラミッドを入力とし、各ROIのオブジェクトネススコアとバウンディングボックスをリファインメントしたオフセットを出力する 35 追加されたLoss

NeRF-RPN_carnavi

NeRF-RPN_carnavi

Ryo

More Decks by Ryo

Other Decks in Technology

Featured

Transcript

CVPR2023読み会(後編) 8/26 NeRF-RPN: A general framework for object detec9on in

1 アジェンダ • 自己紹介 • あらまし • 背景・目的 • 手法の説明

2 自己紹介川波稜 n 所属 n ⾃動⾞関係ではない会社のR&D部⾨ n 業務

あらまし 3

NeRF-RPN

NeRF-RPN の中でを使って物体検出を行う

6 どんな論文？ [1] Hu B (The Hong Kong University of

7 検出イメージ • ⽔平⽅向に対して回転した3D物体の検出が可能 • クラス分類は（まだ）できない

• NeRF空間中の物体をポリゴン形式で捉えて動かし編集したりすることが可能 9 参考： NeRFshop [2] Clément Jambon et

背景・目的 10

手法の説明 12

13 何をしているのか NeRF RPN（物体検出） n 名前の通り、NeRFの中でRPNをしているまずはそれぞれをおさらいする

14 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用

15 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用

16 NeRFのおさらい https://speakerdeck.com/takmin/mobilenerf-di-59hui-cvmian-qiang-hui-at- guan-dong-fa-biao-zi-liao?slide=9 Takminさんスライドより引用 NeRFとしての空間が出来上がる

17 NeRFのおさらい https://www.youtube.com/watch?v=JuH79E8rdKc （0:00~1:00ごろまで）

18 RPNのおさらい https://arxiv.org/abs/1506.01497 • RPN(Region Proposal Network)はFaster R-CNNの論文中で登場 • Faster

• 後続研究であるOriented R-CNN の論文の中で水平方向における回転物体にも対応できる Oriented RPNが登場 19 RPNのおさらい https://arxiv.org/abs/2108.05699

21 NeRFをサンプリングしてボクセル化密度 n NeRFからサンプリングを経てボクセル化 • 各サンプルは(r,g,b,α)と書くことができる • (r,g,b)は平均化されたサンプリング後の輝度 •

• 実験では特徴抽出器として VGG、ResNet、Swin Transformerを使用 • 特徴レイヤごとの異なるNeRF シーン間のスケールの違いを考慮して、マルチスケール特徴量を生成し高解像度特徴量に高レベルのセマンティクス

• 学習時 • ランダム反転や回転といったデータオーグメンテーションを使用 • 評価時 • RPN により得られた関心領域のうち中心がシーン境界から逸脱しているものを除外

結果 24

28 他手法と比較したときの精度 • このサンプルを見る限りでは提案手法がGround truthに近いように見える Hypersim Hypersim 3D-FRONT

• NeRF-RPN: A general framework for object detection in NeRFs

Ø アンカーベースの 3D RPN Ø アンカーフリーな 3D RPN 32 2種類のRPN手法をそれぞれ用意

• アンカーサイズに対して位置のずれがどれくらいかを予測する 33 アンカーベースの 3D RPN

• ボクセルの中心座標（赤点）から各領域面への距離等を予測 34 アンカーフリーな 3D RPN