Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NeRF-RPN_carnavi

Avatar for Ryo Ryo
August 26, 2023

 NeRF-RPN_carnavi

第59回 コンピュータビジョン勉強会@関東(後編)でNeRF-RPNについて発表したときの資料です。
https://kantocv.connpass.com/event/288902/

Avatar for Ryo

Ryo

August 26, 2023
Tweet

More Decks by Ryo

Other Decks in Technology

Transcript

  1. CVPR2023読み会(後編) 8/26 NeRF-RPN: A general framework for object detec9on in

    NeRFs @cv_carnavi https://kantocv.connpass.com/event/288902/
  2. 2 自己紹介 川波 稜 n 所属 n ⾃動⾞関係ではない会社のR&D部⾨ n 業務

    n AI-OCR, 画像⽣成, NeRF(New) かーなび @cv_carnavi かわなみ りょう
  3. 6 どんな論文? [1] Hu B (The Hong Kong University of

    Science and Technology) et al., “NeRF-RPN: A general framework for object detection in NeRFs”, CVPR2023. [1] n NeRFの中で物体検出する⼿法 • 1)NeRFする • 2) NeRF空間をボクセル化し離散化した各座標における⾊の平均 と密度を求める • 3)2)に対してOriented R-CNNを⽤いて3D物体検出を⾏う ※NeRFのための物体検出を評価する際のベンチマークとなるデータセ ットも構築 1) 3) 2)
  4. • NeRF空間中の物体に触ったりインタラクションできるようになる Ø 家具・インテリアの配置シミュレーションなどが可能になるか • 論文中に検出領域の密度を 0 とすることで、あたかもその物体が存在し ないかのように編集できる Ø

    お部屋をNeRFして公開する前に版権のあるデ⚫ズ⚫ ーのぬいぐるみなどを後から 消せたりする u しかしNeRFshopなどより編集に適した手法が出てきているため、あくま でNeRFに物体検出を適用したベースラインの提案に留まる印象 8 想定されるユースケース(個人の妄想)
  5. 11 背景・目的 • 点群ベースの場合、点群をボクセルへ変換し畳み込みなどを⾏い検出しようとするが使⽤メモリが膨 ⼤になる • 単眼カメラの場合、深度推定や擬似的なLiDARを再現するなどして3Dに変換したデータに対して検出 する⼿法があるが現状の精度的に困難 • NeRFを点群やボクセルに変換して従来の3D物体検出を適⽤する⼿法もあるが、効率が悪くノイズが

    多いため精度も⾒込めず、NeRFの持つ3D物体内部の密度情報など重要な特徴が活かしきれていない →2Dマルチビュー画像のみから3Dシーンの意味的特徴を獲得できるNeRFの内部情報を⽤いて物体検出 した⽅が、単眼カメラのみで⼿軽に3D物体検出できるのでは︖ 3D物体検出の課題
  6. 18 RPNのおさらい https://arxiv.org/abs/1506.01497 • RPN(Region Proposal Network)はFaster R-CNNの論文中で登場 • Faster

    R-CNNでは ① ある矩形の中身が物体なのか背景なのかを学習 ② ①で検出した場所に、具体的に何が写っているのかを学習 という2段プロセスを取るが、①でRPNを使用 • RPNではCNN中間層である特徴マップに対してAnchor boxを設定して GTのbox情報と比較しながら検出領域を学習する • RPNの結果を元にRoI poolingで規格化したboxの中の物体を分類する これがRPN このCNN中間層で物体検出する方式を NeRFに適用
  7. 21 NeRFをサンプリングしてボクセル化 密度 n NeRFからサンプリングを経てボクセル化 • 各サンプルは(r,g,b,α)と書くことができる • (r,g,b)は平均化されたサンプリング後の輝度 •

    αは密度σから変換されるサンプリング後の密度 密度を含めて丸ごとサンプリングしてRPN処理に 回すことで物体の中身が詰まっているかなどの 情報を考慮して3D物体検出が可能になる
  8. • 学習時 • ランダム反転や回転といったデータオーグメンテーションを使用 • 評価時 • RPN により得られた関心領域のうち中心がシーン境界から逸脱して いるものを除外

    • その上で、各階層における上位2500件の提案領域を独立に選んだの ち、NMS(Non-Maximum Suppression:非極大値抑制)により冗長な 提案が排除され、最終出力となる(デフォルトではNMSの回転IoUの 閾値は0.1) 23 学習と評価
  9. 27 アンカーありとなしでの精度差 • アンカーなしの方がAPが高い Ø NeRF入力にノイズなどがある場合にアンカーありではノイズを含めてbboxとしやすくアンカーなしの中心予測の方が良かったと考 えられる Ø 3D物体のサイズに対してアンカーのアスペクト比・スケールの数が限られていたため •

    全体的にはVGG19が優れたAPとRecallを示す Ø 理由は言及なし • HypersimにおけるアンカーありだけはSwin-Sが優れたAPとRecallを示す Ø HypersimのNeRF結果がノイズが多くシーンが複雑なので、Swin-Sの大きい受容野とウィンドウがアンカーあり手法に有利な結果 をもたらしている
  10. • NeRF-RPN: A general framework for object detection in NeRFs

    • https://openaccess.thecvf.com/content/CVPR2023/papers/Hu_NeRF- RPN_A_General_Framework_for_Object_Detection_in_NeRFs_CVPR_2023 _paper.pdf • https://github.com/lyclyc52/NeRF_RPN 31 参考