[論文読み] Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

Slide 1

Slide 1 text

Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance Huang+, ECCV2024 筑波大学/産総研社会知能研究チーム辻栄翔第1回 Spatial AI Network勉強会 2024.9.27

Slide 2

Slide 2 text

研究背景 ➢周囲の物体を3次元的に認識する技術は，自律システムにおける重要な要素の1つ ➢3DBoxのラベル付け作業は，2DBoxよりも高コスト ✓3~16倍程度の時間がかかる* → 2Dラベルのみを使用し，3D検出器を学習したい 2 2DBox 3DBox *FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)

Slide 3

Slide 3 text

本論文の概要 ➢2DBoxのラベルのみを用いて3D検出器を学習させるVG-W3Dを提案 ➢画像とLiDAR点群で共通する情報を活用 ➢500フレームの3DBoxラベルを要する手法と同程度の精度を達成 3

Slide 4

Slide 4 text

少量の3Dラベルを用いた既存の弱教師あり3D検出手法① ➢鳥瞰視点における物体の中心位置と534個の3DBoxラベルを弱教師として使用 ➢2つのモデルの組み合わせで3DBoxを推定 1. 鳥瞰視点における物体の中心を推定 2. 推定された大まかな候補領域から精緻な3DBoxを推定 4 Weakly Supervised 3D Object Detection from Lidar Point Cloud (Meng+, ECCV2020)

Slide 5

Slide 5 text

少量の3Dラベルを用いた既存の弱教師あり3D検出手法② ➢2DBoxラベルを弱教師として使用 ➢画像情報からLiDAR点群を補強するように点群を生成 ✓画像の物体領域にセグメンテーションを適用して前景と背景を分離 ✓点群を画像平面に投影したときに前景に該当する点と画像情報の関係性を考慮しつつ新たな点群を生成 5 MAP-Gen: An Automated 3D-Box Annotation Flow with Multimodal Attention Point Generator (Liu+, ICPR2022)

Slide 6

Slide 6 text

3Dラベルを全く使わない既存手法: FGR ➢点群を画像平面に投影したときの2DBoxラベル領域内の点が物体の候補 → Coarse 3D Segmentationと3D Bounding Box Estimationの2段階で精緻化 ➢Coarse 3D Segmentation ✓前処理として，RANSACで地面の点を取り除く ✓候補の中心点の深度でセンサから近い順に，領域内の点を前景と背景に分離 ✓閾値で点同士の連結判定を行い，最大のクラスタを物体セグメントとする 6 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)

Slide 7

Slide 7 text

3Dラベルを全く使わない既存手法: FGR ➢3D Bounding Box Estimation ✓鳥瞰視点で各セグメントを四角く囲い，初期矩形とする ✓初期矩形の2辺を含む直角三角形を考慮．最もセグメント内の点を多く含むときの 2辺をkey edge，頂点をkey vertexとする ✓2つのkey edgeに近い点の数が最も多くなるように，key vertexと矩形の角度を調整 ✓上記をkey vertexの位置が安定するまで繰り返したあと，下図のようにフラスタム上で高さ方向を考慮し，擬似ラベルとして出力 7 FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection(Wei+, ICRA2021)

Slide 8

Slide 8 text

研究のメインアイデア ➢画像とLiDAR点群それぞれから得られる情報の整合性3つを利用し，2Dラベルのみで3D検出器を学習させる 8

Slide 9

Slide 9 text

① Feature-Level Visual Guidance ➢画像特徴から計算されるobjectnessは，LiDAR点群を画像平面に投影したときに対応する領域から計算されるobjectnessと一致するはず ➢以降では，以下の変数を使用 ✓𝐹𝐼 ∈ 𝑹𝐻×𝑊×𝐶: 画像から得られる特徴 ✓𝐹𝑃 ∈ 𝑹𝑃×𝐶: 点群から得られる特徴 ✓𝐹 ሖ 𝑃 = 𝑃𝑟𝑜𝑗(𝐹𝑃 ) ∈ 𝑹𝐻×𝑊×𝐶: 𝐹𝑃 を画像平面に投影したもの 9

Slide 10

Slide 10 text

① Feature-Level Visual Guidance ➢率直な方法: 画像と点群それぞれから得られる特徴をL2損失で近付ける ✓問題点：画像には点群ほどの幾何的な情報が含まれず，学習に悪影響の可能性 ➢直接的に特徴量を合わせるのではなく，その領域が物体であるか否かの予測値が一貫性を持つように学習を行う ※ 物体検出では，位置やクラスとともに信頼度スコアやobjectness(0, 1で表現)を予測する 10 𝐴: 点群が投影された画素すべて

Slide 11

Slide 11 text

① Feature-Level Visual Guidance ➢2DBox(正解ラベル)に対してセグメンテーションを行い，物体領域: 𝑆を抽出 ✓自己教師ありモデル: DINO(𝑀𝑆 )を使用 ➢その後，物体の領域それぞれに対するobjectnessで損失を計算(詳細次ページ) 11 Emerging properties in self-supervised vision transformers(Caron+, ICCV2021)

Slide 12

Slide 12 text

① Feature-Level Visual Guidance ➢Classifier 𝑀 ሖ 𝑃 , 𝑀𝐼 を 𝐹 ሖ 𝑃 , 𝐹𝐼 に適用し，objectnessのマップ 𝐶 ሖ 𝑃 , 𝐶𝐼 を計算 → 𝐶 ሖ 𝑃 , 𝐶𝐼 のKL divergenceを損失として学習 ➢𝐶 ሖ 𝑃 , 𝐶𝐼 の最適化にはそれぞれFocal lossを使う 12

Slide 13

Slide 13 text

研究のメインアイデア ➢画像とLiDAR点群それぞれから得られる情報の整合性3つを利用し，2Dラベルのみで3D検出器を学習させる 13

Slide 14

Slide 14 text

② Output-Level Visual Guidance ➢2DBoxと3DBoxを画像平面に投影したものは大部分が重なるはず → 重なり具合(IoU)が制約として学習に使える ➢投影された3DBoxの8つ角のうち(x, y)の最大・最小で囲ったもの(黒点線枠)と 2DBox(黄枠)の重なりを使用 14

Slide 15

Slide 15 text

② Output-Level Visual Guidance ➢𝐵𝐼 : 2DBox，𝐵𝑝𝑟𝑜𝑗 : 3DBoxを前ページの手順で投影したもの ➢ ො 𝜎𝐼 = 𝜎𝐼 / σ 𝑖 𝑁 𝜎𝐼𝑖 : 予測2D box N個の信頼度スコアを正規化したもの ➢GIoU: [-1, 1]をとる，物体の重なり度合いの値 15 𝐴 𝐵 𝐴 ∩ 𝐵 𝐶 𝐼𝑜𝑈 = 𝐴 ∩ 𝐵 𝐴 ∪ 𝐵 𝐺𝐼𝑜𝑈 = 𝐼𝑜𝑈 − 𝐶 − (𝐴 ∪ 𝐵) 𝐶 boxの重なりがない(𝐴 ∪ 𝐵=0)ときは，IoU=0 → このときのペナルティまで考慮するのがGIoU

Slide 16

Slide 16 text

研究のメインアイデア ➢画像とLiDAR点群それぞれから得られる情報の整合性3つを利用し，2Dラベルのみで3D検出器を学習させる 16

Slide 17

Slide 17 text

③ Training-Level Visual Guidance ➢擬似ラベルには，誤検出や検出漏れが多く含まれる ✓FGRでは，KITTIの27.2%のフレームで物体に1つもラベルがつけられない → 学習中に擬似ラベルを洗練する仕組みを導入 ➢以下を初期段階として擬似ラベルの洗練作業を繰り返し行う ✓෢ 𝐵0 : FGRによって生成される3D擬似ラベル ✓𝐵𝐼 : 2DBoxのラベル ✓𝜃𝐼 : 学習済みの2D検出器 ✓𝜎𝐼 : 𝜃𝐼 を𝐵𝐼 に入力して得られる信頼度スコア 17

Slide 18

Slide 18 text

③ Training-Level Visual Guidance ➢t回目の洗練は，以下の3ステップによって実施 1) 擬似ラベル෢ 𝐵𝑡 を用いて3D検出器を学習し，①, ②の損失をそれぞれ計算 2) t+1のための，擬似ラベル෣ 𝐵𝑡+1 と，対応する信頼度スコア𝜎𝑃 を計算 3) 不正確な擬似ラベルのフィルタリング処理 ➢不正確な擬似ラベルのフィルタリング処理 ✓𝐵𝐼 (2D box)と ෣ 𝐵𝑡+1 を画像に投影したboxを，IoUの閾値(𝛼0 )でマッチングさせ，かつ2Dと3Dの信頼度スコアの平均が閾値 (𝛼1 ) を超えた擬似ラベルが𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 ✓𝐵𝑢𝑛𝑚𝑎𝑡𝑐ℎ = 𝐵𝑡+1 \ B𝑜𝑣𝑒𝑟𝑙𝑎𝑝 に対してNMSを適用して冗長なboxを取り除き，閾値 (𝛼2 ) を超えたものが𝐵𝑠𝑐𝑜𝑟𝑒 ✓෣ 𝐵𝑡+1 = 𝐵𝑜𝑣𝑒𝑟𝑙𝑎𝑝 + 𝐵𝑠𝑐𝑜𝑟𝑒 18

Slide 19

Slide 19 text

VG-W3Dの全体像 ➢① objectnessのKL loss, ② 2D, 3D boxのGIoU lossによる学習 ➢③ 擬似ラベルの洗練 19

Slide 20

Slide 20 text

学習の目的関数 ➢3D擬似ラベルが付与できたフレームとできないフレームの2パターンが存在 ➢付与できた場合 ➢付与できない場合 20 ①の(2) ①の(4) ②の(6) 3D検出器のloss

Slide 21

Slide 21 text

実験設定 ➢データセット ✓KITTI 3D object detection ✓Training : 3712枚，Validation: 3769枚に分割 ➢評価指標 ✓carクラスにおける，𝐴𝑃3𝐷 と𝐴𝑃𝐵𝐸𝑉 で評価 ➢実装の詳細 ✓② output-level guidanceでは，IoU > 0.5のものを利用 ✓③ training-level guidanceで使用するパラメタは以下の通り ❖𝛼0 = 0.5, 𝛼1 = 0.5, 𝛼2 = 0.95 21

Slide 22

Slide 22 text

Main Results ➢既存手法との精度差を，学習データによって3レベルで比較 ✓上段: 教師あり学習 ✓中段: 少量の3Dラベルが必要な弱教師あり学習 ❖534o: 534オブジェクト(約120フレーム) ❖500f: 500フレーム ✓下段: 2Dラベルのみでの弱教師あり学習 22

Slide 23

Slide 23 text

Main Results ➢3Dラベルを使用する既存モデルの多くを上回る検出精度 ✓教師あり学習モデルと比較しても競争力のある性能 ➢ベースとしたFGRからの精度改善も確認できた ➢Validation setでも同様の結果 23 教師あり弱教師あり w/ 3Dラベル弱教師あり w/o 3Dラベル

Slide 24

Slide 24 text

Ablation: visual guidanceの効果 ➢3つのguidanceそれぞれに効果があることを定量的に評価 ➢guidanceそれぞれによって，精度が向上 ✓Training-Levelが特に強力に作用していそう 24 ① ② ③

Slide 25

Slide 25 text

Ablation: feature-level guidance ➢①Feature-Levelでの損失の計算について検証 ➢L2 lossよりもKL lossの方が高精度 ✓(1)での主張通り，画像には点群ほどの幾何的な情報がなく，特徴量を直接的に学習するよりもobjectnessを介した方が良い ➢Boxではなく，Segmentマスクした方が高精度 ✓Boxだと物体ではない領域も含まれてしまい，ノイズとなったと考えられる 25

Slide 26

Slide 26 text

Ablation: training-level guidance ➢③の不正確な擬似ラベルのフィルタリング処理について検証 ➢Overlap：2Dラベルとの重なりを考慮し，擬似ラベルのノイズを低減 ➢Score：信頼度スコアの高い物体を残し，2Dラベルのない物体も検出可能に 26 PL: 擬似ラベルのみ使用

Slide 27

Slide 27 text

Ablation: 擬似ラベルの品質 ➢FGRにより生成された擬似ラベル(Initial)から，③操作により洗練されている ✓IoU0.7において，25%ptもRecallが改善 ➢2回繰り返すと飽和，何度も行う必要はない 27

Slide 28

Slide 28 text

Ablation: 大規模な事前学習2D検出器の活用 ➢強力な2D検出器を活用することで精度改善が見込める ➢KITTIで学習したモデルの代わりに，MS COCOで学習したDETRを使用してもかなり良い結果が得られる → 2D検出器の発達とともに，本手法がスケールする可能性 28

Slide 29

Slide 29 text

定性評価 ➢緑: GT，赤: FGRによる予測，青:提案手法の予測 29

Slide 30

Slide 30 text

まとめ ➢2Dラベルのみを使用して3D検出器を学習するVG-W3Dフレームワークを提案 ➢Feature-, Output-, Training-level guidanceにより，画像から得られる情報を 3D検出器の学習に活用 ➢所感 ✓Feature-Level guidanceにおいて，特徴量の差を直接lossとするのでなく， objectnessを介すると上手くいくところが面白い ✓③のRoundを繰り返すタイミングなどが明記されておらず気になる ✓車のみを検証しているが，小さな物体に対する性能は？ 30