Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Paper Introduction | [Dabhi+24, CVPR2024] 3D-LF...

Paper Introduction | [Dabhi+24, CVPR2024] 3D-LFM: Lifting Foundation Model

CVPR2024の論文 "3D-LFM: Lifting Foundation Model" を紹介します。
Single frame における 2D-3D Lifting の基盤モデルを作成した研究です。
研究室内で論文紹介として発表したので、共有します。

Ryota TANAKA

June 13, 2024
Tweet

Other Decks in Research

Transcript

  1. 3D-LFM: Lifting Foundation Model 2024/6/14 論⽂紹介 武⽥・藤井研 M2 ⽥中諒汰 IEEE

    / CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024
  2. 3 先⾏研究と⽐較した強み p 拡張性: データセットごとのキーポイントの順番・増減に依存しない p 適応性: OOD(分布外・未知)の 2D-3D データにも対応

    (特定のカテゴリに特化したモデルに依存しない) p 性能: 多くのベンチマークで(個々のカテゴリに最適化された) 主要な⼿法に匹敵する性能
  3. 4 2D-3D lifting の先⾏研究 p古典的なアプローチ Ø Perspective-n-Point(PnP)問題を解く Ø 2D キーポイントと3Dオブジェクト(剛体)の情報が必要

    p 近年の深層学習アプローチ Ø カテゴリごとに 2D-3D データセットが必要 Ø (推論時に)3Dオブジェクトの情報は不要 オブジェクトごとのカテゴリとリグ(キーポイントの数・ 順番などの構成)に制限される データセットを跨いだ学習ができない
  4. 7 モデルへの⼊⼒ pキーポイント⼊⼒:𝐖 = ℝ𝐍×𝟐 Ø N:全てのオブジェクトカテゴリの最⼤キーポイント数 p マスク機構を導⼊ Ø

    N 未満のキーポイントは、残りを 0 埋め Ø データ⽋損や Occlusion にも 0 マスクを適⽤ p データの平均が 0 になるよう中⼼化、-1~1 に正規化 キーポイント数 の増減に対応!
  5. 8 TPE(Token Positional Encoding) pトークンの位置埋め込みにRFF(Random Fourier features)を使⽤ Ø キーポイントの相対位置を符号化 Ø

    Transformer の順列等価性を保持 TPE 𝐖𝐜 = 2 𝐷 sin 𝐖𝐜𝝎 + 𝑏 ; cos 𝐖𝐜𝝎 + 𝑏 Transformer キーポイントの順序 に依存しない!
  6. 9 グラフベースの Transformer arch. pハイブリッドな特徴集約 Ø グラフベースの局所注意 Ø グローバル⾃⼰注意機構 キーポイント同⼠の接続性を

    エンコードする隣接⾏列 A を利⽤ 活性化関数に GELU を採⽤ 1レイヤー内に組み込み、L層重ねる
  7. 11 複数オブジェクトの 3D 再構成 pデータセット:PASCAL3D+ dataset[2] p⽐較モデル:C3DPO[1] [2] Xiang et

    al., “Beyond PASCAL: A benchmark for 3D object detection in the wild”, ITSC2014 オブジェクトごとの カテゴリ・リグ情報が ない場合でも⾼い性能 PASCAL3D+ dataset
  8. 12 特定オブジェクトにおける評価 pデータセット:H3WB dataset[3] p⽐較モデル:Jointformer[4] 、 SimpleBaseline[5] 、CanonPose[6] [3] Zhu

    et al., “H3WB: Human3.6M 3D WholeBody Dataset and Benchmark”, ICCV2023 [4] Lutz et al., ”Jointformer: Single-frame lifting transformer with error prediction and refinement for 3d human pose estimation”, ICPR2022 [5] Martinez et al., “A simple yet effective baseline for 3d human pose estimation”, ICCV2017 [6] Wandt et al., “CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild”, CVPR2021 H3WB dataset
  9. 13 OOD データに対する汎化性能 pあらゆるカテゴリの複合データで学習 Ø 動物ベース(OpenMonkey[7] 、Animals3D[8] など) Ø ⼈体ベース(AMASS[9]、

    Human3.6[10] など) Ø 無⽣物ベース(PASCAL3D+[2] ) p 学習データセット外のオブジェクトで評価 [7] Bala et al., “Openmonkeystudio: Automated markerless pose estimation in freely moving macaques”, Nature2020 [8] Xu et al., ” Animal3d: A comprehensive dataset of 3d animal pose and shape”, ICCV2023 [9] Mahmood et al., “AMASS: Archive of motion capture as surface shapes”, ICCV2019 [10] lonescu et al., “Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments”, TPAMI2013
  10. 16 まとめと感想 p単⼀フレームの 2D-3D lifting の基盤モデルを提案 pカテゴリ特化した既存の⾼性能モデルに匹敵 p拡張性・適応性を兼ね備える まとめ pTransformer

    の順列等価性を利⽤したアプローチが⾯⽩かった p豊富な検証で説得⼒が⾼いと感じた pフィギュアスケートのデータで試してみたい 感想