Upgrade to Pro — share decks privately, control downloads, hide ads and more …

3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation

3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation

2023年上期のメディアAI PJの内部勉強会で発表した資料です。3D Human Mesh Estimationについての論文を調査してまとめました。

NTT Communications

December 14, 2023
Tweet

More Decks by NTT Communications

Other Decks in Research

Transcript

  1. © NTT Communications Corporation All Rights Reserved.
    メディアAI勉強会
    3D Human Mesh Estimation 関連論文調査
    2023年7月5日


    イノベーションセンター テクノロジー部門 メディアAI PJ 

    齋藤 暁


    View full-size slide

  2. © NTT Communications Corporation All Rights Reserved. 2
    画像から人 3Dモデルを生成

    
[arxiv’22]Recovering 3D Human Mesh from Monocular Images: A Survey[1]
    画像から3次元 メッシュを生成するために
    - 体 パラメータを基にメッシュ 生成をする方法
    - End-to-Endで画像からメッシュを生成するため パラメータを直接推定する方法

    View full-size slide

  3. © NTT Communications Corporation All Rights Reserved. 3
    画像から人 3Dモデルを生成

    [SIGGRAPH ASIA’15]SMPL: A Skinned Multi-Person Linear Model[2]
    SMPL 6980個 3D頂点座標で構成された 3Dモデル
    これ以前 モデル
    - Linear blend skinning
    - モデル 各頂点 スケルトン 一つ以上 ボーンに紐付けられ、各頂点 紐付いている
    - ボーン 移動や回転に応じて頂点が変形するが じった時に線形補完が原因でボリューム 消失問
    題が起きる
    - Dual quaternion blend skinning
    - LBSで 、 じった時に不自然な変形が生じるが、不自然な変形を防ぐ
    各関節点に紐付けられた頂点を元にスキニングを手作業でする必要がある
    SMPLで 、人物形状パラメーターと人物姿勢パラメーターを元に blend shape(パラメータを元にmesh 形状を変
    化させる)を行う。これにより手作業 スキニングが不要になる

    View full-size slide

  4. © NTT Communications Corporation All Rights Reserved. 4
    画像から人 3Dモデルを生成

    [SIGGRAPH ASIA’15]SMPL: A Skinned Multi-Person Linear Model
    パイプライン:
    - 初期ポースで 頂点数 N = 6890 個、関節点 K=23 個 メッシュを準備
    - 人 形状をパラメータを基に blend shapeを行いメッシュ 変形
    - 人 姿勢パラメータを基に blend shapeを行いメッシュ 変形
    - 初期値からポーズがことなる場合、 dual quaternion skinningで変形された頂点を再度位置決めする

    View full-size slide

  5. © NTT Communications Corporation All Rights Reserved. 5
    画像から人 3Dモデルを生成

    [CVPR’19]Expressive Body Capture: 3D Hands, Face, and Body from a Single Image(SMPL-X)[3]
    SMPLから 変更点
    - SMPLがボディ みに対して、手と顔 表現を加える拡張
    - 性別によるボディモデル 選択 (全身とOpenPose 関節を含む画像を入力とし性別分類器を学習 )
    - メッシュ同士が食い込むことによるペナルティ 導入
    - Chumpy 導入による高速化
    - Chumpyで高速化できる部分モデル 各頂点 位置を最適化、スキニング手法を最適化
    体、首、顎、眼球、指 関節を含むモデルを初期ポーズとして頂点数 N = 10475 個、関節点 K=54 個 メッシュを
    準備
    以下を使用して頂点 位置決めを行う
    - 2D OpenPoseによる姿勢推定
    - 関節角度、手 ポーズ 表現する潜在空間 z 事前分布をVAEによって学習し、学習した事前分布を用い
    て、関節角度、手 ポーズを生成

    View full-size slide

  6. © NTT Communications Corporation All Rights Reserved. 6
    画像から人 3Dモデルを生成

    
[CVPR’18]End-to-end Recovery of Human Shape and Pose(HMR)[4]
    End to Endでmesh recovery をする方法
    - human mesh recovery で 、推定時に2Dや3D 関節位置に基づきモデル パラメータを推定する方法と
    異なり、画像から直接関節角度と形状 パラメータを直接推定
    - 学習時にMPI-INF-3DHPとHuman3.6M データセットから、画像と 3D関節位置とSMPL パラメータを使用
    して、人間 形状とポーズパラメータを推定する敵対的ネットワーク 学習
    - 敵対的ネットワークを使用して、 2D画像から3D人間メッシュを推定する生成ネットワークを学習
    - 推定時に 、生成ネットワーク関節位置と形状 みを使用してメッシュを推定
    関節位置 再投影誤差と 3D human mesh 生成に使用される SMPL パラメータを最適化するために、 3Dメッ
    シュを画像に再投影した際 誤差 最小化

    View full-size slide

  7. © NTT Communications Corporation All Rights Reserved. 7
    画像から人 3Dモデルを生成

    
[ECCV’22]Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with
    Transformers(FastMETRO)[5]
    Transformer を利用しmesh recovery をする方法
    - Transformer エンコーダー トークンに 画像 特徴量と関節点と形状、カメラパラメータが入力される
    - デコーダー 、クロスアテンションを使用して、画像 特定 領域に対応した関節点、形状 トークンを生成
    - 生成されたトークンを特徴量に変換しこれにより 3Dメッシュ 関節点と形状を推定
    - 3D Coordinates Regressorによる荒いメッシュ 推定と 3D Coordinates Regressorにより荒いメッシュ アッ
    プサンプリングを行う
    - 学習セット 、Human3.6M、UP-3D、MuCo-3DHP、COCO、MPII
    - 関節点と形状 推定が別れていることが高速化に効いている

    View full-size slide

  8. © NTT Communications Corporation All Rights Reserved. 8
    画像から人 3Dモデルを生成 + tracking

    
[arxiv’23]Humans in 4D: Reconstructing and Tracking Humans with Transformers HMR2.0[6]
    - Transformer を利用しmesh recovery & tracking
    - mesh recovery(HMR2.0):
    Cross Attntionを利用して姿勢、形状、カメラパラメータが推定される
    学習セット 、Human3.6M、MPI-INF3DHP、COCO、 MPII
    - tracking:
    各トラックレットについて、過去 人物 ポーズ、位置、形状を基に次 時間ステップで 人物 ポーズ、位
    置、形状を予測する

    View full-size slide

  9. © NTT Communications Corporation All Rights Reserved. 9
    参考文献

    [1]Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang,Recovering 3D Human Mesh from Monocular Images: A Survey.
    https://arxiv.org/abs/2203.01923
    [2]Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black, SMPL: A Skinned Multi-Person
    Linear Model.https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf
    [3]Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, Michael J.
    Black, Expressive Body Capture: 3D Hands, Face, and Body from a Single
    Image.https://openaccess.thecvf.com/content_CVPR_2019/papers/Pavlakos_Expressive_Body_Capture_3D_Hands_Face_and
    _Body_From_a_CVPR_2019_paper.pdf
    [4]Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik, End-to-end Recovery of Human Shape and Pose
    .https://openaccess.thecvf.com/content_cvpr_2018/papers/Kanazawa_End-to-End_Recovery_of_CVPR_2018_paper.pdf
    [5]Junhyeong Cho, Kim Youwang, Tae-Hyun Oh, Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with
    Transformers. https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136610336.pdf
    [6]Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik, Humans in 4D:
    Reconstructing and Tracking Humans with Transformers.

    View full-size slide