3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation

© NTT Communications Corporation All Rights Reserved. メディアAI勉強会 3D Human
Mesh Estimation 関連論文調査 2023年7月5日    イノベーションセンターテクノロジー部門メディアAI PJ   齋藤　暁 

© NTT Communications Corporation All Rights Reserved. 2 画像から人 3Dモデルを生成 
 [arxiv’22]Recovering 3D Human Mesh from Monocular Images: A Survey[1] 画像から3次元メッシュを生成するために - 体パラメータを基にメッシュ生成をする方法 - End-to-Endで画像からメッシュを生成するためパラメータを直接推定する方法  

[SIGGRAPH ASIA’15]SMPL: A Skinned Multi-Person Linear Model[2] SMPL 6980個 3D頂点座標で構成された 3Dモデルこれ以前モデル - Linear blend skinning - モデル各頂点スケルトン一つ以上ボーンに紐付けられ、各頂点紐付いている - ボーン移動や回転に応じて頂点が変形するがじった時に線形補完が原因でボリューム消失問題が起きる - Dual quaternion blend skinning - LBSで、じった時に不自然な変形が生じるが、不自然な変形を防ぐ各関節点に紐付けられた頂点を元にスキニングを手作業でする必要がある SMPLで、人物形状パラメーターと人物姿勢パラメーターを元に blend shape(パラメータを元にmesh 形状を変化させる)を行う。これにより手作業スキニングが不要になる

[SIGGRAPH ASIA’15]SMPL: A Skinned Multi-Person Linear Model パイプライン: - 初期ポースで頂点数 N = 6890 個、関節点 K=23 個メッシュを準備 - 人形状をパラメータを基に blend shapeを行いメッシュ変形 - 人姿勢パラメータを基に blend shapeを行いメッシュ変形 - 初期値からポーズがことなる場合、 dual quaternion skinningで変形された頂点を再度位置決めする

[CVPR’19]Expressive Body Capture: 3D Hands, Face, and Body from a Single Image(SMPL-X)[3] SMPLから変更点 - SMPLがボディみに対して、手と顔表現を加える拡張 - 性別によるボディモデル選択 (全身とOpenPose 関節を含む画像を入力とし性別分類器を学習 ) - メッシュ同士が食い込むことによるペナルティ導入 - Chumpy 導入による高速化 - Chumpyで高速化できる部分モデル各頂点位置を最適化、スキニング手法を最適化体、首、顎、眼球、指関節を含むモデルを初期ポーズとして頂点数 N = 10475 個、関節点 K=54 個メッシュを準備以下を使用して頂点位置決めを行う - 2D OpenPoseによる姿勢推定 - 関節角度、手ポーズ表現する潜在空間 z 事前分布をVAEによって学習し、学習した事前分布を用いて、関節角度、手ポーズを生成

 [CVPR’18]End-to-end Recovery of Human Shape and Pose(HMR)[4] End to Endでmesh recovery をする方法 - human mesh recovery で、推定時に2Dや3D 関節位置に基づきモデルパラメータを推定する方法と異なり、画像から直接関節角度と形状パラメータを直接推定 - 学習時にMPI-INF-3DHPとHuman3.6M データセットから、画像と 3D関節位置とSMPL パラメータを使用して、人間形状とポーズパラメータを推定する敵対的ネットワーク学習 - 敵対的ネットワークを使用して、 2D画像から3D人間メッシュを推定する生成ネットワークを学習 - 推定時に、生成ネットワーク関節位置と形状みを使用してメッシュを推定関節位置再投影誤差と 3D human mesh 生成に使用される SMPL パラメータを最適化するために、 3Dメッシュを画像に再投影した際誤差最小化

 [ECCV’22]Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers(FastMETRO)[5] Transformer を利用しmesh recovery をする方法 - Transformer エンコーダートークンに画像特徴量と関節点と形状、カメラパラメータが入力される - デコーダー、クロスアテンションを使用して、画像特定領域に対応した関節点、形状トークンを生成 - 生成されたトークンを特徴量に変換しこれにより 3Dメッシュ関節点と形状を推定 - 3D Coordinates Regressorによる荒いメッシュ推定と 3D Coordinates Regressorにより荒いメッシュアップサンプリングを行う - 学習セット、Human3.6M、UP-3D、MuCo-3DHP、COCO、MPII - 関節点と形状推定が別れていることが高速化に効いている

© NTT Communications Corporation All Rights Reserved. 8 画像から人 3Dモデルを生成
+ tracking   [arxiv’23]Humans in 4D: Reconstructing and Tracking Humans with Transformers HMR2.0[6] - Transformer を利用しmesh recovery & tracking - mesh recovery(HMR2.0): Cross Attntionを利用して姿勢、形状、カメラパラメータが推定される学習セット、Human3.6M、MPI-INF3DHP、COCO、 MPII - tracking: 各トラックレットについて、過去人物ポーズ、位置、形状を基に次時間ステップで人物ポーズ、位置、形状を予測する

© NTT Communications Corporation All Rights Reserved. 9 参考文献  [1]Yating
Tian, Hongwen Zhang, Yebin Liu, Limin Wang,Recovering 3D Human Mesh from Monocular Images: A Survey. https://arxiv.org/abs/2203.01923 [2]Matthew Loper, Naureen Mahmood, Javier Romero, Gerard Pons-Moll, Michael J. Black, SMPL: A Skinned Multi-Person Linear Model.https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf [3]Georgios Pavlakos, Vasileios Choutas, Nima Ghorbani, Timo Bolkart, Ahmed A. A. Osman, Dimitrios Tzionas, Michael J. Black, Expressive Body Capture: 3D Hands, Face, and Body from a Single Image.https://openaccess.thecvf.com/content_CVPR_2019/papers/Pavlakos_Expressive_Body_Capture_3D_Hands_Face_and _Body_From_a_CVPR_2019_paper.pdf [4]Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik, End-to-end Recovery of Human Shape and Pose .https://openaccess.thecvf.com/content_cvpr_2018/papers/Kanazawa_End-to-End_Recovery_of_CVPR_2018_paper.pdf [5]Junhyeong Cho, Kim Youwang, Tae-Hyun Oh, Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers. https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136610336.pdf [6]Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik, Humans in 4D: Reconstructing and Tracking Humans with Transformers.  

3D Human Mesh Estimationについていくつかまとめてみた / Survey...

3D Human Mesh Estimationについていくつかまとめてみた / Survey about 3D Human Mesh Estimation

NTT docomo Business

More Decks by NTT docomo Business

Other Decks in Research

Featured

Transcript

© NTT Communications Corporation All Rights Reserved. メディアAI勉強会 3D Human

© NTT Communications Corporation All Rights Reserved. 2 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 3 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 4 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 5 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 6 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 7 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 8 画像から人 3Dモデルを生成

© NTT Communications Corporation All Rights Reserved. 9 参考文献  [1]Yating