Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

第58回 コンピュータビジョン勉強会@関東 深層学習+3D論文読み会 にて、
"Ego-Body Pose Estimation via Ego-Head Pose Estimation" [Li et al., CVPR 2023]
のご紹介をさせていただきました。

◆イベント詳細 URL:
https://kantocv.connpass.com/event/278291/
◆発表日:
2023/04/30
◆紹介論文のプロジェクトページ
https://lijiaman.github.io/projects/egoego/
◆紹介論文の preprint (arXiv)
https://arxiv.org/abs/2212.04636

Yusuke Mori

May 04, 2023
Tweet

More Decks by Yusuke Mori

Other Decks in Research

Transcript

  1. Ego-Body Pose Estimation via Ego-Head Pose Estimation shade-tree Twitter: @shade_tree2112

    [Project Page] 第58回 コンピュータビジョン勉強会@関東 「深層学習+3D論⽂読み会」 2023/04/30 1
  2. 発表者の⽴場・視点 • shade-tree • 博⼠(情報理⼯学) • 2021年に取得 • 博⼠課程での研究のキーワード: Creative

    Support, Natural Language Processing, Storytelling, Emotions • 2014/07 – ⽂筆業 • 2021/11 – 某⼤ 某研究室、⾮常勤研究員(兼業) 2023/04/30 3
  3. ⼩説を書く上での、⼈称について • 誰の視点で語るか (注:私⾒での⼤まかな説明で、厳密なものではありません) • ⼀⼈称 • 「ぼく」「わたし」の視点から語る • 読者さんが感情移⼊しやすい(感情移⼊のしやすさが求められる)

    • 「嘘」「思い込み」が書ける。その⼈物が知らないことは書かない(書けない) • 「信頼できない語り⼿」 • 三⼈称 • 天の視点や、主⼈公に寄り添った視点など、いくつかのバリエーション • 情景描写など、特定のキャラクターの視野の外を扱いやすい • 地の⽂が信頼できるものであることが求められる傾向 • ⼆⼈称 • 「あなた」と呼び掛ける形式。限定的なシチュエーションで使われる 2023/04/30 4
  4. 今回紹介する論⽂を決める過程で、考えたこと • CVPR 2023 の Award Candidates の中から読んでみよう • 難しい問題を

    End2End に解くのではなく、複数に分割して解く • 個⼈的な好みに合う • 以前に、友⼈が関連する研究に取り組んでいた • ⼀⼈称とか三⼈称とか、気になります 2023/04/30 5
  5. 背景 • ⼀⼈称視点 x 3D モーションの重要性 • ⼈間の⾏動の理解 • VR/AR

    への応⽤ • 問題点: ⼀⼈称視点と 3D モーションのペアデータが作りにくい! • 頭部に付けたカメラに、⾃分の⾝体が映らない • ⼤規模かつ⾼品質のデータが取れるデバイス・環境は限定的 2023/04/30 8
  6. この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo)

    の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 9
  7. この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo)

    の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 10
  8. この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo)

    の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 11
  9. 4点の貢献 ① ⼀⼈称視点からのモーション推定を、⼀⼈称視点からの頭部姿勢推定と、 頭部姿勢からの⾝体姿勢推定に分離して解く “EgoEgo” を提案 ② 単眼 SLAM と学習を組み合わせた、⼀⼈称視点から頭部姿勢を推定する

    ためのハイブリッドアプローチの提案 ③ 頭部姿勢を条件として全⾝姿勢を⽣成する条件付き拡散モデルの提案 ④ ベンチマークのため、⼀⼈称視点のビデオと3Dヒューマンモーション の両⽅を含む⼤規模な合成データセットを提案、 提案⽅法がベースラインよりも⼤幅に優れていることを⽰した 2023/04/30 12
  10. 頭部姿勢に着⽬した問題分割 • ⼈間は、⽇常的な活動のほとんどにおいて、頭を⾝体の重⼼と ⼀致させるように安定させる能⼒を持つ [Keshner and Peterson, 1988] → ⾝体のモーションを推定する上で、頭部の情報が有⽤

    • ペアデータではなく、各モダリティのデータセットが使える • ⼀⼈称視点ビデオのデータと、3D モーションのデータ • それぞれなら、⼀般的な、⼤規模のものが⼊⼿できる 2023/04/30 14
  11. 関連研究 • Motion Estimation from Third-person Video • 2つの典型的なカテゴリ •

    画像や動画から、関節の位置を直接推定 • パラメトリックな⼈体モデルを採⽤し、⾝体モデルのパラメータを推定 • Motion Estimation from Egocentric Video • ⿂眼カメラを使う⼿法、通常のカメラを使う⼿法 • EgoPose, Kinpoly • 従来⼿法は、学習データ外への汎化性が低い 2023/04/30 15
  12. 関連研究 • Motion Estimation from Sparse Sensors • 動画ではなく、センサーの情報からモーションを推定 •

    TransPose • 6 IMU sensors (頭部、胴体、両腕、両脚) • PIP • + PD controller • TIP • + transformer-based model • LoBSTr • Fewer sensors 2023/04/30 16
  13. ⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定

    c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 19
  14. 表記 • Full body motion: 𝑿 ∈ ℝ! × #

    • Egocentric images (head-mounted camera): 𝑰 ∈ ℝ! × $ × % × & • 𝑇: the Sequence length • 𝐷: the Dimension of the pose state • ℎ × 𝑤: the size of an image • Head motion: 𝑯 ∈ ℝ! × #! 2023/04/30 20
  15. ⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定

    c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 21 a. b. c.
  16. ⼀⼈称視点ビデオ→頭部姿勢推定 • 「カメラ位置特定」の問題と⾒做せる • しかし、いくつかの注意点 • 重⼒⽅向が未知 • 重⼒の向きが [0,

    0, −1]! であることを前提にした⼿法を、そのままは使えない • 単眼 SLAM による推定は、回転・並進の推定において精度が不⼗分 • そこで、 • GravityNet, HeadNet を開発 2023/04/30 22
  17. ⼀⼈称視点ビデオ → 頭部姿勢推定 • GravityNet • 推定したいもの: 重⼒⽅向 𝑔 (単位ベクトル)

    • ⼊⼒するもの: 頭部姿勢 . ℎ", . ℎ#, … , . ℎ! • 頭部姿勢は、並進3次元、回転6次元 • Transformer を使⽤ • 2つの⾃⼰注意ブロック、position-wise feed-forward layer • 学習に⽤いるデータは AMASS [Mahmood et al., ICCV 2019] • 重⼒⽅向が 𝑔! = [0, 0, −1]" に限定されている → ランダムなスケーリングと回転を加える • 𝐿"𝑙𝑜𝑠𝑠で学習 • 学習結果を基に、推測された 𝑔 と 𝑔$ とをアラインメントする回転⾏列 𝑅% 2023/04/30 23
  18. ⼀⼈称視点ビデオ → 頭部姿勢推定 • HeadNet • 推定したいもの: 距離列 𝑑", 𝑑#,

    … , 𝑑! と頭部の回転 𝑅", … , 𝑅! • angular velocity も推定される • ⼊⼒するもの: オプティカルフロー特徴 𝑜", … , 𝑜! • 事前学習済みの ResNet-18 で特徴抽出 • モデルの構造は GravityNet と同様 • 単眼 SLAM の出⼒のスケールが、現実の 3D 世界に対して⼀貫性を持たない可能性が あるので、連続する時間ステップの中での差分 𝑑& を推定する • ロスは ℒ = ℒ'()& + ℒ*+, + ℒ-.& 2023/04/30 24
  19. ⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定

    c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 25
  20. 頭部姿勢 → 全⾝姿勢推定 • 時刻 t の全⾝姿勢 𝑿𝒕 ∈ ℝ!

    × # • 並進3次元、回転6次元 • SMPL [Loper et al., ACM TOG 2015] を⾻格に使う。ジョイント数22 • ノイズの段階が 𝑛 のとき、つまり 𝑿; <, 𝑿= <, … , 𝑿! < を 𝑥< と表す • 𝑥) からはじめて、1ステップずつ denoise して、 𝑥* を出⼒する 2023/04/30 27
  21. ⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定

    c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 28
  22. 評価指標 • Head Orientation Error (𝑂$>?@ ) • Head Translation

    Error (𝑇$>?@ ) • MPJPE • mean per-joint position errors in millimeters • Accel • the difference of acceleration between predicted joint positions and GT • FS • foot skating metric, computed following NeMF 2023/04/30 34
  23. 実験結果 – 部分ごと • 左) ⼀⼈称ビデオ → 頭部姿勢推定 • DROID-SLAMに対し、提案したハイブリッドな⼿法が優位

    • 右) 頭部姿勢 → 全⾝モーション推定 • 提案⼿法は⽣成的であるため、同じ頭部姿勢から複数のもっともらし い出⼒を⽣成可能 → 200個⽣成し、MPJPEが最⼩のもので⽐較 2023/04/30 37
  24. Human Perception Study • 2種類の、⼈間による評価 • ⼀⼈称視点ビデオ → モーション •

    GT の頭部姿勢 → モーション • ⽐較対象 (ペアで⽐較 → 6通りの組み合わせ) • EgoEgo • ベースライン2種 • GT • Amazon Mechanical Turk で評価 2023/04/30 41
  25. Human Perception Study – 結果 • ⼀⼈称視点ビデオから • ベースラインに圧勝 •

    GT と⾒分けるのが難し い • GT 頭部姿勢から • ベースラインに圧勝 2023/04/30 42
  26. Conclusion • ⼀⼈称視点ビデオから全⾝のモーションを推定する、 ⼀般化したフレームワークを提案 • 問題を⼆つに分けるのが、鍵となるアイデア • 単眼 SLAM との組み合わせで、より正確な頭部姿勢を推定する⼿法を開発

    • 推定された頭部姿勢から、多様で⾼品質な 3D モーションを ⽣成する条件付き拡散モデルを提案 • ペアリングしたデータセットを合成する⼿法をベンチマークのために提案 し、合成データでも、リアルデータでも、既存⼿法を上回ることを⽰した 2023/04/30 43
  27. なぜ、回転は3次元ではなく6次元か? • [Zhou & Barnes et al., CVPR 2019] •

    3次元ユークリッド空間におい て、回転を3次元で表現しよう とすると、⾮連続になってしま い、NN での処理に適さない • 5次元以上にする必要がある 2023/04/30 47 [Zhou & Barnes et al., CVPR 2019] poster より
  28. Diffusion Model について 2023/04/30 49 GeoDiff: A Geometric Diffusion Model

    for Molecular Conformation Generation shade-tree Twitter: @shade_tree2112 Website: https://www.mori.ai [PDF of the paper] [Code] 第10回 全⽇本コンピュータビジョン勉強会 「⽣成モデル縛り」論⽂読み会 2022/05/15 1 以前の発表の内容から、関連する部分を抜粋
  29. 提案⼿法: GeoDiff 1. 3D diffusion の定式化 2. どのように をパラメタライズして、roto-translational invariant

    を達成するか 3. どのように平⾏移動と回転に対し不変な最適化を実現するか 4. どのようにサンプリングを⾏うか 2022/05/15 50
  30. 3D diffusion • 近年の Denoising diffusion models (Sohl-Dickstein et al.,

    2015; Ho et al., 2020) の進展に基づく • : Ground Truth conformations • : Sequence of latent variables • Diffusion probabilistic model (Sohl-Dickstein et al., 2015) は以下 の 2 つのプロセスで説明される • The forward diffusion process • The reverse generative process 2022/05/15 51
  31. Diffusion Model 概略 • Forward Diffusion • 複雑なデータの分布を、単純で 扱いやすい分布に変換 •

    左図の (a) が⼊⼒、(b) が変換 されたもの • Generation • 上記の逆変換を学習する 2022/05/15 52 (Sohl-Dickstein et al., 2015)
  32. (Forward) Diffusion Process • Physical insight に基づき、Diffusion process をマルコフ連鎖と して定式化

    • Forward process は fixed (diffusion model の特性) • このプロセスには、特定の不変性の制約を設けていない 2022/05/15 53