$30 off During Our Annual Pro Sale. View Details »

論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

第58回 コンピュータビジョン勉強会@関東 深層学習+3D論文読み会 にて、
"Ego-Body Pose Estimation via Ego-Head Pose Estimation" [Li et al., CVPR 2023]
のご紹介をさせていただきました。

◆イベント詳細 URL:
https://kantocv.connpass.com/event/278291/
◆発表日:
2023/04/30
◆紹介論文のプロジェクトページ
https://lijiaman.github.io/projects/egoego/
◆紹介論文の preprint (arXiv)
https://arxiv.org/abs/2212.04636

Yusuke Mori

May 04, 2023
Tweet

More Decks by Yusuke Mori

Other Decks in Research

Transcript

  1. Ego-Body Pose Estimation via
    Ego-Head Pose Estimation
    shade-tree
    Twitter: @shade_tree2112
    [Project Page]
    第58回 コンピュータビジョン勉強会@関東
    「深層学習+3D論⽂読み会」
    2023/04/30 1

    View Slide

  2. 前⼝上
    2023/04/30 2

    View Slide

  3. 発表者の⽴場・視点
    • shade-tree
    • 博⼠(情報理⼯学)
    • 2021年に取得
    • 博⼠課程での研究のキーワード:
    Creative Support, Natural Language Processing, Storytelling, Emotions
    • 2014/07 – ⽂筆業
    • 2021/11 – 某⼤ 某研究室、⾮常勤研究員(兼業)
    2023/04/30 3

    View Slide

  4. ⼩説を書く上での、⼈称について
    • 誰の視点で語るか (注:私⾒での⼤まかな説明で、厳密なものではありません)
    • ⼀⼈称
    • 「ぼく」「わたし」の視点から語る
    • 読者さんが感情移⼊しやすい(感情移⼊のしやすさが求められる)
    • 「嘘」「思い込み」が書ける。その⼈物が知らないことは書かない(書けない)
    • 「信頼できない語り⼿」
    • 三⼈称
    • 天の視点や、主⼈公に寄り添った視点など、いくつかのバリエーション
    • 情景描写など、特定のキャラクターの視野の外を扱いやすい
    • 地の⽂が信頼できるものであることが求められる傾向
    • ⼆⼈称
    • 「あなた」と呼び掛ける形式。限定的なシチュエーションで使われる
    2023/04/30 4

    View Slide

  5. 今回紹介する論⽂を決める過程で、考えたこと
    • CVPR 2023 の Award Candidates の中から読んでみよう
    • 難しい問題を End2End に解くのではなく、複数に分割して解く
    • 個⼈的な好みに合う
    • 以前に、友⼈が関連する研究に取り組んでいた
    • ⼀⼈称とか三⼈称とか、気になります
    2023/04/30 5

    View Slide

  6. 今回ご紹介する論⽂
    ([Project Page])
    2023/04/30 6

    View Slide

  7. 本編
    個別の注記がない限り、
    図版は、紹介論⽂とプロジェクトページから引⽤しています。
    2023/04/30 7

    View Slide

  8. 背景
    • ⼀⼈称視点 x 3D モーションの重要性
    • ⼈間の⾏動の理解
    • VR/AR への応⽤
    • 問題点:
    ⼀⼈称視点と 3D モーションのペアデータが作りにくい!
    • 頭部に付けたカメラに、⾃分の⾝体が映らない
    • ⼤規模かつ⾼品質のデータが取れるデバイス・環境は限定的
    2023/04/30 8

    View Slide

  9. この論⽂がやったこと
    • Ego-Body Pose Estimation via Ego-Head Pose Estimation
    (EgoEgo) の提案
    • 頭部のモーションを中間表現として、⼆つのタスクに分解
    2023/04/30 9

    View Slide

  10. この論⽂がやったこと
    • Ego-Body Pose Estimation via Ego-Head Pose Estimation
    (EgoEgo) の提案
    • 頭部のモーションを中間表現として、⼆つのタスクに分解
    2023/04/30 10

    View Slide

  11. この論⽂がやったこと
    • Ego-Body Pose Estimation via Ego-Head Pose Estimation
    (EgoEgo) の提案
    • 頭部のモーションを中間表現として、⼆つのタスクに分解
    2023/04/30 11

    View Slide

  12. 4点の貢献
    ① ⼀⼈称視点からのモーション推定を、⼀⼈称視点からの頭部姿勢推定と、
    頭部姿勢からの⾝体姿勢推定に分離して解く “EgoEgo” を提案
    ② 単眼 SLAM と学習を組み合わせた、⼀⼈称視点から頭部姿勢を推定する
    ためのハイブリッドアプローチの提案
    ③ 頭部姿勢を条件として全⾝姿勢を⽣成する条件付き拡散モデルの提案
    ④ ベンチマークのため、⼀⼈称視点のビデオと3Dヒューマンモーション
    の両⽅を含む⼤規模な合成データセットを提案、
    提案⽅法がベースラインよりも⼤幅に優れていることを⽰した
    2023/04/30 12

    View Slide

  13. 頭部姿勢に着⽬した問題分割
    • キーアイデア:
    頭部姿勢を中間表現として、問題を分解
    2023/04/30 13
    ⼀⼈称視点ビデオ 全⾝のモーション
    頭部姿勢

    View Slide

  14. 頭部姿勢に着⽬した問題分割
    • ⼈間は、⽇常的な活動のほとんどにおいて、頭を⾝体の重⼼と
    ⼀致させるように安定させる能⼒を持つ [Keshner and Peterson, 1988]
    → ⾝体のモーションを推定する上で、頭部の情報が有⽤
    • ペアデータではなく、各モダリティのデータセットが使える
    • ⼀⼈称視点ビデオのデータと、3D モーションのデータ
    • それぞれなら、⼀般的な、⼤規模のものが⼊⼿できる
    2023/04/30 14

    View Slide

  15. 関連研究
    • Motion Estimation from Third-person Video
    • 2つの典型的なカテゴリ
    • 画像や動画から、関節の位置を直接推定
    • パラメトリックな⼈体モデルを採⽤し、⾝体モデルのパラメータを推定
    • Motion Estimation from Egocentric Video
    • ⿂眼カメラを使う⼿法、通常のカメラを使う⼿法
    • EgoPose, Kinpoly
    • 従来⼿法は、学習データ外への汎化性が低い
    2023/04/30 15

    View Slide

  16. 関連研究
    • Motion Estimation from Sparse Sensors
    • 動画ではなく、センサーの情報からモーションを推定
    • TransPose
    • 6 IMU sensors (頭部、胴体、両腕、両脚)
    • PIP
    • + PD controller
    • TIP
    • + transformer-based model
    • LoBSTr
    • Fewer sensors
    2023/04/30 16

    View Slide

  17. この研究では、
    • 頭部の姿勢を中間表現とすることで、⼀⼈称視点ビデオと全⾝
    のモーションとの橋渡しをする
    • ⼀⼈称視点ビデオから全⾝モーションを推定する上での、より
    ⼀般化されたロバストなフレームワークの確⽴を⽬的とする
    • 慣性センサーからの観測に頼ることなく、⼀⼈称視点ビデオの
    情報のみを使った解決⽅法を提案する
    2023/04/30 17

    View Slide

  18. ⼿法 - EgoEgo
    2023/04/30 18

    View Slide

  19. ⼿法 - EgoEgo
    1. ⼀⼈称視点ビデオ→頭部姿勢推定
    a. 単眼 SLAM
    b. 重⼒⽅向の推定
    c. 頭部姿勢の推定
    2. 頭部姿勢→全⾝姿勢推定
    3. 合成データ⽣成
    a. 3D シーンにおけるモーションの⽣成
    b. リアルな⼀⼈称視点画像群の⽣成
    2023/04/30 19

    View Slide

  20. 表記
    • Full body motion: 𝑿 ∈ ℝ! × #
    • Egocentric images (head-mounted camera): 𝑰 ∈ ℝ! × $ × % × &
    • 𝑇: the Sequence length
    • 𝐷: the Dimension of the pose state
    • ℎ × 𝑤: the size of an image
    • Head motion: 𝑯 ∈ ℝ! × #!
    2023/04/30 20

    View Slide

  21. ⼿法 - EgoEgo
    1. ⼀⼈称視点ビデオ→頭部姿勢推定
    a. 単眼 SLAM
    b. 重⼒⽅向の推定
    c. 頭部姿勢の推定
    2. 頭部姿勢→全⾝姿勢推定
    3. 合成データ⽣成
    a. 3D シーンにおけるモーションの⽣成
    b. リアルな⼀⼈称視点画像群の⽣成
    2023/04/30 21
    a. b.
    c.

    View Slide

  22. ⼀⼈称視点ビデオ→頭部姿勢推定
    • 「カメラ位置特定」の問題と⾒做せる
    • しかし、いくつかの注意点
    • 重⼒⽅向が未知
    • 重⼒の向きが [0, 0, −1]! であることを前提にした⼿法を、そのままは使えない
    • 単眼 SLAM による推定は、回転・並進の推定において精度が不⼗分
    • そこで、
    • GravityNet, HeadNet を開発
    2023/04/30 22

    View Slide

  23. ⼀⼈称視点ビデオ → 頭部姿勢推定
    • GravityNet
    • 推定したいもの:
    重⼒⽅向 𝑔 (単位ベクトル)
    • ⼊⼒するもの:
    頭部姿勢 .
    ℎ", .
    ℎ#, … , .
    ℎ!
    • 頭部姿勢は、並進3次元、回転6次元
    • Transformer を使⽤
    • 2つの⾃⼰注意ブロック、position-wise feed-forward layer
    • 学習に⽤いるデータは AMASS [Mahmood et al., ICCV 2019]
    • 重⼒⽅向が 𝑔!
    = [0, 0, −1]" に限定されている → ランダムなスケーリングと回転を加える
    • 𝐿"𝑙𝑜𝑠𝑠で学習
    • 学習結果を基に、推測された 𝑔 と 𝑔$
    とをアラインメントする回転⾏列 𝑅%
    2023/04/30 23

    View Slide

  24. ⼀⼈称視点ビデオ → 頭部姿勢推定
    • HeadNet
    • 推定したいもの:
    距離列 𝑑", 𝑑#, … , 𝑑!
    と頭部の回転 𝑅", … , 𝑅!
    • angular velocity も推定される
    • ⼊⼒するもの:
    オプティカルフロー特徴 𝑜", … , 𝑜!
    • 事前学習済みの ResNet-18 で特徴抽出
    • モデルの構造は GravityNet と同様
    • 単眼 SLAM の出⼒のスケールが、現実の 3D 世界に対して⼀貫性を持たない可能性が
    あるので、連続する時間ステップの中での差分 𝑑&
    を推定する
    • ロスは ℒ = ℒ'()& + ℒ*+, + ℒ-.&
    2023/04/30 24

    View Slide

  25. ⼿法 - EgoEgo
    1. ⼀⼈称視点ビデオ→頭部姿勢推定
    a. 単眼 SLAM
    b. 重⼒⽅向の推定
    c. 頭部姿勢の推定
    2. 頭部姿勢→全⾝姿勢推定
    3. 合成データ⽣成
    a. 3D シーンにおけるモーションの⽣成
    b. リアルな⼀⼈称視点画像群の⽣成
    2023/04/30 25

    View Slide

  26. 頭部姿勢 → 全⾝姿勢推定
    • 頭部姿勢と全⾝姿勢は1対1には対応しない
    → 条件付き⽣成モデル を使えるように定式化
    • Diffusion Model を⽤いる
    • Denoising Diffusion Probabilistic Model
    (DDPM) [Ho et al., NeurIPS 2020]
    2023/04/30 26

    View Slide

  27. 頭部姿勢 → 全⾝姿勢推定
    • 時刻 t の全⾝姿勢 𝑿𝒕
    ∈ ℝ! × #
    • 並進3次元、回転6次元
    • SMPL [Loper et al., ACM TOG 2015] を⾻格に使う。ジョイント数22
    • ノイズの段階が 𝑛 のとき、つまり 𝑿;
    <, 𝑿=
    <, … , 𝑿!
    < を 𝑥<
    と表す
    • 𝑥)
    からはじめて、1ステップずつ denoise して、 𝑥*
    を出⼒する
    2023/04/30 27

    View Slide

  28. ⼿法 - EgoEgo
    1. ⼀⼈称視点ビデオ→頭部姿勢推定
    a. 単眼 SLAM
    b. 重⼒⽅向の推定
    c. 頭部姿勢の推定
    2. 頭部姿勢→全⾝姿勢推定
    3. 合成データ⽣成
    a. 3D シーンにおけるモーションの⽣成
    b. リアルな⼀⼈称視点画像群の⽣成
    2023/04/30 28

    View Slide

  29. 合成データ⽣成
    • Method の中にあるが、EgoEgo の内容ではなく、ベンチマーク
    のデータセット作成に関する話
    • 提案⼿法の学習に関して、⼀⼈称視点動画とモーションを対応させた
    データセットは不要だが、
    ベースラインとの⽐較のため、データセットを合成する⼿法を提案
    • AMASS と Replica を組み合わせた
    AMASS-Replica-Ego-Syn (ARES) を提案
    2023/04/30 29

    View Slide

  30. ARES Dataset の例(1)
    2023/04/30 30

    View Slide

  31. ARES Dataset の例(2)
    2023/04/30 31
    • Reference (三⼈称視点)
    から、Ego-View (⼀⼈称
    視点)を⽣成している

    View Slide

  32. 実験
    • ベースラインとの⽐較
    • よく使われる指標5つ + human perception studies
    • Ablation study
    2023/04/30 32

    View Slide

  33. データセット
    • AMASS-Replica-Ego-Syn (ARES)
    • 今回、合成されたデータセット
    • 合成された⼀⼈称視点ビデオと、Ground Truth のモーション
    • AMASS
    • Kinpoly-MoCap
    • Kinpoly-RealWorld
    • GIMO
    2023/04/30 33

    View Slide

  34. 評価指標
    • Head Orientation Error (𝑂$>?@
    )
    • Head Translation Error (𝑇$>?@
    )
    • MPJPE
    • mean per-joint position errors in millimeters
    • Accel
    • the difference of acceleration between predicted joint positions and GT
    • FS
    • foot skating metric, computed following NeMF
    2023/04/30 34

    View Slide

  35. 実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定
    • 3つのデータセット全てにおいて、提案⼿法がベースラインを
    ⼤きく上回った
    • 定性評価は次ページ
    2023/04/30 35

    View Slide

  36. 実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定
    2023/04/30 36

    View Slide

  37. 実験結果 – 部分ごと
    • 左) ⼀⼈称ビデオ → 頭部姿勢推定
    • DROID-SLAMに対し、提案したハイブリッドな⼿法が優位
    • 右) 頭部姿勢 → 全⾝モーション推定
    • 提案⼿法は⽣成的であるため、同じ頭部姿勢から複数のもっともらし
    い出⼒を⽣成可能 → 200個⽣成し、MPJPEが最⼩のもので⽐較
    2023/04/30 37

    View Slide

  38. 頭部姿勢からの全⾝モーション推定
    2023/04/30 38

    View Slide

  39. 提案⼿法での⽣成の多様性
    2023/04/30 39

    View Slide

  40. Ablation Study
    • 有⽤性の確認
    • スケールや重⼒⽅向の推定
    • 頭部姿勢の有⽤性
    → 頭部姿勢の推定の精度を上げることで、モーション推定も性能向上すると期待
    2023/04/30 40

    View Slide

  41. Human Perception Study
    • 2種類の、⼈間による評価
    • ⼀⼈称視点ビデオ → モーション
    • GT の頭部姿勢 → モーション
    • ⽐較対象 (ペアで⽐較 → 6通りの組み合わせ)
    • EgoEgo
    • ベースライン2種
    • GT
    • Amazon Mechanical Turk で評価
    2023/04/30 41

    View Slide

  42. Human Perception Study – 結果
    • ⼀⼈称視点ビデオから
    • ベースラインに圧勝
    • GT と⾒分けるのが難し

    • GT 頭部姿勢から
    • ベースラインに圧勝
    2023/04/30 42

    View Slide

  43. Conclusion
    • ⼀⼈称視点ビデオから全⾝のモーションを推定する、
    ⼀般化したフレームワークを提案
    • 問題を⼆つに分けるのが、鍵となるアイデア
    • 単眼 SLAM との組み合わせで、より正確な頭部姿勢を推定する⼿法を開発
    • 推定された頭部姿勢から、多様で⾼品質な 3D モーションを
    ⽣成する条件付き拡散モデルを提案
    • ペアリングしたデータセットを合成する⼿法をベンチマークのために提案
    し、合成データでも、リアルデータでも、既存⼿法を上回ることを⽰した
    2023/04/30 43

    View Slide

  44. 発表者が思ったこと
    ✓学び
    • 「データを⽤意しやすくする」ことは、やはり⼤事
    • End2End に拘らずに、複雑な問題を簡単に分解して解くことの有⽤性
    ?疑問点
    • Human Perception Study で、GT 頭部姿勢を使った場合のほうが、
    GT との⽐較結果が悪くなるのはどうして?
    2023/04/30 44

    View Slide

  45. 2023/04/30 45

    View Slide

  46. Appendix
    2023/04/30 46

    View Slide

  47. なぜ、回転は3次元ではなく6次元か?
    • [Zhou & Barnes et al., CVPR
    2019]
    • 3次元ユークリッド空間におい
    て、回転を3次元で表現しよう
    とすると、⾮連続になってしま
    い、NN での処理に適さない
    • 5次元以上にする必要がある
    2023/04/30 47
    [Zhou & Barnes et al., CVPR 2019] poster より

    View Slide

  48. AMASS とは
    2023/04/30 48
    https://amass.is.tue.mpg.de

    View Slide

  49. Diffusion Model について
    2023/04/30 49
    GeoDiff:
    A Geometric Diffusion Model for
    Molecular Conformation Generation
    shade-tree
    Twitter: @shade_tree2112
    Website: https://www.mori.ai
    [PDF of the paper] [Code]
    第10回 全⽇本コンピュータビジョン勉強会
    「⽣成モデル縛り」論⽂読み会
    2022/05/15 1
    以前の発表の内容から、関連する部分を抜粋

    View Slide

  50. 提案⼿法: GeoDiff
    1. 3D diffusion の定式化
    2. どのように をパラメタライズして、roto-translational
    invariant を達成するか
    3. どのように平⾏移動と回転に対し不変な最適化を実現するか
    4. どのようにサンプリングを⾏うか
    2022/05/15 50

    View Slide

  51. 3D diffusion
    • 近年の Denoising diffusion models (Sohl-Dickstein et al., 2015;
    Ho et al., 2020) の進展に基づく
    • : Ground Truth conformations
    • : Sequence of latent variables
    • Diffusion probabilistic model (Sohl-Dickstein et al., 2015) は以下
    の 2 つのプロセスで説明される
    • The forward diffusion process
    • The reverse generative process
    2022/05/15 51

    View Slide

  52. Diffusion Model 概略
    • Forward Diffusion
    • 複雑なデータの分布を、単純で
    扱いやすい分布に変換
    • 左図の (a) が⼊⼒、(b) が変換
    されたもの
    • Generation
    • 上記の逆変換を学習する
    2022/05/15 52
    (Sohl-Dickstein et al., 2015)

    View Slide

  53. (Forward) Diffusion Process
    • Physical insight に基づき、Diffusion process をマルコフ連鎖と
    して定式化
    • Forward process は fixed (diffusion model の特性)
    • このプロセスには、特定の不変性の制約を設けていない
    2022/05/15 53

    View Slide

  54. Reverse Process
    • 逆変換を学習する
    • Condition として Graph を⽤いる
    2022/05/15 54

    View Slide