論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

Ego-Body Pose Estimation via Ego-Head Pose Estimation shade-tree Twitter: @shade_tree2112
[Project Page] 第58回コンピュータビジョン勉強会＠関東「深層学習＋3D論⽂読み会」 2023/04/30 1

前⼝上 2023/04/30 2

発表者の⽴場・視点 • shade-tree • 博⼠（情報理⼯学） • 2021年に取得 • 博⼠課程での研究のキーワード： Creative
Support, Natural Language Processing, Storytelling, Emotions • 2014/07 – ⽂筆業 • 2021/11 – 某⼤某研究室、⾮常勤研究員（兼業） 2023/04/30 3

⼩説を書く上での、⼈称について • 誰の視点で語るか（注：私⾒での⼤まかな説明で、厳密なものではありません） • ⼀⼈称 • 「ぼく」「わたし」の視点から語る • 読者さんが感情移⼊しやすい（感情移⼊のしやすさが求められる）
• 「嘘」「思い込み」が書ける。その⼈物が知らないことは書かない（書けない） • 「信頼できない語り⼿」 • 三⼈称 • 天の視点や、主⼈公に寄り添った視点など、いくつかのバリエーション • 情景描写など、特定のキャラクターの視野の外を扱いやすい • 地の⽂が信頼できるものであることが求められる傾向 • ⼆⼈称 • 「あなた」と呼び掛ける形式。限定的なシチュエーションで使われる 2023/04/30 4

今回紹介する論⽂を決める過程で、考えたこと • CVPR 2023 の Award Candidates の中から読んでみよう • 難しい問題を
End2End に解くのではなく、複数に分割して解く • 個⼈的な好みに合う • 以前に、友⼈が関連する研究に取り組んでいた • ⼀⼈称とか三⼈称とか、気になります 2023/04/30 5

今回ご紹介する論⽂（[Project Page]） 2023/04/30 6

本編個別の注記がない限り、図版は、紹介論⽂とプロジェクトページから引⽤しています。 2023/04/30 7

背景 • ⼀⼈称視点 x 3D モーションの重要性 • ⼈間の⾏動の理解 • VR/AR
への応⽤ • 問題点：⼀⼈称視点と 3D モーションのペアデータが作りにくい！ • 頭部に付けたカメラに、⾃分の⾝体が映らない • ⼤規模かつ⾼品質のデータが取れるデバイス・環境は限定的 2023/04/30 8

この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo)
の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 9

４点の貢献 ① ⼀⼈称視点からのモーション推定を、⼀⼈称視点からの頭部姿勢推定と、頭部姿勢からの⾝体姿勢推定に分離して解く “EgoEgo” を提案 ② 単眼 SLAM と学習を組み合わせた、⼀⼈称視点から頭部姿勢を推定する
ためのハイブリッドアプローチの提案 ③ 頭部姿勢を条件として全⾝姿勢を⽣成する条件付き拡散モデルの提案 ④ ベンチマークのため、⼀⼈称視点のビデオと3Dヒューマンモーションの両⽅を含む⼤規模な合成データセットを提案、提案⽅法がベースラインよりも⼤幅に優れていることを⽰した 2023/04/30 12

頭部姿勢に着⽬した問題分割 • キーアイデア：頭部姿勢を中間表現として、問題を分解 2023/04/30 13 ⼀⼈称視点ビデオ全⾝のモーション頭部姿勢

頭部姿勢に着⽬した問題分割 • ⼈間は、⽇常的な活動のほとんどにおいて、頭を⾝体の重⼼と⼀致させるように安定させる能⼒を持つ [Keshner and Peterson, 1988] → ⾝体のモーションを推定する上で、頭部の情報が有⽤
• ペアデータではなく、各モダリティのデータセットが使える • ⼀⼈称視点ビデオのデータと、3D モーションのデータ • それぞれなら、⼀般的な、⼤規模のものが⼊⼿できる 2023/04/30 14

関連研究 • Motion Estimation from Third-person Video • ２つの典型的なカテゴリ •
画像や動画から、関節の位置を直接推定 • パラメトリックな⼈体モデルを採⽤し、⾝体モデルのパラメータを推定 • Motion Estimation from Egocentric Video • ⿂眼カメラを使う⼿法、通常のカメラを使う⼿法 • EgoPose, Kinpoly • 従来⼿法は、学習データ外への汎化性が低い 2023/04/30 15

関連研究 • Motion Estimation from Sparse Sensors • 動画ではなく、センサーの情報からモーションを推定 •
TransPose • 6 IMU sensors （頭部、胴体、両腕、両脚） • PIP • + PD controller • TIP • + transformer-based model • LoBSTr • Fewer sensors 2023/04/30 16

この研究では、 • 頭部の姿勢を中間表現とすることで、⼀⼈称視点ビデオと全⾝のモーションとの橋渡しをする • ⼀⼈称視点ビデオから全⾝モーションを推定する上での、より⼀般化されたロバストなフレームワークの確⽴を⽬的とする • 慣性センサーからの観測に頼ることなく、⼀⼈称視点ビデオの情報のみを使った解決⽅法を提案する
2023/04/30 17

⼿法 - EgoEgo 2023/04/30 18

⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定
c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 19

表記 • Full body motion: 𝑿 ∈ ℝ! × #
• Egocentric images (head-mounted camera): 𝑰 ∈ ℝ! × $ × % × & • 𝑇: the Sequence length • 𝐷: the Dimension of the pose state • ℎ × 𝑤: the size of an image • Head motion: 𝑯 ∈ ℝ! × #! 2023/04/30 20

c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 21 a. b. c.

⼀⼈称視点ビデオ→頭部姿勢推定 • 「カメラ位置特定」の問題と⾒做せる • しかし、いくつかの注意点 • 重⼒⽅向が未知 • 重⼒の向きが [0,
0, −1]! であることを前提にした⼿法を、そのままは使えない • 単眼 SLAM による推定は、回転・並進の推定において精度が不⼗分 • そこで、 • GravityNet, HeadNet を開発 2023/04/30 22

⼀⼈称視点ビデオ → 頭部姿勢推定 • GravityNet • 推定したいもの：重⼒⽅向 𝑔 （単位ベクトル）
• ⼊⼒するもの：頭部姿勢 . ℎ", . ℎ#, … , . ℎ! • 頭部姿勢は、並進３次元、回転６次元 • Transformer を使⽤ • ２つの⾃⼰注意ブロック、position-wise feed-forward layer • 学習に⽤いるデータは AMASS [Mahmood et al., ICCV 2019] • 重⼒⽅向が 𝑔! = [0, 0, −1]" に限定されている → ランダムなスケーリングと回転を加える • 𝐿"𝑙𝑜𝑠𝑠で学習 • 学習結果を基に、推測された 𝑔 と 𝑔$ とをアラインメントする回転⾏列 𝑅% 2023/04/30 23

⼀⼈称視点ビデオ → 頭部姿勢推定 • HeadNet • 推定したいもの：距離列 𝑑", 𝑑#,
… , 𝑑! と頭部の回転 𝑅", … , 𝑅! • angular velocity も推定される • ⼊⼒するもの：オプティカルフロー特徴 𝑜", … , 𝑜! • 事前学習済みの ResNet-18 で特徴抽出 • モデルの構造は GravityNet と同様 • 単眼 SLAM の出⼒のスケールが、現実の 3D 世界に対して⼀貫性を持たない可能性があるので、連続する時間ステップの中での差分 𝑑& を推定する • ロスは ℒ = ℒ'()& + ℒ*+, + ℒ-.& 2023/04/30 24

頭部姿勢 → 全⾝姿勢推定 • 頭部姿勢と全⾝姿勢は１対１には対応しない → 条件付き⽣成モデルを使えるように定式化 • Diffusion
Model を⽤いる • Denoising Diffusion Probabilistic Model (DDPM) [Ho et al., NeurIPS 2020] 2023/04/30 26

頭部姿勢 → 全⾝姿勢推定 • 時刻 t の全⾝姿勢 𝑿𝒕 ∈ ℝ!
× # • 並進３次元、回転６次元 • SMPL [Loper et al., ACM TOG 2015] を⾻格に使う。ジョイント数22 • ノイズの段階が 𝑛 のとき、つまり 𝑿; <, 𝑿= <, … , 𝑿! < を 𝑥< と表す • 𝑥) からはじめて、１ステップずつ denoise して、 𝑥* を出⼒する 2023/04/30 27

合成データ⽣成 • Method の中にあるが、EgoEgo の内容ではなく、ベンチマークのデータセット作成に関する話 • 提案⼿法の学習に関して、⼀⼈称視点動画とモーションを対応させたデータセットは不要だが、ベースラインとの⽐較のため、データセットを合成する⼿法を提案
• AMASS と Replica を組み合わせた AMASS-Replica-Ego-Syn (ARES) を提案 2023/04/30 29

ARES Dataset の例（１） 2023/04/30 30

ARES Dataset の例（２） 2023/04/30 31 • Reference （三⼈称視点）から、Ego-View （⼀⼈称
視点）を⽣成している

実験 • ベースラインとの⽐較 • よく使われる指標５つ + human perception studies •
Ablation study 2023/04/30 32

データセット • AMASS-Replica-Ego-Syn (ARES) • 今回、合成されたデータセット • 合成された⼀⼈称視点ビデオと、Ground Truth のモーション
• AMASS • Kinpoly-MoCap • Kinpoly-RealWorld • GIMO 2023/04/30 33

評価指標 • Head Orientation Error (𝑂$>?@ ) • Head Translation
Error (𝑇$>?@ ) • MPJPE • mean per-joint position errors in millimeters • Accel • the difference of acceleration between predicted joint positions and GT • FS • foot skating metric, computed following NeMF 2023/04/30 34

実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定 • ３つのデータセット全てにおいて、提案⼿法がベースラインを⼤きく上回った • 定性評価は次ページ 2023/04/30 35

実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定 2023/04/30 36

実験結果 – 部分ごと • 左）⼀⼈称ビデオ → 頭部姿勢推定 • DROID-SLAMに対し、提案したハイブリッドな⼿法が優位
• 右）頭部姿勢 → 全⾝モーション推定 • 提案⼿法は⽣成的であるため、同じ頭部姿勢から複数のもっともらしい出⼒を⽣成可能 → 200個⽣成し、MPJPEが最⼩のもので⽐較 2023/04/30 37

頭部姿勢からの全⾝モーション推定 2023/04/30 38

提案⼿法での⽣成の多様性 2023/04/30 39

Ablation Study • 有⽤性の確認 • スケールや重⼒⽅向の推定 • 頭部姿勢の有⽤性 → 頭部姿勢の推定の精度を上げることで、モーション推定も性能向上すると期待
2023/04/30 40

Human Perception Study • ２種類の、⼈間による評価 • ⼀⼈称視点ビデオ → モーション •
GT の頭部姿勢 → モーション • ⽐較対象（ペアで⽐較 → ６通りの組み合わせ） • EgoEgo • ベースライン２種 • GT • Amazon Mechanical Turk で評価 2023/04/30 41

Human Perception Study – 結果 • ⼀⼈称視点ビデオから • ベースラインに圧勝 •
GT と⾒分けるのが難しい • GT 頭部姿勢から • ベースラインに圧勝 2023/04/30 42

Conclusion • ⼀⼈称視点ビデオから全⾝のモーションを推定する、⼀般化したフレームワークを提案 • 問題を⼆つに分けるのが、鍵となるアイデア • 単眼 SLAM との組み合わせで、より正確な頭部姿勢を推定する⼿法を開発
• 推定された頭部姿勢から、多様で⾼品質な 3D モーションを⽣成する条件付き拡散モデルを提案 • ペアリングしたデータセットを合成する⼿法をベンチマークのために提案し、合成データでも、リアルデータでも、既存⼿法を上回ることを⽰した 2023/04/30 43

発表者が思ったこと ✓学び • 「データを⽤意しやすくする」ことは、やはり⼤事 • End2End に拘らずに、複雑な問題を簡単に分解して解くことの有⽤性？疑問点 • Human
Perception Study で、GT 頭部姿勢を使った場合のほうが、 GT との⽐較結果が悪くなるのはどうして？ 2023/04/30 44

2023/04/30 45

Appendix 2023/04/30 46

なぜ、回転は３次元ではなく６次元か？ • [Zhou & Barnes et al., CVPR 2019] •
３次元ユークリッド空間において、回転を３次元で表現しようとすると、⾮連続になってしまい、NN での処理に適さない • ５次元以上にする必要がある 2023/04/30 47 [Zhou & Barnes et al., CVPR 2019] poster より

AMASS とは 2023/04/30 48 https://amass.is.tue.mpg.de

Diffusion Model について 2023/04/30 49 GeoDiff: A Geometric Diffusion Model
for Molecular Conformation Generation shade-tree Twitter: @shade_tree2112 Website: https://www.mori.ai [PDF of the paper] [Code] 第10回全⽇本コンピュータビジョン勉強会「⽣成モデル縛り」論⽂読み会 2022/05/15 1 以前の発表の内容から、関連する部分を抜粋

提案⼿法: GeoDiff 1. 3D diffusion の定式化 2. どのようにをパラメタライズして、roto-translational invariant
を達成するか 3. どのように平⾏移動と回転に対し不変な最適化を実現するか 4. どのようにサンプリングを⾏うか 2022/05/15 50

3D diffusion • 近年の Denoising diffusion models (Sohl-Dickstein et al.,
2015; Ho et al., 2020) の進展に基づく • : Ground Truth conformations • : Sequence of latent variables • Diffusion probabilistic model (Sohl-Dickstein et al., 2015) は以下の 2 つのプロセスで説明される • The forward diffusion process • The reverse generative process 2022/05/15 51

Diffusion Model 概略 • Forward Diffusion • 複雑なデータの分布を、単純で扱いやすい分布に変換 •
左図の (a) が⼊⼒、(b) が変換されたもの • Generation • 上記の逆変換を学習する 2022/05/15 52 (Sohl-Dickstein et al., 2015)

(Forward) Diffusion Process • Physical insight に基づき、Diffusion process をマルコフ連鎖として定式化
• Forward process は fixed (diffusion model の特性) • このプロセスには、特定の不変性の制約を設けていない 2022/05/15 53

Reverse Process • 逆変換を学習する • Condition として Graph を⽤いる 2022/05/15
54

論文紹介 / Ego-Body Pose Estimation via Ego-Head Po...

論文紹介 / Ego-Body Pose Estimation via Ego-Head Pose Estimation

More Decks by Yusuke Mori

Other Decks in Research

Featured

Transcript