Slide 1

Slide 1 text

Ego-Body Pose Estimation via Ego-Head Pose Estimation shade-tree Twitter: @shade_tree2112 [Project Page] 第58回 コンピュータビジョン勉強会@関東 「深層学習+3D論⽂読み会」 2023/04/30 1

Slide 2

Slide 2 text

前⼝上 2023/04/30 2

Slide 3

Slide 3 text

発表者の⽴場・視点 • shade-tree • 博⼠(情報理⼯学) • 2021年に取得 • 博⼠課程での研究のキーワード: Creative Support, Natural Language Processing, Storytelling, Emotions • 2014/07 – ⽂筆業 • 2021/11 – 某⼤ 某研究室、⾮常勤研究員(兼業) 2023/04/30 3

Slide 4

Slide 4 text

⼩説を書く上での、⼈称について • 誰の視点で語るか (注:私⾒での⼤まかな説明で、厳密なものではありません) • ⼀⼈称 • 「ぼく」「わたし」の視点から語る • 読者さんが感情移⼊しやすい(感情移⼊のしやすさが求められる) • 「嘘」「思い込み」が書ける。その⼈物が知らないことは書かない(書けない) • 「信頼できない語り⼿」 • 三⼈称 • 天の視点や、主⼈公に寄り添った視点など、いくつかのバリエーション • 情景描写など、特定のキャラクターの視野の外を扱いやすい • 地の⽂が信頼できるものであることが求められる傾向 • ⼆⼈称 • 「あなた」と呼び掛ける形式。限定的なシチュエーションで使われる 2023/04/30 4

Slide 5

Slide 5 text

今回紹介する論⽂を決める過程で、考えたこと • CVPR 2023 の Award Candidates の中から読んでみよう • 難しい問題を End2End に解くのではなく、複数に分割して解く • 個⼈的な好みに合う • 以前に、友⼈が関連する研究に取り組んでいた • ⼀⼈称とか三⼈称とか、気になります 2023/04/30 5

Slide 6

Slide 6 text

今回ご紹介する論⽂ ([Project Page]) 2023/04/30 6

Slide 7

Slide 7 text

本編 個別の注記がない限り、 図版は、紹介論⽂とプロジェクトページから引⽤しています。 2023/04/30 7

Slide 8

Slide 8 text

背景 • ⼀⼈称視点 x 3D モーションの重要性 • ⼈間の⾏動の理解 • VR/AR への応⽤ • 問題点: ⼀⼈称視点と 3D モーションのペアデータが作りにくい! • 頭部に付けたカメラに、⾃分の⾝体が映らない • ⼤規模かつ⾼品質のデータが取れるデバイス・環境は限定的 2023/04/30 8

Slide 9

Slide 9 text

この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo) の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 9

Slide 10

Slide 10 text

この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo) の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 10

Slide 11

Slide 11 text

この論⽂がやったこと • Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo) の提案 • 頭部のモーションを中間表現として、⼆つのタスクに分解 2023/04/30 11

Slide 12

Slide 12 text

4点の貢献 ① ⼀⼈称視点からのモーション推定を、⼀⼈称視点からの頭部姿勢推定と、 頭部姿勢からの⾝体姿勢推定に分離して解く “EgoEgo” を提案 ② 単眼 SLAM と学習を組み合わせた、⼀⼈称視点から頭部姿勢を推定する ためのハイブリッドアプローチの提案 ③ 頭部姿勢を条件として全⾝姿勢を⽣成する条件付き拡散モデルの提案 ④ ベンチマークのため、⼀⼈称視点のビデオと3Dヒューマンモーション の両⽅を含む⼤規模な合成データセットを提案、 提案⽅法がベースラインよりも⼤幅に優れていることを⽰した 2023/04/30 12

Slide 13

Slide 13 text

頭部姿勢に着⽬した問題分割 • キーアイデア: 頭部姿勢を中間表現として、問題を分解 2023/04/30 13 ⼀⼈称視点ビデオ 全⾝のモーション 頭部姿勢

Slide 14

Slide 14 text

頭部姿勢に着⽬した問題分割 • ⼈間は、⽇常的な活動のほとんどにおいて、頭を⾝体の重⼼と ⼀致させるように安定させる能⼒を持つ [Keshner and Peterson, 1988] → ⾝体のモーションを推定する上で、頭部の情報が有⽤ • ペアデータではなく、各モダリティのデータセットが使える • ⼀⼈称視点ビデオのデータと、3D モーションのデータ • それぞれなら、⼀般的な、⼤規模のものが⼊⼿できる 2023/04/30 14

Slide 15

Slide 15 text

関連研究 • Motion Estimation from Third-person Video • 2つの典型的なカテゴリ • 画像や動画から、関節の位置を直接推定 • パラメトリックな⼈体モデルを採⽤し、⾝体モデルのパラメータを推定 • Motion Estimation from Egocentric Video • ⿂眼カメラを使う⼿法、通常のカメラを使う⼿法 • EgoPose, Kinpoly • 従来⼿法は、学習データ外への汎化性が低い 2023/04/30 15

Slide 16

Slide 16 text

関連研究 • Motion Estimation from Sparse Sensors • 動画ではなく、センサーの情報からモーションを推定 • TransPose • 6 IMU sensors (頭部、胴体、両腕、両脚) • PIP • + PD controller • TIP • + transformer-based model • LoBSTr • Fewer sensors 2023/04/30 16

Slide 17

Slide 17 text

この研究では、 • 頭部の姿勢を中間表現とすることで、⼀⼈称視点ビデオと全⾝ のモーションとの橋渡しをする • ⼀⼈称視点ビデオから全⾝モーションを推定する上での、より ⼀般化されたロバストなフレームワークの確⽴を⽬的とする • 慣性センサーからの観測に頼ることなく、⼀⼈称視点ビデオの 情報のみを使った解決⽅法を提案する 2023/04/30 17

Slide 18

Slide 18 text

⼿法 - EgoEgo 2023/04/30 18

Slide 19

Slide 19 text

⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定 c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 19

Slide 20

Slide 20 text

表記 • Full body motion: 𝑿 ∈ ℝ! × # • Egocentric images (head-mounted camera): 𝑰 ∈ ℝ! × $ × % × & • 𝑇: the Sequence length • 𝐷: the Dimension of the pose state • ℎ × 𝑤: the size of an image • Head motion: 𝑯 ∈ ℝ! × #! 2023/04/30 20

Slide 21

Slide 21 text

⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定 c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 21 a. b. c.

Slide 22

Slide 22 text

⼀⼈称視点ビデオ→頭部姿勢推定 • 「カメラ位置特定」の問題と⾒做せる • しかし、いくつかの注意点 • 重⼒⽅向が未知 • 重⼒の向きが [0, 0, −1]! であることを前提にした⼿法を、そのままは使えない • 単眼 SLAM による推定は、回転・並進の推定において精度が不⼗分 • そこで、 • GravityNet, HeadNet を開発 2023/04/30 22

Slide 23

Slide 23 text

⼀⼈称視点ビデオ → 頭部姿勢推定 • GravityNet • 推定したいもの: 重⼒⽅向 𝑔 (単位ベクトル) • ⼊⼒するもの: 頭部姿勢 . ℎ", . ℎ#, … , . ℎ! • 頭部姿勢は、並進3次元、回転6次元 • Transformer を使⽤ • 2つの⾃⼰注意ブロック、position-wise feed-forward layer • 学習に⽤いるデータは AMASS [Mahmood et al., ICCV 2019] • 重⼒⽅向が 𝑔! = [0, 0, −1]" に限定されている → ランダムなスケーリングと回転を加える • 𝐿"𝑙𝑜𝑠𝑠で学習 • 学習結果を基に、推測された 𝑔 と 𝑔$ とをアラインメントする回転⾏列 𝑅% 2023/04/30 23

Slide 24

Slide 24 text

⼀⼈称視点ビデオ → 頭部姿勢推定 • HeadNet • 推定したいもの: 距離列 𝑑", 𝑑#, … , 𝑑! と頭部の回転 𝑅", … , 𝑅! • angular velocity も推定される • ⼊⼒するもの: オプティカルフロー特徴 𝑜", … , 𝑜! • 事前学習済みの ResNet-18 で特徴抽出 • モデルの構造は GravityNet と同様 • 単眼 SLAM の出⼒のスケールが、現実の 3D 世界に対して⼀貫性を持たない可能性が あるので、連続する時間ステップの中での差分 𝑑& を推定する • ロスは ℒ = ℒ'()& + ℒ*+, + ℒ-.& 2023/04/30 24

Slide 25

Slide 25 text

⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定 c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 25

Slide 26

Slide 26 text

頭部姿勢 → 全⾝姿勢推定 • 頭部姿勢と全⾝姿勢は1対1には対応しない → 条件付き⽣成モデル を使えるように定式化 • Diffusion Model を⽤いる • Denoising Diffusion Probabilistic Model (DDPM) [Ho et al., NeurIPS 2020] 2023/04/30 26

Slide 27

Slide 27 text

頭部姿勢 → 全⾝姿勢推定 • 時刻 t の全⾝姿勢 𝑿𝒕 ∈ ℝ! × # • 並進3次元、回転6次元 • SMPL [Loper et al., ACM TOG 2015] を⾻格に使う。ジョイント数22 • ノイズの段階が 𝑛 のとき、つまり 𝑿; <, 𝑿= <, … , 𝑿! < を 𝑥< と表す • 𝑥) からはじめて、1ステップずつ denoise して、 𝑥* を出⼒する 2023/04/30 27

Slide 28

Slide 28 text

⼿法 - EgoEgo 1. ⼀⼈称視点ビデオ→頭部姿勢推定 a. 単眼 SLAM b. 重⼒⽅向の推定 c. 頭部姿勢の推定 2. 頭部姿勢→全⾝姿勢推定 3. 合成データ⽣成 a. 3D シーンにおけるモーションの⽣成 b. リアルな⼀⼈称視点画像群の⽣成 2023/04/30 28

Slide 29

Slide 29 text

合成データ⽣成 • Method の中にあるが、EgoEgo の内容ではなく、ベンチマーク のデータセット作成に関する話 • 提案⼿法の学習に関して、⼀⼈称視点動画とモーションを対応させた データセットは不要だが、 ベースラインとの⽐較のため、データセットを合成する⼿法を提案 • AMASS と Replica を組み合わせた AMASS-Replica-Ego-Syn (ARES) を提案 2023/04/30 29

Slide 30

Slide 30 text

ARES Dataset の例(1) 2023/04/30 30

Slide 31

Slide 31 text

ARES Dataset の例(2) 2023/04/30 31 • Reference (三⼈称視点) から、Ego-View (⼀⼈称 視点)を⽣成している

Slide 32

Slide 32 text

実験 • ベースラインとの⽐較 • よく使われる指標5つ + human perception studies • Ablation study 2023/04/30 32

Slide 33

Slide 33 text

データセット • AMASS-Replica-Ego-Syn (ARES) • 今回、合成されたデータセット • 合成された⼀⼈称視点ビデオと、Ground Truth のモーション • AMASS • Kinpoly-MoCap • Kinpoly-RealWorld • GIMO 2023/04/30 33

Slide 34

Slide 34 text

評価指標 • Head Orientation Error (𝑂$>?@ ) • Head Translation Error (𝑇$>?@ ) • MPJPE • mean per-joint position errors in millimeters • Accel • the difference of acceleration between predicted joint positions and GT • FS • foot skating metric, computed following NeMF 2023/04/30 34

Slide 35

Slide 35 text

実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定 • 3つのデータセット全てにおいて、提案⼿法がベースラインを ⼤きく上回った • 定性評価は次ページ 2023/04/30 35

Slide 36

Slide 36 text

実験結果 – ⼀⼈称ビデオからの⾝体姿勢推定 2023/04/30 36

Slide 37

Slide 37 text

実験結果 – 部分ごと • 左) ⼀⼈称ビデオ → 頭部姿勢推定 • DROID-SLAMに対し、提案したハイブリッドな⼿法が優位 • 右) 頭部姿勢 → 全⾝モーション推定 • 提案⼿法は⽣成的であるため、同じ頭部姿勢から複数のもっともらし い出⼒を⽣成可能 → 200個⽣成し、MPJPEが最⼩のもので⽐較 2023/04/30 37

Slide 38

Slide 38 text

頭部姿勢からの全⾝モーション推定 2023/04/30 38

Slide 39

Slide 39 text

提案⼿法での⽣成の多様性 2023/04/30 39

Slide 40

Slide 40 text

Ablation Study • 有⽤性の確認 • スケールや重⼒⽅向の推定 • 頭部姿勢の有⽤性 → 頭部姿勢の推定の精度を上げることで、モーション推定も性能向上すると期待 2023/04/30 40

Slide 41

Slide 41 text

Human Perception Study • 2種類の、⼈間による評価 • ⼀⼈称視点ビデオ → モーション • GT の頭部姿勢 → モーション • ⽐較対象 (ペアで⽐較 → 6通りの組み合わせ) • EgoEgo • ベースライン2種 • GT • Amazon Mechanical Turk で評価 2023/04/30 41

Slide 42

Slide 42 text

Human Perception Study – 結果 • ⼀⼈称視点ビデオから • ベースラインに圧勝 • GT と⾒分けるのが難し い • GT 頭部姿勢から • ベースラインに圧勝 2023/04/30 42

Slide 43

Slide 43 text

Conclusion • ⼀⼈称視点ビデオから全⾝のモーションを推定する、 ⼀般化したフレームワークを提案 • 問題を⼆つに分けるのが、鍵となるアイデア • 単眼 SLAM との組み合わせで、より正確な頭部姿勢を推定する⼿法を開発 • 推定された頭部姿勢から、多様で⾼品質な 3D モーションを ⽣成する条件付き拡散モデルを提案 • ペアリングしたデータセットを合成する⼿法をベンチマークのために提案 し、合成データでも、リアルデータでも、既存⼿法を上回ることを⽰した 2023/04/30 43

Slide 44

Slide 44 text

発表者が思ったこと ✓学び • 「データを⽤意しやすくする」ことは、やはり⼤事 • End2End に拘らずに、複雑な問題を簡単に分解して解くことの有⽤性 ?疑問点 • Human Perception Study で、GT 頭部姿勢を使った場合のほうが、 GT との⽐較結果が悪くなるのはどうして? 2023/04/30 44

Slide 45

Slide 45 text

2023/04/30 45

Slide 46

Slide 46 text

Appendix 2023/04/30 46

Slide 47

Slide 47 text

なぜ、回転は3次元ではなく6次元か? • [Zhou & Barnes et al., CVPR 2019] • 3次元ユークリッド空間におい て、回転を3次元で表現しよう とすると、⾮連続になってしま い、NN での処理に適さない • 5次元以上にする必要がある 2023/04/30 47 [Zhou & Barnes et al., CVPR 2019] poster より

Slide 48

Slide 48 text

AMASS とは 2023/04/30 48 https://amass.is.tue.mpg.de

Slide 49

Slide 49 text

Diffusion Model について 2023/04/30 49 GeoDiff: A Geometric Diffusion Model for Molecular Conformation Generation shade-tree Twitter: @shade_tree2112 Website: https://www.mori.ai [PDF of the paper] [Code] 第10回 全⽇本コンピュータビジョン勉強会 「⽣成モデル縛り」論⽂読み会 2022/05/15 1 以前の発表の内容から、関連する部分を抜粋

Slide 50

Slide 50 text

提案⼿法: GeoDiff 1. 3D diffusion の定式化 2. どのように をパラメタライズして、roto-translational invariant を達成するか 3. どのように平⾏移動と回転に対し不変な最適化を実現するか 4. どのようにサンプリングを⾏うか 2022/05/15 50

Slide 51

Slide 51 text

3D diffusion • 近年の Denoising diffusion models (Sohl-Dickstein et al., 2015; Ho et al., 2020) の進展に基づく • : Ground Truth conformations • : Sequence of latent variables • Diffusion probabilistic model (Sohl-Dickstein et al., 2015) は以下 の 2 つのプロセスで説明される • The forward diffusion process • The reverse generative process 2022/05/15 51

Slide 52

Slide 52 text

Diffusion Model 概略 • Forward Diffusion • 複雑なデータの分布を、単純で 扱いやすい分布に変換 • 左図の (a) が⼊⼒、(b) が変換 されたもの • Generation • 上記の逆変換を学習する 2022/05/15 52 (Sohl-Dickstein et al., 2015)

Slide 53

Slide 53 text

(Forward) Diffusion Process • Physical insight に基づき、Diffusion process をマルコフ連鎖と して定式化 • Forward process は fixed (diffusion model の特性) • このプロセスには、特定の不変性の制約を設けていない 2022/05/15 53

Slide 54

Slide 54 text

Reverse Process • 逆変換を学習する • Condition として Graph を⽤いる 2022/05/15 54