3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

3D Prior is All You Need: Cross-Task Few-shot 2D Gaze
Estimation 2025/10/14 Spatial AI Network勉強会京都⼯芸繊維⼤学橋本和希 Authors: Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue,Boeun Kim, Feng Lu, Hyung Jin Chang Venue: CVPR 2025 Web: https://www.yihua.zone/work/gaze322/

デモ 2 Ground truth 推論値 https://www.yihua.zone/work/gaze322/

概要 3 What ⾼精度でスクリーン‧カメラ間の外部キャリブレーションが不要な2次元注視点推定⼿法の提案 Why 従来の⼿法は外部キャリブレーションが煩雑であったり，特定環境でしか精度が出ないから How 実⾏時の少数枚の画像を⽤いて学習済みの３次元視線
⽅向推定器をファインチューニングする

視線推定の例 4 ３次元視線⽅向推定（接写型） Pupil labs apple vision pro canon EOS
R3 ⾒ている場所にフォーカス⾒ている場所がカーソル https://global.canon/ja/quality/story/2021-eye-control-af.html https://www.apple.com/jp/newsroom/2023/06/introducing-apple-vision-pro/ https://docs.pupil-labs.com/ https://docs.pupil-labs.com/

視線計測の例３次元視線⽅向推定（俯瞰カメラ） 5 Dynamic 3D Gaze from Afar:Deep Gaze Estimation
from Temporal Eye-Head-Body CoordinationPermalink[Soma Nonaka+ , CVPR2022] Gaze estimation using transformer [ Yihua Cheng+, ICPR2022]

視線計測の例 6 ２次元注視点計測（画像内） Object-aware Gaze Target Detection[Francesco Tonini+ , ICCV
2023]

視線計測の例 7 2次元注視点推定 https://www.tobii.com/ja

視線推定⼿法 8 3次元視線⽅向推定視線推定画像内での2次元注視点推定深層学習 3次元視線⽅向を⽤いて幾何的に本研究での視線計測画像外の平⾯上の 2次元注視点推定

従来の２次元注視点推定 9 深層学習: スクリーンサイズやカメラとスクリーンの位置関係（姿勢）なども含めて学習を⾏う →カメラとスクリーンの相対姿勢に限界．（Tobiiなど） 3次元視線⽅向ベクトルを⽤いて幾何的に算出: スクリーンと視線⽅向の交点を求める →汎化するが、カメラとスクリーンのキャリブレーションが必要で精度も悪い

提案⼿法スクリーンと視線⽅向の交点を求める⼿続きを微分可能にする 10 画像と2D注視点を使ってend-to-endに学習できる外部キャリブレーション不要 ‧学習済みの３次元視線推定器をファインチューニング ‧スクリーンとカメラの外部パラメータを最適化対象に ‧３次元幾何に基づくデータ拡張少数の画像で⾼精度な注視点推定

提案⼿法の全体像 11 H3D(I,β)：学習済みの3次元視線推定器（I：⼊⼒画像，β：ネットワークの重み） r，t：スクリーン‧カメラ間の外部パラメータ o：顔中⼼の3D位置（別途推定） g：視線⽅向 n：スクリーンの法線（rから導出） p：2D注視点 P
H2D

提案⼿法のアイデア 12 g = H3D(I;β) 注視点 = 視線⽅向とスクリーンとの交点 P g
o n = R[:,2] R , t H3D (1) (2) (3) (4) (5) 既存の他の⼿法で求める交点を求めるスクリーン座標系に変換式1-3をH2Dとする⽬的関数顔画像

動的擬似ラベリング戦略左右に反転させた画像と対応する教師ラベルを⽣成し，データ拡張を⾏う 13 F(g) 注視点と顔の中⼼から，３次元視線⽅向を逆算 o p 視線⽅向ベクトルを左右反転する F(g) (6)
(7) p Q(p) 拡張後の疑似ラベル Q(p) R,t は学習時変化するため，擬似ラベルも動的に変化する

動的擬似ラベリング戦略この左右の反転はカメラ座標系で⾏う必要があるまた，本⼿法ではスクリーンとカメラの相対姿勢 R , t だけでなく，H3D(β)も学習対象そのため，H3D(β)が出⼒するベクトルの座標系は変化する可能性がある 14 H3D(β)からカメラ座標系に変換する回転⾏列を取得する必要がある

動的擬似ラベリング戦略追加学習をしていない初期H3D(β0 )はカメラ座標系であるそのため，現在のH3D(β)から初期H3D(β0)に変換する回転⾏列 T を別途取得する 15 この式はOrthogonal Procrustes problemそのものであり，SVDで解くことができる
T = VUT 疑似ラベルQ(p)は (8) (9) (10) (11) 解決⽅法

データ拡張 16 カラージッターを⽤いた，データ拡張を⾏う (12) https://wiki.cloudfactory.com/docs/mp-wiki/augmentations/color-jitter データ拡張

実験設定評価データ : MPIIGaze[Appearance-based gaze estimation in the wild, Xucong
Zhang+, CVPR2015] EVE[Towards end-to-end video-based eye-tracking, Seonwook Park+, ECCV2020]， GazeCapture[Eye tracking for everyone, Kyle Krafka+, CVPR2016] 学習枚数 : 10枚 17 MPIIGaze(ノートPC) EVE(デスクトップ) GazeCaputure（モバイル）

実験設定使⽤したH3Dのネットワーク構造 : GazeTR [Yihua Cheng and Feng Lu, ICPR,
2022] 学習データセット : Gaze360 [Petr Kellnhofer+, ICCV2019] 18 Gaze360

実験設定使⽤した３次元顔ランドマーク検出推定 : Towards fast, accurate and stable 3d dense
face alignment [Jianzhu Guo+, ECCV] 19 (5) (11) (12) ⽬的関数はこの3つ 1 0.4 0.25 重み

定量的評価 20 他の⼿法との⽐較 EFE : ⼀枚の画像から，エンドトゥーエンドで注視点を推定する他の⼿法と⽐較しても，⾼精度 mm IVGaze:
Transformerを⽤いたネットワーク構造で注視点を推定する．

21 g o p カメラとスクリーンの相対姿勢がないため Direct Projection (スクリーンとカメラの相対姿勢は既知) Direct
Learning p R(既知) t(既知) 物理ベース，H3Dを学習すると精度が向上する Learning with Known Pose

データ拡張の効果の評価結果 22 Proj : データ拡張なし PS-Label : 動的疑似ラベルを含める(+10枚) 𝓛unc :
ジッターのデータ拡張を含める(+40枚) ⼤きな精度向上はみられない

Tを⽤いる必要性 Tを導⼊した擬似ラベル Tを導⼊しない擬似ラベルデータセットのラベル擬似ラベルの正解 Tを導⼊したほうが擬似ラベルの精度が上がる

Tを⽤いる必要性 24 変換⾏列Tの影響を評価する RAT[Generalizing gaze estimation with rotation consistency, Yiwei
bao+, CVPR2022] : 既存の擬似ラベリング⼿法 w/o Pseudo-Label : 擬似ラベルなし Ours(w/o T) : 動的擬似ラベルを回転⾏列Tなしで⽣成した場合 Ours : 本⼿法擬似ラベルを⽣成する際，Tは必要

変換⾏列Tと顔3D位置oの関係 25 2D 2D 3D 3D 3D 3D 動的擬似ラベル⽣成の流れ座標系
カメラカメラ H3D H3D 反転F(g) T T -1 H3D カメラカメラ H3D o p p Q(p) • R,tはH3D(βk)の出⼒gと同時最適化されるので，βk座標系のはず • oはβk座標系であるべきだが，β0座標系（カメラ座標系）で固定されているはず • 学習中もoはβ0座標系のままなので，数式としてはおかしいが，このoに合うように学習がとにかく進んでいるので，逆投影も成⽴する？ oもTで変換するべきでは？

まとめ 26 What スクリーンとカメラのキャリブレーションなしの⾼精度な2次元注視点推定⼿法の提案 Why 従来の⼿法はキャリブレーションが煩雑であったり，特定環境でしか精度が出ないという実⽤上の課題があったため How
実⾏時の少数枚の画像を⽤いて，学習済みの３次元視線⽅向推定器をファインチューニングする Ground truth 推論値 https://www.yihua.zone/work/gaze322/

3D Prior is All You Need: Cross-Task Few-shot 2...

3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript