Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
3D Prior is All You Need: Cross-Task Few-shot 2...
Search
Spatial AI Network
November 04, 2025
Technology
87
0
Share
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
学習済みの3次元視線方向推定モデルを少数枚の画像でファインチューニングすることで、スクリーンとカメラ間の外部キャリブレーションを行わずに高精度な2次元注視点推定を実現する
Spatial AI Network
November 04, 2025
More Decks by Spatial AI Network
See All by Spatial AI Network
Uncalibrated Structure from Motion on a Sphere (ICCV 2025)
spatial_ai_network
0
170
Understanding multi-view transformers (and VGGT)
spatial_ai_network
2
490
Preconditioned Single-step Transforms for Non-rigid ICP (Eurographics 2025)
spatial_ai_network
0
140
Human Mesh Modeling for Anny Body + α
spatial_ai_network
0
150
ChatGPTで論⽂は読めるのか
spatial_ai_network
12
33k
Exploring ways to enhance robustnessof 3D reconstruction using COLMAP
spatial_ai_network
1
180
CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization
spatial_ai_network
0
120
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
spatial_ai_network
0
180
HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis
spatial_ai_network
0
120
Other Decks in Technology
See All in Technology
Keeping Ruby Running on Cygwin
fd0
0
180
AI バイブコーティングでキーボード不要?!
samakada
0
640
Claude Code を安全に使おう勉強会 / Claude Code Security Basics
masahirokawahara
12
38k
20260423_執筆の工夫と裏側 技術書の企画から刊行まで / From the planning to the publication of technical book
nash_efp
3
620
[OpsJAWS 40]リリースしたら終わり、じゃなかった。セキュリティ空白期間をAWS Security Agentで埋める
sh_fk2
3
270
音声言語モデル手法に関する発表の紹介
kzinmr
0
150
AI駆動1on1〜AIに自分を育ててもらう〜
yoshiakiyasuda
0
150
ハーネスエンジニアリングの概要と設計思想
sergicalsix
9
5.5k
VespaのParent Childを用いたフィードパフォーマンスの改善
taking
0
120
AI時代における技術的負債への取り組み
codenote
1
1.8k
AIでAIをテストする - 音声AIエージェントの品質保証戦略
morix1500
1
150
生成AI時代のドキュメントに対する期待の整理と実践から得た学び / Rethinking Documentation for LLM: Lessons from Practice
bitkey
PRO
1
100
Featured
See All Featured
Code Review Best Practice
trishagee
74
20k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
820
Building AI with AI
inesmontani
PRO
1
920
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
For a Future-Friendly Web
brad_frost
183
10k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The Language of Interfaces
destraynor
162
26k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
770
Testing 201, or: Great Expectations
jmmastey
46
8.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
280
Transcript
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze
Estimation 2025/10/14 Spatial AI Network勉強会 京都⼯芸繊維⼤学 橋本和希 Authors: Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue,Boeun Kim, Feng Lu, Hyung Jin Chang Venue: CVPR 2025 Web: https://www.yihua.zone/work/gaze322/
デモ 2 Ground truth 推論値 https://www.yihua.zone/work/gaze322/
概要 3 What ⾼精度でスクリーン‧カメラ間の外部キャリブレー ションが不要な2次元注視点推定⼿法の提案 Why 従来の⼿法は外部キャリブレーションが煩雑であったり, 特定環境でしか精度が出ないから How 実⾏時の少数枚の画像を⽤いて学習済みの3次元視線
⽅向推定器をファインチューニングする
視線推定の例 4 3次元視線⽅向推定(接写型) Pupil labs apple vision pro canon EOS
R3 ⾒ている場所にフォーカス ⾒ている場所がカーソル https://global.canon/ja/quality/story/2021-eye-control-af.html https://www.apple.com/jp/newsroom/2023/06/introducing-apple-vision-pro/ https://docs.pupil-labs.com/ https://docs.pupil-labs.com/
視線計測の例 3次元視線⽅向推定(俯瞰カメラ) 5 Dynamic 3D Gaze from Afar:Deep Gaze Estimation
from Temporal Eye-Head-Body CoordinationPermalink[Soma Nonaka+ , CVPR2022] Gaze estimation using transformer [ Yihua Cheng+, ICPR2022]
視線計測の例 6 2次元注視点計測(画像内) Object-aware Gaze Target Detection[Francesco Tonini+ , ICCV
2023]
視線計測の例 7 2次元注視点推定 https://www.tobii.com/ja
視線推定⼿法 8 3次元視線⽅向推定 視線推定 画像内での2次元注視点推定 深層学習 3次元視線⽅向を⽤いて幾何的に 本研究での視線計測 画像外の平⾯上の 2次元注視点推定
従来の2次元注視点推定 9 深層学習: スクリーンサイズやカメラとスクリーンの位置関係(姿勢)なども含めて学習を⾏う →カメラとスクリーンの相対姿勢に限界.(Tobiiなど) 3次元視線⽅向ベクトルを⽤いて幾何的に算出: スクリーンと視線⽅向の交点を求める →汎化するが、カメラとスクリーンのキャリブレーションが必要で精度も悪い
提案⼿法 スクリーンと視線⽅向の交点を求める⼿続きを微分可能にする 10 画像と2D注視点を使ってend-to-endに学習できる 外部キャリブレーション不要 ‧学習済みの3次元視線推定器をファインチューニング ‧スクリーンとカメラの外部パラメータを最適化対象に ‧3次元幾何に基づくデータ拡張 少数の画像で⾼精度な注視点推定
提案⼿法の全体像 11 H3D(I,β): 学習済みの3次元視線推定器(I:⼊⼒画像,β:ネットワークの重み) r,t:スクリーン‧カメラ間の外部パラメータ o:顔中⼼の3D位置(別途推定) g:視線⽅向 n:スクリーンの法線(rから導出) p:2D注視点 P
H2D
提案⼿法のアイデア 12 g = H3D(I;β) 注視点 = 視線⽅向とスクリーンとの交点 P g
o n = R[:,2] R , t H3D (1) (2) (3) (4) (5) 既存の他の⼿法で求める 交点を求める スクリーン 座標系に変換 式1-3をH2Dとする ⽬的関数 顔画像
動的擬似ラベリング戦略 左右に反転させた画像と対応する教師ラベルを⽣成し,データ拡張を⾏う 13 F(g) 注視点と顔の中⼼から,3次元視線⽅向を逆算 o p 視線⽅向ベクトルを左右反転する F(g) (6)
(7) p Q(p) 拡張後の疑似ラベル Q(p) R,t は学習時変化するため,擬似ラベルも動的に変化する
動的擬似ラベリング戦略 この左右の反転はカメラ座標系で⾏う必要がある また,本⼿法ではスクリーンとカメラの相対姿勢 R , t だけでなく,H3D(β)も学習対象 そのため,H3D(β)が出⼒するベクトルの座標系は変化する可能性がある 14 H3D(β)からカメラ座標系に変換する回転⾏列を取得する必要がある
動的擬似ラベリング戦略 追加学習をしていない初期H3D(β0 )はカメラ座標系である そのため,現在のH3D(β)から初期H3D(β0)に変換する回転⾏列 T を別途取得する 15 この式はOrthogonal Procrustes problemそのものであり,SVDで解くことができる
T = VUT 疑似ラベルQ(p)は (8) (9) (10) (11) 解決⽅法
データ拡張 16 カラージッターを⽤いた,データ拡張を⾏う (12) https://wiki.cloudfactory.com/docs/mp-wiki/augmentations/color-jitter データ拡張
実験設定 評価データ : MPIIGaze[Appearance-based gaze estimation in the wild, Xucong
Zhang+, CVPR2015] EVE[Towards end-to-end video-based eye-tracking, Seonwook Park+, ECCV2020], GazeCapture[Eye tracking for everyone, Kyle Krafka+, CVPR2016] 学習枚数 : 10枚 17 MPIIGaze(ノートPC) EVE(デスクトップ) GazeCaputure(モバイル)
実験設定 使⽤したH3Dのネットワーク構造 : GazeTR [Yihua Cheng and Feng Lu, ICPR,
2022] 学習データセット : Gaze360 [Petr Kellnhofer+, ICCV2019] 18 Gaze360
実験設定 使⽤した3次元顔ランドマーク検出推定 : Towards fast, accurate and stable 3d dense
face alignment [Jianzhu Guo+, ECCV] 19 (5) (11) (12) ⽬的関数はこの3つ 1 0.4 0.25 重み
定量的評価 20 他の⼿法との⽐較 EFE : ⼀枚の画像から,エンドトゥーエンドで 注視点を推定する 他の⼿法と⽐較しても,⾼精度 mm IVGaze:
Transformerを⽤いたネットワーク構造 で注視点を推定する.
21 g o p カメラとスクリーンの 相対姿勢がないため Direct Projection (スクリーンとカメラの相対姿勢は既知) Direct
Learning p R(既知) t(既知) 物理ベース,H3Dを学習すると精度が向上する Learning with Known Pose
データ拡張の効果の評価結果 22 Proj : データ拡張なし PS-Label : 動的疑似ラベルを含める(+10枚) 𝓛unc :
ジッターのデータ拡張を含める(+40枚) ⼤きな精度向上はみられない
Tを⽤いる必要性 Tを導⼊した擬似ラベル Tを導⼊しない擬似ラベル データセットのラベル 擬似ラベルの正解 Tを導⼊したほうが擬似ラベルの精度が上がる
Tを⽤いる必要性 24 変換⾏列Tの影響を評価する RAT[Generalizing gaze estimation with rotation consistency, Yiwei
bao+, CVPR2022] : 既存の擬似ラベリング⼿法 w/o Pseudo-Label : 擬似ラベルなし Ours(w/o T) : 動的擬似ラベルを回転⾏列Tなしで⽣成した場合 Ours : 本⼿法 擬似ラベルを⽣成する際,Tは必要
変換⾏列Tと顔3D位置oの関係 25 2D 2D 3D 3D 3D 3D 動的擬似ラベル⽣成の流れ 座標系
カメラ カメラ H3D H3D 反転F(g) T T -1 H3D カメラ カメラ H3D o p p Q(p) • R,tはH3D(βk)の出⼒gと同時最適化されるので,βk座標系のはず • oはβk座標系であるべきだが,β0座標系(カメラ座標系)で固定されているはず • 学習中もoはβ0座標系のままなので,数式としてはおかしいが,このoに合うように学習がと にかく進んでいるので,逆投影も成⽴する? oもTで変換するべきでは?
まとめ 26 What スクリーンとカメラのキャリブレーションなしの⾼精 度な2次元注視点推定⼿法の提案 Why 従来の⼿法はキャリブレーションが煩雑であったり, 特定環境でしか精度が出ないという実⽤上の課題が あったため How
実⾏時の少数枚の画像を⽤いて,学習済みの3次元視 線⽅向推定器をファインチューニングする Ground truth 推論値 https://www.yihua.zone/work/gaze322/