Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
3D Prior is All You Need: Cross-Task Few-shot 2...
Search
Spatial AI Network
November 04, 2025
Technology
0
65
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
学習済みの3次元視線方向推定モデルを少数枚の画像でファインチューニングすることで、スクリーンとカメラ間の外部キャリブレーションを行わずに高精度な2次元注視点推定を実現する
Spatial AI Network
November 04, 2025
Tweet
Share
More Decks by Spatial AI Network
See All by Spatial AI Network
Uncalibrated Structure from Motion on a Sphere (ICCV 2025)
spatial_ai_network
0
140
Understanding multi-view transformers (and VGGT)
spatial_ai_network
0
300
Preconditioned Single-step Transforms for Non-rigid ICP (Eurographics 2025)
spatial_ai_network
0
110
Human Mesh Modeling for Anny Body + α
spatial_ai_network
0
130
ChatGPTで論⽂は読めるのか
spatial_ai_network
12
31k
Exploring ways to enhance robustnessof 3D reconstruction using COLMAP
spatial_ai_network
1
160
CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization
spatial_ai_network
0
90
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
spatial_ai_network
0
160
HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis
spatial_ai_network
0
95
Other Decks in Technology
See All in Technology
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
490
1,000 にも届く AWS Organizations 組織のポリシー運用をちゃんとしたい、という話
kazzpapa3
0
110
生成AIと余白 〜開発スピードが向上した今、何に向き合う?〜
kakehashi
PRO
0
130
What happened to RubyGems and what can we learn?
mikemcquaid
0
310
マネージャー視点で考えるプロダクトエンジニアの評価 / Evaluating Product Engineers from a Manager's Perspective
hiro_torii
0
130
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1k
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
610
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
260
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.4k
私たち準委任PdEは2つのプロダクトに挑戦する ~ソフトウェア、開発支援という”二重”のプロダクトエンジニアリングの実践~ / 20260212 Naoki Takahashi
shift_evolve
PRO
1
140
30万人の同時アクセスに耐えたい!新サービスの盤石なリリースを支える負荷試験 / SRE Kaigi 2026
genda
4
1.4k
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
730
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
GraphQLとの向き合い方2022年版
quramy
50
14k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.2k
How to train your dragon (web standard)
notwaldorf
97
6.5k
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Amusing Abliteration
ianozsvald
0
100
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
70
Claude Code のすすめ
schroneko
67
210k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Cost Of JavaScript in 2023
addyosmani
55
9.5k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
170
Transcript
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze
Estimation 2025/10/14 Spatial AI Network勉強会 京都⼯芸繊維⼤学 橋本和希 Authors: Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue,Boeun Kim, Feng Lu, Hyung Jin Chang Venue: CVPR 2025 Web: https://www.yihua.zone/work/gaze322/
デモ 2 Ground truth 推論値 https://www.yihua.zone/work/gaze322/
概要 3 What ⾼精度でスクリーン‧カメラ間の外部キャリブレー ションが不要な2次元注視点推定⼿法の提案 Why 従来の⼿法は外部キャリブレーションが煩雑であったり, 特定環境でしか精度が出ないから How 実⾏時の少数枚の画像を⽤いて学習済みの3次元視線
⽅向推定器をファインチューニングする
視線推定の例 4 3次元視線⽅向推定(接写型) Pupil labs apple vision pro canon EOS
R3 ⾒ている場所にフォーカス ⾒ている場所がカーソル https://global.canon/ja/quality/story/2021-eye-control-af.html https://www.apple.com/jp/newsroom/2023/06/introducing-apple-vision-pro/ https://docs.pupil-labs.com/ https://docs.pupil-labs.com/
視線計測の例 3次元視線⽅向推定(俯瞰カメラ) 5 Dynamic 3D Gaze from Afar:Deep Gaze Estimation
from Temporal Eye-Head-Body CoordinationPermalink[Soma Nonaka+ , CVPR2022] Gaze estimation using transformer [ Yihua Cheng+, ICPR2022]
視線計測の例 6 2次元注視点計測(画像内) Object-aware Gaze Target Detection[Francesco Tonini+ , ICCV
2023]
視線計測の例 7 2次元注視点推定 https://www.tobii.com/ja
視線推定⼿法 8 3次元視線⽅向推定 視線推定 画像内での2次元注視点推定 深層学習 3次元視線⽅向を⽤いて幾何的に 本研究での視線計測 画像外の平⾯上の 2次元注視点推定
従来の2次元注視点推定 9 深層学習: スクリーンサイズやカメラとスクリーンの位置関係(姿勢)なども含めて学習を⾏う →カメラとスクリーンの相対姿勢に限界.(Tobiiなど) 3次元視線⽅向ベクトルを⽤いて幾何的に算出: スクリーンと視線⽅向の交点を求める →汎化するが、カメラとスクリーンのキャリブレーションが必要で精度も悪い
提案⼿法 スクリーンと視線⽅向の交点を求める⼿続きを微分可能にする 10 画像と2D注視点を使ってend-to-endに学習できる 外部キャリブレーション不要 ‧学習済みの3次元視線推定器をファインチューニング ‧スクリーンとカメラの外部パラメータを最適化対象に ‧3次元幾何に基づくデータ拡張 少数の画像で⾼精度な注視点推定
提案⼿法の全体像 11 H3D(I,β): 学習済みの3次元視線推定器(I:⼊⼒画像,β:ネットワークの重み) r,t:スクリーン‧カメラ間の外部パラメータ o:顔中⼼の3D位置(別途推定) g:視線⽅向 n:スクリーンの法線(rから導出) p:2D注視点 P
H2D
提案⼿法のアイデア 12 g = H3D(I;β) 注視点 = 視線⽅向とスクリーンとの交点 P g
o n = R[:,2] R , t H3D (1) (2) (3) (4) (5) 既存の他の⼿法で求める 交点を求める スクリーン 座標系に変換 式1-3をH2Dとする ⽬的関数 顔画像
動的擬似ラベリング戦略 左右に反転させた画像と対応する教師ラベルを⽣成し,データ拡張を⾏う 13 F(g) 注視点と顔の中⼼から,3次元視線⽅向を逆算 o p 視線⽅向ベクトルを左右反転する F(g) (6)
(7) p Q(p) 拡張後の疑似ラベル Q(p) R,t は学習時変化するため,擬似ラベルも動的に変化する
動的擬似ラベリング戦略 この左右の反転はカメラ座標系で⾏う必要がある また,本⼿法ではスクリーンとカメラの相対姿勢 R , t だけでなく,H3D(β)も学習対象 そのため,H3D(β)が出⼒するベクトルの座標系は変化する可能性がある 14 H3D(β)からカメラ座標系に変換する回転⾏列を取得する必要がある
動的擬似ラベリング戦略 追加学習をしていない初期H3D(β0 )はカメラ座標系である そのため,現在のH3D(β)から初期H3D(β0)に変換する回転⾏列 T を別途取得する 15 この式はOrthogonal Procrustes problemそのものであり,SVDで解くことができる
T = VUT 疑似ラベルQ(p)は (8) (9) (10) (11) 解決⽅法
データ拡張 16 カラージッターを⽤いた,データ拡張を⾏う (12) https://wiki.cloudfactory.com/docs/mp-wiki/augmentations/color-jitter データ拡張
実験設定 評価データ : MPIIGaze[Appearance-based gaze estimation in the wild, Xucong
Zhang+, CVPR2015] EVE[Towards end-to-end video-based eye-tracking, Seonwook Park+, ECCV2020], GazeCapture[Eye tracking for everyone, Kyle Krafka+, CVPR2016] 学習枚数 : 10枚 17 MPIIGaze(ノートPC) EVE(デスクトップ) GazeCaputure(モバイル)
実験設定 使⽤したH3Dのネットワーク構造 : GazeTR [Yihua Cheng and Feng Lu, ICPR,
2022] 学習データセット : Gaze360 [Petr Kellnhofer+, ICCV2019] 18 Gaze360
実験設定 使⽤した3次元顔ランドマーク検出推定 : Towards fast, accurate and stable 3d dense
face alignment [Jianzhu Guo+, ECCV] 19 (5) (11) (12) ⽬的関数はこの3つ 1 0.4 0.25 重み
定量的評価 20 他の⼿法との⽐較 EFE : ⼀枚の画像から,エンドトゥーエンドで 注視点を推定する 他の⼿法と⽐較しても,⾼精度 mm IVGaze:
Transformerを⽤いたネットワーク構造 で注視点を推定する.
21 g o p カメラとスクリーンの 相対姿勢がないため Direct Projection (スクリーンとカメラの相対姿勢は既知) Direct
Learning p R(既知) t(既知) 物理ベース,H3Dを学習すると精度が向上する Learning with Known Pose
データ拡張の効果の評価結果 22 Proj : データ拡張なし PS-Label : 動的疑似ラベルを含める(+10枚) 𝓛unc :
ジッターのデータ拡張を含める(+40枚) ⼤きな精度向上はみられない
Tを⽤いる必要性 Tを導⼊した擬似ラベル Tを導⼊しない擬似ラベル データセットのラベル 擬似ラベルの正解 Tを導⼊したほうが擬似ラベルの精度が上がる
Tを⽤いる必要性 24 変換⾏列Tの影響を評価する RAT[Generalizing gaze estimation with rotation consistency, Yiwei
bao+, CVPR2022] : 既存の擬似ラベリング⼿法 w/o Pseudo-Label : 擬似ラベルなし Ours(w/o T) : 動的擬似ラベルを回転⾏列Tなしで⽣成した場合 Ours : 本⼿法 擬似ラベルを⽣成する際,Tは必要
変換⾏列Tと顔3D位置oの関係 25 2D 2D 3D 3D 3D 3D 動的擬似ラベル⽣成の流れ 座標系
カメラ カメラ H3D H3D 反転F(g) T T -1 H3D カメラ カメラ H3D o p p Q(p) • R,tはH3D(βk)の出⼒gと同時最適化されるので,βk座標系のはず • oはβk座標系であるべきだが,β0座標系(カメラ座標系)で固定されているはず • 学習中もoはβ0座標系のままなので,数式としてはおかしいが,このoに合うように学習がと にかく進んでいるので,逆投影も成⽴する? oもTで変換するべきでは?
まとめ 26 What スクリーンとカメラのキャリブレーションなしの⾼精 度な2次元注視点推定⼿法の提案 Why 従来の⼿法はキャリブレーションが煩雑であったり, 特定環境でしか精度が出ないという実⽤上の課題が あったため How
実⾏時の少数枚の画像を⽤いて,学習済みの3次元視 線⽅向推定器をファインチューニングする Ground truth 推論値 https://www.yihua.zone/work/gaze322/