Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
3D Prior is All You Need: Cross-Task Few-shot 2...
Search
Spatial AI Network
November 04, 2025
Technology
0
30
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
学習済みの3次元視線方向推定モデルを少数枚の画像でファインチューニングすることで、スクリーンとカメラ間の外部キャリブレーションを行わずに高精度な2次元注視点推定を実現する
Spatial AI Network
November 04, 2025
Tweet
Share
More Decks by Spatial AI Network
See All by Spatial AI Network
Exploring ways to enhance robustnessof 3D reconstruction using COLMAP
spatial_ai_network
0
4
CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization
spatial_ai_network
0
9
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
spatial_ai_network
0
64
HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis
spatial_ai_network
0
39
GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces
spatial_ai_network
0
100
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
spatial_ai_network
1
85
High-Fidelity Lightweight Mesh Reconstruction from Point Clouds [CVPR 2025]
spatial_ai_network
1
130
Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling
spatial_ai_network
0
160
Variational Surface Reconstruction Using Natural Neighbors (SIGGRAPH 2025)
spatial_ai_network
0
150
Other Decks in Technology
See All in Technology
自然言語でAPI作業を片付ける!「Postman Agent Mode」
nagix
0
130
個人から巡るAI疲れと組織としてできること - AI疲れをふっとばせ。エンジニアのAI疲れ治療法 ショートセッション -
kikuchikakeru
5
1.9k
現地速報!Microsoft Ignite 2025 M365 Copilotアップデートレポート
kasada
2
1.6k
巨大モノリスのリプレイス──機能整理とハイブリッドアーキテクチャで挑んだ再構築戦略
zozotech
PRO
0
270
AI時代の戦略的アーキテクチャ 〜Adaptable AI をアーキテクチャで実現する〜 / Enabling Adaptable AI Through Strategic Architecture
bitkey
PRO
15
9.6k
Dev Containers と Skaffold で実現する クラウドネイティブ開発環境 ローカルのみという制約に挑む / Cloud-Native Development with Dev Containers and Skaffold: Tackling the Local-Only Constraint
bitkey
PRO
0
130
JJUG CCC 2025 Fall バッチ性能!!劇的ビフォーアフター
hayashiyuu1
1
410
TypeScript 6.0で非推奨化されるオプションたち
uhyo
15
4.9k
LINEギフト・LINEコマース領域の開発
lycorptech_jp
PRO
0
370
AWS Media Services 最新サービスアップデート 2025
eijikominami
0
110
事業状況で変化する最適解。進化し続ける開発組織とアーキテクチャ
caddi_eng
1
6.6k
マルチドライブアーキテクチャ: 複数の駆動力でプロダクトを前進させる
knih
0
9.5k
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
Building an army of robots
kneath
306
46k
The Cult of Friendly URLs
andyhume
79
6.7k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
We Have a Design System, Now What?
morganepeng
54
7.9k
Making the Leap to Tech Lead
cromwellryan
135
9.6k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.4k
Unsuck your backbone
ammeep
671
58k
Optimizing for Happiness
mojombo
379
70k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
22k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
680
Transcript
3D Prior is All You Need: Cross-Task Few-shot 2D Gaze
Estimation 2025/10/14 Spatial AI Network勉強会 京都⼯芸繊維⼤学 橋本和希 Authors: Yihua Cheng, Hengfei Wang, Zhongqun Zhang, Yang Yue,Boeun Kim, Feng Lu, Hyung Jin Chang Venue: CVPR 2025 Web: https://www.yihua.zone/work/gaze322/
デモ 2 Ground truth 推論値 https://www.yihua.zone/work/gaze322/
概要 3 What ⾼精度でスクリーン‧カメラ間の外部キャリブレー ションが不要な2次元注視点推定⼿法の提案 Why 従来の⼿法は外部キャリブレーションが煩雑であったり, 特定環境でしか精度が出ないから How 実⾏時の少数枚の画像を⽤いて学習済みの3次元視線
⽅向推定器をファインチューニングする
視線推定の例 4 3次元視線⽅向推定(接写型) Pupil labs apple vision pro canon EOS
R3 ⾒ている場所にフォーカス ⾒ている場所がカーソル https://global.canon/ja/quality/story/2021-eye-control-af.html https://www.apple.com/jp/newsroom/2023/06/introducing-apple-vision-pro/ https://docs.pupil-labs.com/ https://docs.pupil-labs.com/
視線計測の例 3次元視線⽅向推定(俯瞰カメラ) 5 Dynamic 3D Gaze from Afar:Deep Gaze Estimation
from Temporal Eye-Head-Body CoordinationPermalink[Soma Nonaka+ , CVPR2022] Gaze estimation using transformer [ Yihua Cheng+, ICPR2022]
視線計測の例 6 2次元注視点計測(画像内) Object-aware Gaze Target Detection[Francesco Tonini+ , ICCV
2023]
視線計測の例 7 2次元注視点推定 https://www.tobii.com/ja
視線推定⼿法 8 3次元視線⽅向推定 視線推定 画像内での2次元注視点推定 深層学習 3次元視線⽅向を⽤いて幾何的に 本研究での視線計測 画像外の平⾯上の 2次元注視点推定
従来の2次元注視点推定 9 深層学習: スクリーンサイズやカメラとスクリーンの位置関係(姿勢)なども含めて学習を⾏う →カメラとスクリーンの相対姿勢に限界.(Tobiiなど) 3次元視線⽅向ベクトルを⽤いて幾何的に算出: スクリーンと視線⽅向の交点を求める →汎化するが、カメラとスクリーンのキャリブレーションが必要で精度も悪い
提案⼿法 スクリーンと視線⽅向の交点を求める⼿続きを微分可能にする 10 画像と2D注視点を使ってend-to-endに学習できる 外部キャリブレーション不要 ‧学習済みの3次元視線推定器をファインチューニング ‧スクリーンとカメラの外部パラメータを最適化対象に ‧3次元幾何に基づくデータ拡張 少数の画像で⾼精度な注視点推定
提案⼿法の全体像 11 H3D(I,β): 学習済みの3次元視線推定器(I:⼊⼒画像,β:ネットワークの重み) r,t:スクリーン‧カメラ間の外部パラメータ o:顔中⼼の3D位置(別途推定) g:視線⽅向 n:スクリーンの法線(rから導出) p:2D注視点 P
H2D
提案⼿法のアイデア 12 g = H3D(I;β) 注視点 = 視線⽅向とスクリーンとの交点 P g
o n = R[:,2] R , t H3D (1) (2) (3) (4) (5) 既存の他の⼿法で求める 交点を求める スクリーン 座標系に変換 式1-3をH2Dとする ⽬的関数 顔画像
動的擬似ラベリング戦略 左右に反転させた画像と対応する教師ラベルを⽣成し,データ拡張を⾏う 13 F(g) 注視点と顔の中⼼から,3次元視線⽅向を逆算 o p 視線⽅向ベクトルを左右反転する F(g) (6)
(7) p Q(p) 拡張後の疑似ラベル Q(p) R,t は学習時変化するため,擬似ラベルも動的に変化する
動的擬似ラベリング戦略 この左右の反転はカメラ座標系で⾏う必要がある また,本⼿法ではスクリーンとカメラの相対姿勢 R , t だけでなく,H3D(β)も学習対象 そのため,H3D(β)が出⼒するベクトルの座標系は変化する可能性がある 14 H3D(β)からカメラ座標系に変換する回転⾏列を取得する必要がある
動的擬似ラベリング戦略 追加学習をしていない初期H3D(β0 )はカメラ座標系である そのため,現在のH3D(β)から初期H3D(β0)に変換する回転⾏列 T を別途取得する 15 この式はOrthogonal Procrustes problemそのものであり,SVDで解くことができる
T = VUT 疑似ラベルQ(p)は (8) (9) (10) (11) 解決⽅法
データ拡張 16 カラージッターを⽤いた,データ拡張を⾏う (12) https://wiki.cloudfactory.com/docs/mp-wiki/augmentations/color-jitter データ拡張
実験設定 評価データ : MPIIGaze[Appearance-based gaze estimation in the wild, Xucong
Zhang+, CVPR2015] EVE[Towards end-to-end video-based eye-tracking, Seonwook Park+, ECCV2020], GazeCapture[Eye tracking for everyone, Kyle Krafka+, CVPR2016] 学習枚数 : 10枚 17 MPIIGaze(ノートPC) EVE(デスクトップ) GazeCaputure(モバイル)
実験設定 使⽤したH3Dのネットワーク構造 : GazeTR [Yihua Cheng and Feng Lu, ICPR,
2022] 学習データセット : Gaze360 [Petr Kellnhofer+, ICCV2019] 18 Gaze360
実験設定 使⽤した3次元顔ランドマーク検出推定 : Towards fast, accurate and stable 3d dense
face alignment [Jianzhu Guo+, ECCV] 19 (5) (11) (12) ⽬的関数はこの3つ 1 0.4 0.25 重み
定量的評価 20 他の⼿法との⽐較 EFE : ⼀枚の画像から,エンドトゥーエンドで 注視点を推定する 他の⼿法と⽐較しても,⾼精度 mm IVGaze:
Transformerを⽤いたネットワーク構造 で注視点を推定する.
21 g o p カメラとスクリーンの 相対姿勢がないため Direct Projection (スクリーンとカメラの相対姿勢は既知) Direct
Learning p R(既知) t(既知) 物理ベース,H3Dを学習すると精度が向上する Learning with Known Pose
データ拡張の効果の評価結果 22 Proj : データ拡張なし PS-Label : 動的疑似ラベルを含める(+10枚) 𝓛unc :
ジッターのデータ拡張を含める(+40枚) ⼤きな精度向上はみられない
Tを⽤いる必要性 Tを導⼊した擬似ラベル Tを導⼊しない擬似ラベル データセットのラベル 擬似ラベルの正解 Tを導⼊したほうが擬似ラベルの精度が上がる
Tを⽤いる必要性 24 変換⾏列Tの影響を評価する RAT[Generalizing gaze estimation with rotation consistency, Yiwei
bao+, CVPR2022] : 既存の擬似ラベリング⼿法 w/o Pseudo-Label : 擬似ラベルなし Ours(w/o T) : 動的擬似ラベルを回転⾏列Tなしで⽣成した場合 Ours : 本⼿法 擬似ラベルを⽣成する際,Tは必要
変換⾏列Tと顔3D位置oの関係 25 2D 2D 3D 3D 3D 3D 動的擬似ラベル⽣成の流れ 座標系
カメラ カメラ H3D H3D 反転F(g) T T -1 H3D カメラ カメラ H3D o p p Q(p) • R,tはH3D(βk)の出⼒gと同時最適化されるので,βk座標系のはず • oはβk座標系であるべきだが,β0座標系(カメラ座標系)で固定されているはず • 学習中もoはβ0座標系のままなので,数式としてはおかしいが,このoに合うように学習がと にかく進んでいるので,逆投影も成⽴する? oもTで変換するべきでは?
まとめ 26 What スクリーンとカメラのキャリブレーションなしの⾼精 度な2次元注視点推定⼿法の提案 Why 従来の⼿法はキャリブレーションが煩雑であったり, 特定環境でしか精度が出ないという実⽤上の課題が あったため How
実⾏時の少数枚の画像を⽤いて,学習済みの3次元視 線⽅向推定器をファインチューニングする Ground truth 推論値 https://www.yihua.zone/work/gaze322/