Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Lost & Found: Tracking Changes from Egocentric ...
Search
Spatial AI Network
June 02, 2025
0
20
Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs
- 1人称視点カメラを用いた3Dシーングラフでの変化追跡
- 既存のRGB-D手法を上回る物体姿勢追跡が可能に
Spatial AI Network
June 02, 2025
Tweet
Share
More Decks by Spatial AI Network
See All by Spatial AI Network
HiMoR: Monocular Deformable Gaussian Reconstruction with Hierarchical Motion Representation
spatial_ai_network
0
24
Stable Virtual Camera:Generative View Synthesis with Diffusion Models
spatial_ai_network
0
27
MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion (CVPR 2025)
spatial_ai_network
0
91
Continuous 3D Perception Model with Persistent State
spatial_ai_network
1
95
Sort-free Gaussian Splatting via Weighted Sum Rendering [ICLR 2025]
spatial_ai_network
0
130
Horizon-GS: Unified 3D Gaussian Splatting for Large-Scale Aerial-to-Ground Scenes
spatial_ai_network
0
62
Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction
spatial_ai_network
0
91
VGGT: Visual Geometry Grounded Transformer
spatial_ai_network
1
410
Blurred LiDAR for Sharper 3D: Robust Handheld 3D Scanning with Diffuse LiDAR and RGB
spatial_ai_network
0
69
Featured
See All Featured
Site-Speed That Sticks
csswizardry
10
640
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
6
700
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
123
52k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
We Have a Design System, Now What?
morganepeng
52
7.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.7k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
A designer walks into a library…
pauljervisheath
206
24k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
Transcript
Lost & Found: Tracking Changes from Egocentric Observations in 3D
Dynamic Scene Graphs 2025/5/20 Spatial AI Network勉強会 京都⼯芸繊維⼤学 中井 健太 Authors: Tjark Behrens, René Zurbrügg, Marc Pollefeys, Zuria Bauer, Hermann Blum Venue: RA-L 2025 Web: https://behretj.github.io/LostAndFound/
研究の動機:実世界で「働く」ロボットの実現 Lost & Found は「記憶と思考の地図」を作る研究 2 π 0 : Our
First Generalist Policy
デモ 3
概要 What 1⼈称視点カメラを⽤いた3Dシーングラフでの変化追跡 Why 従来の研究は環境を静的シーンに限定。動的である現実世界への適応は難しい How 1⼈称視点から⾒た⼿の位置情報を使って、物体を追跡し動的に3Dシーングラ フを更新 4 https://i.gzn.jp/img/2020/09/17/facebook-ar-smart-glasses-project-aria/s0071.png
背景と課題 • 従来はカメラ視野外で発⽣した変化を検出 • 引き出しにしまった物体などは静的マップでは追跡不能 • 動的シーンの既存の⼿法はカメラ台数‧センサ依存が強い 5
関連研究 6 • 3D Instance Segmentation • 3D Scene Graphs
• Object Pose Tracking • Hand-Object Interactions • Dynamic Semantic SLAM
関連研究:3D Instance Segmentation • シーン内の物体を個別に認識‧分離する⼿法 • 代表的⼿法 ◦ Spherical Mask
[Shin+, CVPR 2024] ◦ Mask3D [Schult+, CVPR 2022] ◦ OneFormer3D [Kolodiazhnyi+, CVPR 2024] 7
関連研究:3D Instance Segmentation Mask3D [Schult+, CVPR 2022] 8 本⼿法では初期シーングラフのノード(物体インスタンス)を構築する
関連研究:3D Scene Graphs • 3Dシーンをノードとエッジで表現するグラフ構造 ◦ ノード:部屋や物体 ◦ エッジ:空間的・意味的関係 •
代表的⼿法 ◦ ConceptGraphs [Gu+, ICRA 2024] ◦ DSGs: Dynamic Scene Graphs [Rosinol+, 2020] 9
関連研究:3D Scene Graphs Dynamic Scene Graphs [Rosinol+, 2020] 10 本⼿法では物体の動きも含めて動的に更新可能なシーングラフを提案
関連研究:3D Scene Graphs Spot-Compose [Lemke+, 2024] 11 本研究ではこの⼿法の引き出し検出を利⽤して、引き出しをノードとして追加する
関連研究:Object Pose Tracking • 画像や点群から物体の位置や回転を推定する • 代表的⼿法の分類 ◦ RGB画像ベース:2D-3D対応点を使いPnPで姿勢推定 ◦
RGB-Dベース:深度情報やCADモデルを使う手法。高精度だが、実環境への 対応が難しい 12
関連研究:Object Pose Tracking • モデルフリー⽅式 ◦ Bundle Track [Wen+, IROS
2021] ◦ BundleSDF [Wen+, CVPR 2023] • モデルベース⽅式 ◦ FoundationPose [Wen+, CVPR 2024] 13 本⼿法ではRGB-Dを使⽤せず、Hand-Object Interactionsを使⽤する BundleTrack BundleSDF FoundationPose
関連研究:Hand-Object Interactions • ⼿と物体の接触を検出することで、アクション認識や物体の情報理解に応⽤ • 課題 ◦ 手が視界を遮る/高速動作/背景の雑音が原因で難しい • 代表的⼿法
◦ Understanding Human Hands in Contact at Internet Scale [Shan+, CVPR 2020] 14
関連研究:Hand-Object Interactions Understanding Human Hands in Contact at Internet Scale
[Shan+, CVPR 2020] 15 この手法を使用して、物体とのインタラクション開始・終了を識別
関連研究:Dynamic Semantic SLAM • 時間的に変化するセマンティックなマップを扱うSLAM • 代表的⼿法 ◦ Khronos [Schmid+,
2024] ◦ MID-Fusion [Xu+, ICRA 2019] 16
関連研究:Dynamic Semantic SLAM Khronos [Schmid+, 2024] 17 本⼿法ではカメラ視野内の動的変化に注⽬
関連研究:Dynamic Semantic SLAM MID-Fusion [Xu+, ICRA 2019] 18 本⼿法ではRGB-Dなしで物体の追跡とマップの更新を実現
本研究での貢献 • ⼀⼈称視点映像と⼿の位置のみで姿勢追跡 • 動的シーングラフを構築‧更新 • ロボットへの応⽤(Teach & Repeat) 19
提案⼿法:アルゴリズム 20
提案⼿法:シーングラフ構造 • ノード:物体インスタンス • エッジ:「close to」「part of」「contains」などの関係 • データ構造:ノードリスト、エッジの隣接リスト、ノード重⼼を含むk-d tree
21
提案⼿法:シーングラフの初期化 • iPadでスキャン→Mask3Dでインスタンスセグメンテーション ◦ RGB画像からも物体検出して 3D点群に投影 →Mask3Dで取りこぼしたオブジェクトもシーングラフに取り込める • Spot-Compose [Lemke+,
2024]を使⽤して引き出しを検出 22
提案⼿法:Hand-Object Interaction検出 • ⼊⼒:各フレームごとの映像、⼿の位置(Aria)、2D接触予測[Shan,2020] • 出⼒:インタラクションの開始/終了フレーム特定 • 条件:2D検出+3D距離+⼿の速度変化 ◦ 開始:2D上で手と物体の接触検出+3D距離が10cm以内
◦ 終了:手の速度変化(物体を持っている間は一定・置いた後に加速) 23
提案⼿法:物体姿勢推定と追跡 • 回転:2D-3D対応点→PnPで姿勢推定 • 並進:⼿と物体の初期オフセットを使って更新 • 同時に複数⼿‧複数物体の追跡が可能 24
提案⼿法:実装詳細 • デバイス ◦ Ariaグラス:RGB映像、カメラ姿勢、手の3D位置 ◦ iPad Pro + スキャンアプリ
• ⼀⼈称映像とシーングラフの位置合わせ ◦ ArUco marker + ICP • インタラクション検出 ◦ 前後8フレームを分析 ◦ 1.15秒の遅延 25
評価実験:実験設定 • Vicon モーションキャプチャーを使⽤して真値を得る • 各オブジェクトに対して約10種類の軌跡でpick&placeを⾏う • 真値は広⾓‧固定カメラで記録 ⇔ 評価対象はAriaカメラフレームで追跡 ◦ Ariaグラスにマーカーを付け、それぞれの軌跡を位置合わせ
26 https://www.tobii.com/ja/products/accessories/ motion-capture https://mocapdb.com/wp-content/uploads/2024/0 6/ValkyrieVK26_02.png
評価実験:⽐較⼿法 • ⽐較対象 ◦ BundleTrack, BundleSDF:RGB-Dと物体マスク ◦ FoundationPose:Transformerベース、CADモデル ◦ HeadPose:Ariaのカメラ姿勢と手の位置のみ
• ⼊⼒条件の統⼀(深度‧マスク‧トラッキング区間) ◦ 深度:Metric3Dv2[Hu, 2024] ◦ マスク:SAM2[Ravi, 2024] 27
評価実験:追跡精度の定量的評価 • 最も精度が⾼く、滑らかな軌跡を⽣成 28 ⻘:最も良いスコア ⽔⾊:2番⽬に良いスコア
評価実験:最終ポーズとフレームレート評価 • Lost & Found が速度‧精度ともに⾼評価 29
アブレーションと考察 • ⼿の位置情報を使わない場合の精度⽐較 • ⼿の情報を使うと精度が上がるが、なくてもある程度追跡可能 30
ロボット応⽤ 31
まとめ • ⼀⼈称視点での物体追跡をScene Graphで管理 • 既存のRGB-D⼿法を上回る追跡が可能 • 今後は視野外の変化検出や変形物体対応が課題 32