Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

Lost & Found: Tracking Changes from Egocentric Observations in 3D
Dynamic Scene Graphs 2025/5/20 Spatial AI Network勉強会京都⼯芸繊維⼤学中井健太 Authors: Tjark Behrens, René Zurbrügg, Marc Pollefeys, Zuria Bauer, Hermann Blum Venue: RA-L 2025 Web: https://behretj.github.io/LostAndFound/

研究の動機：実世界で「働く」ロボットの実現 Lost & Found は「記憶と思考の地図」を作る研究 2 π 0 : Our
First Generalist Policy

デモ 3

概要 What 1⼈称視点カメラを⽤いた３Dシーングラフでの変化追跡 Why 従来の研究は環境を静的シーンに限定。動的である現実世界への適応は難しい How 1⼈称視点から⾒た⼿の位置情報を使って、物体を追跡し動的に3Dシーングラフを更新 4 https://i.gzn.jp/img/2020/09/17/facebook-ar-smart-glasses-project-aria/s0071.png

背景と課題 • 従来はカメラ視野外で発⽣した変化を検出 • 引き出しにしまった物体などは静的マップでは追跡不能 • 動的シーンの既存の⼿法はカメラ台数‧センサ依存が強い 5

関連研究 6 • 3D Instance Segmentation • 3D Scene Graphs
• Object Pose Tracking • Hand-Object Interactions • Dynamic Semantic SLAM

関連研究：3D Instance Segmentation • シーン内の物体を個別に認識‧分離する⼿法 • 代表的⼿法 ◦ Spherical Mask
[Shin+, CVPR 2024] ◦ Mask3D [Schult+, CVPR 2022] ◦ OneFormer3D [Kolodiazhnyi+, CVPR 2024] 7

関連研究：3D Instance Segmentation Mask3D [Schult+, CVPR 2022] 8 本⼿法では初期シーングラフのノード（物体インスタンス）を構築する

関連研究：3D Scene Graphs • 3Dシーンをノードとエッジで表現するグラフ構造 ◦ ノード：部屋や物体 ◦ エッジ：空間的・意味的関係 •
代表的⼿法 ◦ ConceptGraphs [Gu+, ICRA 2024] ◦ DSGs: Dynamic Scene Graphs [Rosinol+, 2020] 9

関連研究：3D Scene Graphs Dynamic Scene Graphs [Rosinol+, 2020] 10 本⼿法では物体の動きも含めて動的に更新可能なシーングラフを提案

関連研究：3D Scene Graphs Spot-Compose [Lemke+, 2024] 11 本研究ではこの⼿法の引き出し検出を利⽤して、引き出しをノードとして追加する

関連研究：Object Pose Tracking • 画像や点群から物体の位置や回転を推定する • 代表的⼿法の分類 ◦ RGB画像ベース：2D-3D対応点を使いPnPで姿勢推定 ◦
RGB-Dベース：深度情報やCADモデルを使う手法。高精度だが、実環境への対応が難しい 12

関連研究：Object Pose Tracking • モデルフリー⽅式 ◦ Bundle Track [Wen+, IROS
2021] ◦ BundleSDF [Wen+, CVPR 2023] • モデルベース⽅式 ◦ FoundationPose [Wen+, CVPR 2024] 13 本⼿法ではRGB-Dを使⽤せず、Hand-Object Interactionsを使⽤する BundleTrack BundleSDF FoundationPose

関連研究：Hand-Object Interactions • ⼿と物体の接触を検出することで、アクション認識や物体の情報理解に応⽤ • 課題 ◦ 手が視界を遮る/高速動作/背景の雑音が原因で難しい • 代表的⼿法
◦ Understanding Human Hands in Contact at Internet Scale [Shan+, CVPR 2020] 14

関連研究：Hand-Object Interactions Understanding Human Hands in Contact at Internet Scale
[Shan+, CVPR 2020] 15 この手法を使用して、物体とのインタラクション開始・終了を識別

関連研究：Dynamic Semantic SLAM • 時間的に変化するセマンティックなマップを扱うSLAM • 代表的⼿法 ◦ Khronos [Schmid+,
2024] ◦ MID-Fusion [Xu+, ICRA 2019] 16

関連研究：Dynamic Semantic SLAM Khronos [Schmid+, 2024] 17 本⼿法ではカメラ視野内の動的変化に注⽬

関連研究：Dynamic Semantic SLAM MID-Fusion [Xu+, ICRA 2019] 18 本⼿法ではRGB-Dなしで物体の追跡とマップの更新を実現

本研究での貢献 • ⼀⼈称視点映像と⼿の位置のみで姿勢追跡 • 動的シーングラフを構築‧更新 • ロボットへの応⽤（Teach & Repeat） 19

提案⼿法：アルゴリズム 20

提案⼿法：シーングラフ構造 • ノード：物体インスタンス • エッジ：「close to」「part of」「contains」などの関係 • データ構造：ノードリスト、エッジの隣接リスト、ノード重⼼を含むk-d tree
21

提案⼿法：シーングラフの初期化 • iPadでスキャン→Mask3Dでインスタンスセグメンテーション ◦ RGB画像からも物体検出して 3D点群に投影 →Mask3Dで取りこぼしたオブジェクトもシーングラフに取り込める • Spot-Compose [Lemke+,
2024]を使⽤して引き出しを検出 22

提案⼿法：Hand-Object Interaction検出 • ⼊⼒：各フレームごとの映像、⼿の位置(Aria)、2D接触予測[Shan,2020] • 出⼒：インタラクションの開始/終了フレーム特定 • 条件：2D検出＋3D距離+⼿の速度変化 ◦ 開始：2D上で手と物体の接触検出＋3D距離が10cm以内
◦ 終了：手の速度変化（物体を持っている間は一定・置いた後に加速） 23

提案⼿法：物体姿勢推定と追跡 • 回転：2D-3D対応点→PnPで姿勢推定 • 並進：⼿と物体の初期オフセットを使って更新 • 同時に複数⼿‧複数物体の追跡が可能 24

提案⼿法：実装詳細 • デバイス ◦ Ariaグラス：RGB映像、カメラ姿勢、手の3D位置 ◦ iPad Pro + スキャンアプリ
• ⼀⼈称映像とシーングラフの位置合わせ ◦ ArUco marker + ICP • インタラクション検出 ◦ 前後8フレームを分析 ◦ 1.15秒の遅延 25

評価実験：実験設定 • Vicon モーションキャプチャーを使⽤して真値を得る • 各オブジェクトに対して約10種類の軌跡でpick&placeを⾏う • 真値は広⾓‧固定カメラで記録 ⇔ 評価対象はAriaカメラフレームで追跡 ◦ Ariaグラスにマーカーを付け、それぞれの軌跡を位置合わせ
26 https://www.tobii.com/ja/products/accessories/ motion-capture https://mocapdb.com/wp-content/uploads/2024/0 6/ValkyrieVK26_02.png

評価実験：⽐較⼿法 • ⽐較対象 ◦ BundleTrack, BundleSDF：RGB-Dと物体マスク ◦ FoundationPose：Transformerベース、CADモデル ◦ HeadPose：Ariaのカメラ姿勢と手の位置のみ
• ⼊⼒条件の統⼀（深度‧マスク‧トラッキング区間） ◦ 深度：Metric3Dv2[Hu, 2024] ◦ マスク：SAM2[Ravi, 2024] 27

評価実験：追跡精度の定量的評価 • 最も精度が⾼く、滑らかな軌跡を⽣成 28 ⻘：最も良いスコア⽔⾊：２番⽬に良いスコア

評価実験：最終ポーズとフレームレート評価 • Lost & Found が速度‧精度ともに⾼評価 29

アブレーションと考察 • ⼿の位置情報を使わない場合の精度⽐較 • ⼿の情報を使うと精度が上がるが、なくてもある程度追跡可能 30

ロボット応⽤ 31

まとめ • ⼀⼈称視点での物体追跡をScene Graphで管理 • 既存のRGB-D⼿法を上回る追跡が可能 • 今後は視野外の変化検出や変形物体対応が課題 32

Lost & Found: Tracking Changes from Egocentric ...

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs

Spatial AI Network

More Decks by Spatial AI Network

Featured

Transcript