Slide 1

Slide 1 text

Lost & Found: Tracking Changes from Egocentric Observations in 3D Dynamic Scene Graphs 2025/5/20 Spatial AI Network勉強会 京都⼯芸繊維⼤学 中井 健太 Authors: Tjark Behrens, René Zurbrügg, Marc Pollefeys, Zuria Bauer, Hermann Blum Venue: RA-L 2025 Web: https://behretj.github.io/LostAndFound/

Slide 2

Slide 2 text

研究の動機:実世界で「働く」ロボットの実現 Lost & Found は「記憶と思考の地図」を作る研究 2 π 0 : Our First Generalist Policy

Slide 3

Slide 3 text

デモ 3

Slide 4

Slide 4 text

概要 What 1⼈称視点カメラを⽤いた3Dシーングラフでの変化追跡 Why 従来の研究は環境を静的シーンに限定。動的である現実世界への適応は難しい How 1⼈称視点から⾒た⼿の位置情報を使って、物体を追跡し動的に3Dシーングラ フを更新 4 https://i.gzn.jp/img/2020/09/17/facebook-ar-smart-glasses-project-aria/s0071.png

Slide 5

Slide 5 text

背景と課題 ● 従来はカメラ視野外で発⽣した変化を検出 ● 引き出しにしまった物体などは静的マップでは追跡不能 ● 動的シーンの既存の⼿法はカメラ台数‧センサ依存が強い 5

Slide 6

Slide 6 text

関連研究 6 ● 3D Instance Segmentation ● 3D Scene Graphs ● Object Pose Tracking ● Hand-Object Interactions ● Dynamic Semantic SLAM

Slide 7

Slide 7 text

関連研究:3D Instance Segmentation ● シーン内の物体を個別に認識‧分離する⼿法 ● 代表的⼿法 ○ Spherical Mask [Shin+, CVPR 2024] ○ Mask3D [Schult+, CVPR 2022] ○ OneFormer3D [Kolodiazhnyi+, CVPR 2024] 7

Slide 8

Slide 8 text

関連研究:3D Instance Segmentation Mask3D [Schult+, CVPR 2022] 8 本⼿法では初期シーングラフのノード(物体インスタンス)を構築する

Slide 9

Slide 9 text

関連研究:3D Scene Graphs ● 3Dシーンをノードとエッジで表現するグラフ構造 ○ ノード:部屋や物体 ○ エッジ:空間的・意味的関係 ● 代表的⼿法 ○ ConceptGraphs [Gu+, ICRA 2024] ○ DSGs: Dynamic Scene Graphs [Rosinol+, 2020] 9

Slide 10

Slide 10 text

関連研究:3D Scene Graphs Dynamic Scene Graphs [Rosinol+, 2020] 10 本⼿法では物体の動きも含めて動的に更新可能なシーングラフを提案

Slide 11

Slide 11 text

関連研究:3D Scene Graphs Spot-Compose [Lemke+, 2024] 11 本研究ではこの⼿法の引き出し検出を利⽤して、引き出しをノードとして追加する

Slide 12

Slide 12 text

関連研究:Object Pose Tracking ● 画像や点群から物体の位置や回転を推定する ● 代表的⼿法の分類 ○ RGB画像ベース:2D-3D対応点を使いPnPで姿勢推定 ○ RGB-Dベース:深度情報やCADモデルを使う手法。高精度だが、実環境への 対応が難しい 12

Slide 13

Slide 13 text

関連研究:Object Pose Tracking ● モデルフリー⽅式 ○ Bundle Track [Wen+, IROS 2021] ○ BundleSDF [Wen+, CVPR 2023] ● モデルベース⽅式 ○ FoundationPose [Wen+, CVPR 2024] 13 本⼿法ではRGB-Dを使⽤せず、Hand-Object Interactionsを使⽤する BundleTrack BundleSDF FoundationPose

Slide 14

Slide 14 text

関連研究:Hand-Object Interactions ● ⼿と物体の接触を検出することで、アクション認識や物体の情報理解に応⽤ ● 課題 ○ 手が視界を遮る/高速動作/背景の雑音が原因で難しい ● 代表的⼿法 ○ Understanding Human Hands in Contact at Internet Scale [Shan+, CVPR 2020] 14

Slide 15

Slide 15 text

関連研究:Hand-Object Interactions Understanding Human Hands in Contact at Internet Scale [Shan+, CVPR 2020] 15 この手法を使用して、物体とのインタラクション開始・終了を識別

Slide 16

Slide 16 text

関連研究:Dynamic Semantic SLAM ● 時間的に変化するセマンティックなマップを扱うSLAM ● 代表的⼿法 ○ Khronos [Schmid+, 2024] ○ MID-Fusion [Xu+, ICRA 2019] 16

Slide 17

Slide 17 text

関連研究:Dynamic Semantic SLAM Khronos [Schmid+, 2024] 17 本⼿法ではカメラ視野内の動的変化に注⽬

Slide 18

Slide 18 text

関連研究:Dynamic Semantic SLAM MID-Fusion [Xu+, ICRA 2019] 18 本⼿法ではRGB-Dなしで物体の追跡とマップの更新を実現

Slide 19

Slide 19 text

本研究での貢献 ● ⼀⼈称視点映像と⼿の位置のみで姿勢追跡 ● 動的シーングラフを構築‧更新 ● ロボットへの応⽤(Teach & Repeat) 19

Slide 20

Slide 20 text

提案⼿法:アルゴリズム 20

Slide 21

Slide 21 text

提案⼿法:シーングラフ構造 ● ノード:物体インスタンス ● エッジ:「close to」「part of」「contains」などの関係 ● データ構造:ノードリスト、エッジの隣接リスト、ノード重⼼を含むk-d tree 21

Slide 22

Slide 22 text

提案⼿法:シーングラフの初期化 ● iPadでスキャン→Mask3Dでインスタンスセグメンテーション ○ RGB画像からも物体検出して 3D点群に投影 →Mask3Dで取りこぼしたオブジェクトもシーングラフに取り込める ● Spot-Compose [Lemke+, 2024]を使⽤して引き出しを検出 22

Slide 23

Slide 23 text

提案⼿法:Hand-Object Interaction検出 ● ⼊⼒:各フレームごとの映像、⼿の位置(Aria)、2D接触予測[Shan,2020] ● 出⼒:インタラクションの開始/終了フレーム特定 ● 条件:2D検出+3D距離+⼿の速度変化 ○ 開始:2D上で手と物体の接触検出+3D距離が10cm以内 ○ 終了:手の速度変化(物体を持っている間は一定・置いた後に加速) 23

Slide 24

Slide 24 text

提案⼿法:物体姿勢推定と追跡 ● 回転:2D-3D対応点→PnPで姿勢推定 ● 並進:⼿と物体の初期オフセットを使って更新 ● 同時に複数⼿‧複数物体の追跡が可能 24

Slide 25

Slide 25 text

提案⼿法:実装詳細 ● デバイス ○ Ariaグラス:RGB映像、カメラ姿勢、手の3D位置 ○ iPad Pro + スキャンアプリ ● ⼀⼈称映像とシーングラフの位置合わせ ○ ArUco marker + ICP ● インタラクション検出 ○ 前後8フレームを分析 ○ 1.15秒の遅延 25

Slide 26

Slide 26 text

評価実験:実験設定 ● Vicon モーションキャプチャーを使⽤して真値を得る ● 各オブジェクトに対して約10種類の軌跡でpick&placeを⾏う ● 真値は広⾓‧固定カメラで記録 ⇔ 評価対象はAriaカメラフレームで追跡 ○ Ariaグラスにマーカーを付け、それぞれの軌跡を位置合わせ 26 https://www.tobii.com/ja/products/accessories/ motion-capture https://mocapdb.com/wp-content/uploads/2024/0 6/ValkyrieVK26_02.png

Slide 27

Slide 27 text

評価実験:⽐較⼿法 ● ⽐較対象 ○ BundleTrack, BundleSDF:RGB-Dと物体マスク ○ FoundationPose:Transformerベース、CADモデル ○ HeadPose:Ariaのカメラ姿勢と手の位置のみ ● ⼊⼒条件の統⼀(深度‧マスク‧トラッキング区間) ○ 深度:Metric3Dv2[Hu, 2024] ○ マスク:SAM2[Ravi, 2024] 27

Slide 28

Slide 28 text

評価実験:追跡精度の定量的評価 ● 最も精度が⾼く、滑らかな軌跡を⽣成 28 ⻘:最も良いスコア ⽔⾊:2番⽬に良いスコア

Slide 29

Slide 29 text

評価実験:最終ポーズとフレームレート評価 ● Lost & Found が速度‧精度ともに⾼評価 29

Slide 30

Slide 30 text

アブレーションと考察 ● ⼿の位置情報を使わない場合の精度⽐較 ● ⼿の情報を使うと精度が上がるが、なくてもある程度追跡可能 30

Slide 31

Slide 31 text

ロボット応⽤ 31

Slide 32

Slide 32 text

まとめ ● ⼀⼈称視点での物体追跡をScene Graphで管理 ● 既存のRGB-D⼿法を上回る追跡が可能 ● 今後は視野外の変化検出や変形物体対応が課題 32