[Paper Introduction] Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

論文紹介: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
Symbol Emergence System Lab. Name: Taiki Kuwada 1

論文情報 • Title: Robotic Manipulation by Imitating Generated Videos Without
Physical Demonstrations • Author: Shivansh Patel et al. • Pub. date: 29 May 2025, FMEA @ CVPR 2025 Oral • Link: https://arxiv.org/abs/2507.00990 2

背景 • 問題提起 • マニュピレーションタスクにおけるロボットの実データを取集することは大変。 • 特に、データ収集時に実験環境(ロボットの種類やカメラ位置など)を厳密に揃えながら行う必要があることが大変。 •
背景 • 最新の動画生成モデルであるSORAやKlingを使うことで、言語と画像を入力として現実と遜色ない動画を生成できる。 • しかし、生成された動画は一見よく見えても実行不可能な動画も多く、先行研究では実データと組み合わせるなどの工夫がなされている。 3

研究目標 • 研究目標 • この論文では、タスクに特化しているような実データを使わずに、生成された動画だけを使ってマニュピレーションタスクを可能にすることを目標としている。 • 貢献 •
生成した動画だけで実世界でのタスクを可能にするモデルの提案 • 生成した動画が実際の動画と同等の性能を発揮することの検証 • 6Dの物体軌跡を利用して動作を決定することの優位性を検証 4

提案手法: 概要 1. 動画生成と深度推定 2. 物体の6Dポーズでの軌跡の計算 3. 物体の軌跡をロボットの軌跡として再現 5
• 入力 • RGB-D画像 • タスクの言語指示 • 対象の物体メッシュ

提案手法: 動画生成と深度推定 6 1. RGB画像とタスクから動画生成(SORA, Kling) 2. タスクを達成している動画を選択(VLM)
3. 生成された動画の深度を予測(RollingDepth) 4. 入力の深度からスケールの調整

提案手法:物体の6Dポーズでの軌跡の計算 7 1. 画像とタスクから移動させる物体を特定(GPT-4o) 2. 物体のマスクを作成 (Grounding DINO, SAM-2)
3. 物体メッシュを使って物体の6Dポーズを追跡* (FoundationPose) *付録に物体メッシュなしの手法も提案(ただし動作速度が実用的でない)

提案手法: 物体の軌跡をロボットの軌跡として再現 8 1. 把持位置として適切な位置を特定、把持(AnyGrasp) 2. 物体の動きをアームの動きに変換してアームの軌道を計算
3. 継続的な6Dポーズの追跡により物体やロボットのズレを修正可能にする

実験: 生成した動画と実際の動画の比較タスクの達成に関してGPT o1と人間の評価の相関 Pour Water Lift Lid Place Spatula
Sweep Trash Average 0.91 0.91 0.91 0.66 0.84 9 • タスク達成に関する人間とVLMの評価には高い相関がある • 人間が達成を認めVLMが達成を認めないケースで違いが生じており、モデルへの影響は小さい • 生成動画と実演動画で比較した結果、遜色ない成功率を達成している。

実験: 6Dポーズ以外で軌跡を決定する手法との比較 • 生成における計算コストがより低い手法との比較 • ReKep: VLMを使ってより効率な表現でロボットの軌跡を決定する手法 • 異なる方法でアームの軌跡を計算する手法との比較 •
Track2Act: 初期画像と目標画像から直線の軌道を計算する手法 • AVDC: フレーム間から物体の最適なフローを計算する手法 • 4D-DPM: 物体を特徴ベクトルに変換して軌跡を出力する手法 • Gen2Act: スパースな特徴点の軌跡を計算する手法として利用 • 結論: 現状のVLMでは生成動画を用いる方が成功率が高く、物体の6Dポーズの軌跡を用いる提案手法の成功率が最も高い 10

結論と貢献 • 貢献 • 生成した動画だけで実世界でのタスクを可能にするモデルの提案 • 生成した動画が実際の動画と同等の性能を発揮することの検証 • 6Dの物体軌跡を利用して動作を決定することの優位性を検証 •
結論 • デモンストレーションを必要としない新しいモデルを提案し、生成ビデオの密な視覚的・時間的手がかりが信頼性の高い性能をもたらすことを確認した。 11

[Paper Introduction] Robotic Manipulation by Im...

[Paper Introduction] Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

T. Kuwada

Featured

Transcript

論文紹介: Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations

論文情報 • Title: Robotic Manipulation by Imitating Generated Videos Without

背景 • 問題提起 • マニュピレーションタスクにおけるロボットの実データを取集することは大変。 • 特に、データ収集時に実験環境(ロボットの種類やカメラ位置など)を厳密に揃えながら行う必要があることが大変。 •

研究目標 • 研究目標 • この論文では、タスクに特化しているような実データを使わずに、生成された動画だけを使ってマニュピレーションタスクを可能にすることを目標としている。 • 貢献 •

提案手法: 概要 1. 動画生成と深度推定 2. 物体の6Dポーズでの軌跡の計算 3. 物体の軌跡をロボットの軌跡として再現 5

提案手法: 動画生成と深度推定 6 1. RGB画像とタスクから動画生成(SORA, Kling) 2. タスクを達成している動画を選択(VLM)

提案手法:物体の6Dポーズでの軌跡の計算 7 1. 画像とタスクから移動させる物体を特定(GPT-4o) 2. 物体のマスクを作成 (Grounding DINO, SAM-2)

提案手法: 物体の軌跡をロボットの軌跡として再現 8 1. 把持位置として適切な位置を特定、把持(AnyGrasp) 2. 物体の動きをアームの動きに変換してアームの軌道を計算

実験: 生成した動画と実際の動画の比較タスクの達成に関してGPT o1と人間の評価の相関 Pour Water Lift Lid Place Spatula

結論と貢献 • 貢献 • 生成した動画だけで実世界でのタスクを可能にするモデルの提案 • 生成した動画が実際の動画と同等の性能を発揮することの検証 • 6Dの物体軌跡を利用して動作を決定することの優位性を検証 •