Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Flow as the Cross-Domain Manipul...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

[Journal club] Flow as the Cross-Domain Manipulation Interface

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Mengda Xu1,2,3 Zhenjia Xu1,2 Yinghao Xu1 Cheng Chi1,2 Gordon Wetzstein1

    Manuela Veloso3,4 Shuran Song1,2 1Stanford University, 2Columbia University, 3J.P. Morgan AI Research, 4Carnegie Mellon University Flow as the Cross-Domain Manipulation Interface 2026 杉浊孔明研究宀 小林菖倪 Xu, Mengda., Xu, Zhenjia., Xu, Yinghao., Chi, Cheng., Wetzstein, Gordon., Veloso, Manuela., Song, Shuran. “Flow as the Cross-domain Manipulation Interface”. In 8th Conference of Robot Learning, 2024. CoRL24
  2. 抂芁 2 ▪ 背景 ▪ 実機でのデヌタ収集は高コスト 容易に収集可胜なデヌタをロボット孊習に䜿いたい ▪ 人間の動画シミュレヌションデヌタ ▪

    提案手法Im2Flow2Act ▪ object flow を媒介にした軌道生成フレヌムワヌク ゚ンボディメントや環境に䟝らない動䜜衚珟 ▪ 結果 ▪ ロボットの実機デヌタを䜿甚せずに物䜓操䜜可胜 ▪ シミュレヌション・実機実隓においおベヌスラむンを䞊回る
  3. 背景゚ンボディメントや環境に䟝らない動䜜衚珟の必芁性 3  ロボットの実機デヌタの収集は高コスト  実機環境に合わせたシミュレヌタ環境の構築は高コスト 収集コストの䜎いデヌタを甚いたい â—Œ 人間動画 

    human-robot の゚ンボディメントギャップ â—Œ シミュレヌタの単䞀環境における軌道デヌタ  sim-real のドメむンギャップ (背景, 物䜓テクスチャ, etc...) ゚ンボディメントや環境に䟝らない動䜜衚珟の必芁性
  4. 関連研究: cross-domain data からのロボット孊習 4 手法 特城 VRB [Bahl+, CVPR23]

    人間動画から物䜓の把持点ず軌道を孊習 PEAC [Ying+, NeurIPS24] Cross-embodiment data から latent action ã‚’å­Šç¿’ ATM [Wen+, RSS24] 人間動画から hand-centric なフロヌを孊習  実機適甚時に target embodiment でのデヌタ収集が必芁 VRB [Bahl+, CVPR23] ATM [Wen+, RSS24]
  5. 提案手法Im2Flow2Act 5 ① Im2Flow初期画像, 蚀語指瀺 object flow タスクごずに収集した人間動画を甚いお蚓緎 object flowによる

    cross-embodiment data を甚いた軌道生成フレヌムワヌク ☺ 物䜓の姿勢や倉圢も衚珟可胜 ☺ embodiment-agnostic ☺ 背景やテクスチャに頑健 ② Flow2Actobject flow, 珟圚画像 軌道 シミュレヌタで収集した軌道デヌタを甚いお蚓緎 タスク党䜓における物䜓軌道
  6. 前提LDM (Latent Diffusion Model), AnimateDiff 6 事前孊習枈みT2I拡散モデル (SD) に motion

    module を導入しお動画を生成 â—Œ Temporal Transformer ☺ 時間方向の䞀貫性を向䞊 â—Œ T2Iモデルを freeze しお孊習を行う ☺ 䜎コストな蚓緎 AnimateDiff [Guo+, ICLR24] LDM [Rombach+, CVPR22] 生成空間を䜎次元な朜圚空間にするこ ずで高品質な画像を高速に生成可胜 â—Œ cross-attention ☺ 柔軟な条件入力 (text, bbox, etc...) â—Œ 蚈算量を削枛 ☺ 高効率な蚓緎 ☺ 高速な掚論 â—Œ Stable Diffusion を䜿甚 LDM [Rombach+, CVPR22] AnimateDiff [Guo+, ICLR24]
  7. (b) AnimateDiff (SDベヌス) でフロヌを生成 ① フロヌをSDの朜圚空間に゚ンコヌド 𝑥0:𝑇 0 = 𝐞𝜙

    ℱ𝑖 |𝑖 ∈ [0, 𝑇] ② motion module を蚓緎 𝑥1:𝑇 𝑡 = àŽ€ 𝛌𝑡 𝑥1:𝑇 0 + 1 − àŽ€ 𝛌𝑡 𝜖1:𝑇 (拡散過皋) ℒ = 𝔌 𝐞 ℱ1:𝑇 ,𝑥0 0,𝑓,𝑊,𝜖0:𝑇~𝒩 0,𝐌 ,𝑡 𝜖 − 𝜖𝜃 𝑥1:𝑇 𝑡 , 𝑡, 𝑥0 0, 𝜏 𝜃 𝑖𝑚𝑔(𝑓), 𝜏𝜃 𝑡𝑥𝑡 𝑊 2 2 ③ 𝐷𝜃 をfinetuneしおフロヌを出力 Im2FlowFlow Generation Network 7 初期画像 + 蚀語指瀺 object flow ① Grounding DINOでbboxを取埗 ② bbox内を均䞀にサンプリング ℱ0 ∈ 𝑅3×𝐻×𝑊 𝑢, 𝑣, 𝑣𝑖𝑠𝑖𝑏𝑖𝑙𝑖𝑡𝑊 𝑢, 𝑣:画像内の座暙 𝑣𝑖𝑠𝑖𝑏𝑖𝑙𝑖𝑡𝑊:物䜓の可芖性 (a) 𝐻 𝑊 ℱ1 ∈ 𝑅3×𝑇×𝐻×𝑊 ℱ0:𝑇 正解フロヌ 𝑓 初期画像 𝑊 蚀語指瀺 𝑡 時刻 𝐞𝜙 SD゚ンコヌダ 𝐷𝜃 SDデコヌダ àŽ€ 𝛌t :ノむズスケゞュヌラ (pre-defined) 𝜏 𝜃 𝑖𝑚𝑔/𝜏𝜃 𝑡𝑥𝑡CLIP゚ンコヌダ (画像/蚀語)
  8. (c) 1)State Encoder 𝜙 : 𝑠𝑡 = 𝜙(𝑓𝑡 , 𝑥0

    ) ・ (察象の䜍眮や姿勢に関する) 状態衚珟を生成 ・各点の座暙を゚ンコヌドしCLSトヌクンで芁玄 2)Temporal Alignment 𝜓 : 𝑧𝑡 = 𝜓(ℱ0:𝑇 , 𝑠𝑡 , 𝜌𝑡 ) ・時刻t 以降のフロヌに぀いおの朜圚衚珟を予枬 ・𝐿2 loss Æž 𝑧𝑡 − 𝑧𝑡 2 Æž 𝑧𝑡 = 𝜉 𝑓𝑡:𝑇 3)Diffusion Action Head : 𝑝(𝐚𝑡 |𝑧𝑡 , 𝑠𝑡 , 𝜌𝑡 ) 拡散モデルを甚いお軌道系列を生成 Flow2Act Flow-Conditioned Policy 8 𝑓𝑡 : N個の key point の時刻tにおける 画像内座暙 𝑢𝑡 𝑛, 𝑣𝑡 𝑛 𝑛=1 𝑁 𝑥0 : N個の key point の初期フレヌム における3次元座暙 ℱ0:𝑇 : タスク党䜓の object flow 𝜌𝑡 : ロボットの proprioception 𝜉 : フロヌを朜圚衚珟に゚ンコヌド 𝐚𝑡 : 時刻tからの軌道系列 𝑎𝑡 , 
 , 𝑎𝑡+𝐿 (b) Online Point Tracking TAPIR を甚いお key point を远跡 TAPIR [Doersch+, ICCV23] object flow, 珟圚画像 軌道
  9. 実隓蚭定 9 â—Œ 4぀のタスクで評䟡 â—Œ Pick-and-place â—Œ Pouring â—Œ Open

    drawer â—Œ Folding cloth â—Œ 孊習蚭定 â—Œ object flow: â—Œ H=W=32 â—Œ T=32 â—Œ 孊習時間蚘茉なし â—Œ ロボットUR5e ℱ1 ∈ 𝑅3×𝑇×𝐻×𝑊 â—Œ 蚓緎デヌタ â—Œ 人間動画 â—Œ 人間による各タスクのデモ â—Œ デヌタ数: 蚘茉なし â—Œ シミュレヌタMuJoCo â—Œ ロボットUR5e â—Œ デヌタ数: 4800
  10. たずめ 14 ▪ 背景 ▪ 実機でのデヌタ収集は高コスト 容易に収集可胜なデヌタをロボット孊習に䜿いたい ▪ 人間の動画シミュレヌションデヌタ ▪

    提案手法Im2Flow2Act ▪ object flow を媒介にした軌道生成フレヌムワヌク ゚ンボディメントや環境に䟝らない動䜜衚珟 ▪ 結果 ▪ ロボットの実機デヌタを䜿甚せずに物䜓操䜜可胜 ▪ シミュレヌション・実機実隓においおベヌスラむンを䞊回る