Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ25] LILAC: Language‑Conditioned Object‑Cent...

[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Motivation: VLAを少量のロボットデータで訓練したい - 1 - 課題:既存VLAは大量のロボットデータでfine-tuning 5-100 h/task [Black+, RSS25]

    [Kim+, CoRL24] ~150 demos/task [Bjorck+, 25] ~3 h/task 本研究:ロボットデータをembodiment学習のみに用いることで省データ ☺ 実験では~20 demos/taskのみ使用  ロボットデータでactionとembodimentを学習する
  2. 関連研究: 省データ化への取り組み - 2 - 手法 概要 Track2Act [Bharadhwaj+, ECCV24]

    • 1段階目でFlowを生成、2段階目でアームの軌道に変換 • 言語指示は扱わない Im2Flow2Act [Xu+, CoRL24] • 言語指示に基づくflowベース軌道生成 •  flowについても各タスクにfittingさせないと性能が不十分 Phantom [Lepert+, CoRL25] • 人間の動作動画のみで訓練 Track2Act Phantom
  3. LILAC: Visual Promptを用いたFlowベースVLA - 3 - 1. Vision Language ModelによるVisual

    Promptの作成・条件付け 2. 2段階の軌道生成: 言語指示・RGB画像からflowを生成、2段階目で軌道に変換 • Flow2trajectoryについてはTrack2Act [Bharadhwaj+, ECCV24]を拡張
  4. Flow Generation Module: RGB画像、自然言語指示に基づき2D flowを生成 - 4 - 1. 指示文とbounding

    box からVLMにより矢印を 作成 2. 入力情報と合わせて self-attentionを計算 3. Transformer Decoder によりflowを生成 言語との条件付け強化のため 補助損失を導入 Flow生成パイプライン • clsトークンと言語特徴量の距離
  5. Visual Prompt Generation: 2D flow生成における補助的な情報の生成 - 5 - Could you

    take the coke. Multimodal LLM Visual prompt Bounding box “Place brown chip bag into middle drawer.” “Unfold the fabric from the bottom right to the top left.”  画像と言語から直接flowを生成することは困難 粗なaction表現として矢印を利用、モデルへ入力
  6. 実験設定: Robot Flow Benchmark - 6 - • 2D flow生成用のベンチマークを新しく構築

    • Fractal, Bridge v2データセットに基づく • 計50,382エピソード Fractalサブセット Bridge v2サブセット “Move sponge near blue chip bag.” “Put spatula on plate sink.”  ロボットによる物体操作のためのflowベンチマークはほとんど提案されていない 構築パイプライン 1. VLM (Qwen-2.5-VL-3B)で対象 物体のbounding boxを特定 2. CoTracker3によりflowを生成 3. 動画をNステップにクリップ CoTracker3 [Karaev+, 24]
  7. 定量的結果: ベースラインを上回る品質のflow - 7 - Method Fractal Bridge v2 ADE↓

    AUC↑ P@5↑ ADE↓ AUC↑ P@5↑ Im2Flow2Act [Xu+, CoRL24] 56.46 0.190 0.134 63.19 0.177 0.133 FLIP [Gao+, ICLR24] 44.41 0.165 0.069 41.95 0.200 0.098 LILAC 26.98 0.434 0.214 29.44 0.396 0.229 -17.43 -12.51
  8. 定性的結果: 指示文で指定された動作・物体を理解 - 8 - “Take the yellow block to

    put it on top of the tower.” “Move water bottle near green jalapeno chip bag.” LILAC FLIP FLIP LILAC ☺ Chip bagの方向へflowを生成 ☺ 持ち上げる方向へ適切に生成
  9. 実機実験 - 9 - • Pick up, Move, Pourの3タスク について実施

    • 各タスク20エピソードずつを収 集 • 各モデルは収集したエピソード でfine-tuning • 評価は未知の指示・物体で実施 • ロボットベンチマーク: HSR • 訓練データ用の物体群 • 評価用の物体群 Method Pick up Move Pour Total π0 [Black+, RSS25] 15 0 0 5 Im2Flow2Act [Xu+, CoRL24] 25 0 0 8 FLIP [Gao+, ICLR24] 20 15 15 17 LILAC 40 35 15 30
  10. 定性的結果: 未知物体に対しても動作生成に成功 - 10 - Could you take the coke.

    Pick the yellow bottle. Pour yellow bottle into the red mug. Place the cup near the orange
  11. まとめ - 11 - • Fine-tuningにおいて、少量のロボットデータで訓練ができれば省コスト • 物体中心のflowを生成、flowをアームの起動に変換するflow-based VLAであ るLILACを提案

    • Visual promptをflow生成の補助と して用いることで品質を向上 • Flow生成だけでなく、実機におけ る軌道生成においてもベースライ ンを上回る性能を達成