[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation

神原元就1, 妹尾幸樹1, 鶏内朋也2, 王亜楠2, 杉浦孔明1 物体中心オプティカルフローによる言語条件付きOpen-Loop軌道生成 1慶應義塾大学 2KDDI総合研究所

Motivation: VLAを少量のロボットデータで訓練したい - 1 - 課題：既存VLAは大量のロボットデータでfine-tuning 5-100 h/task [Black+, RSS25]
[Kim+, CoRL24] ~150 demos/task [Bjorck+, 25] ~3 h/task 本研究：ロボットデータをembodiment学習のみに用いることで省データ ☺ 実験では~20 demos/taskのみ使用  ロボットデータでactionとembodimentを学習する

関連研究: 省データ化への取り組み - 2 - 手法概要 Track2Act [Bharadhwaj+, ECCV24]
• 1段階目でFlowを生成、2段階目でアームの軌道に変換 • 言語指示は扱わない Im2Flow2Act [Xu+, CoRL24] • 言語指示に基づくflowベース軌道生成 •  flowについても各タスクにfittingさせないと性能が不十分 Phantom [Lepert+, CoRL25] • 人間の動作動画のみで訓練 Track2Act Phantom

LILAC: Visual Promptを用いたFlowベースVLA - 3 - 1. Vision Language ModelによるVisual
Promptの作成・条件付け 2. 2段階の軌道生成: 言語指示・RGB画像からflowを生成、2段階目で軌道に変換 • Flow2trajectoryについてはTrack2Act [Bharadhwaj+, ECCV24]を拡張

Flow Generation Module: RGB画像、自然言語指示に基づき2D flowを生成 - 4 - 1. 指示文とbounding
box からVLMにより矢印を作成 2. 入力情報と合わせて self-attentionを計算 3. Transformer Decoder によりflowを生成言語との条件付け強化のため補助損失を導入 Flow生成パイプライン • clsトークンと言語特徴量の距離

Visual Prompt Generation: 2D flow生成における補助的な情報の生成 - 5 - Could you
take the coke. Multimodal LLM Visual prompt Bounding box “Place brown chip bag into middle drawer.” “Unfold the fabric from the bottom right to the top left.”  画像と言語から直接flowを生成することは困難粗なaction表現として矢印を利用、モデルへ入力

実験設定: Robot Flow Benchmark - 6 - • 2D flow生成用のベンチマークを新しく構築
• Fractal, Bridge v2データセットに基づく • 計50,382エピソード Fractalサブセット Bridge v2サブセット “Move sponge near blue chip bag.” “Put spatula on plate sink.”  ロボットによる物体操作のためのflowベンチマークはほとんど提案されていない構築パイプライン 1. VLM (Qwen-2.5-VL-3B)で対象物体のbounding boxを特定 2. CoTracker3によりflowを生成 3. 動画をNステップにクリップ CoTracker3 [Karaev+, 24]

定量的結果: ベースラインを上回る品質のflow - 7 - Method Fractal Bridge v2 ADE↓
AUC↑ P@5↑ ADE↓ AUC↑ P@5↑ Im2Flow2Act [Xu+, CoRL24] 56.46 0.190 0.134 63.19 0.177 0.133 FLIP [Gao+, ICLR24] 44.41 0.165 0.069 41.95 0.200 0.098 LILAC 26.98 0.434 0.214 29.44 0.396 0.229 -17.43 -12.51

定性的結果: 指示文で指定された動作・物体を理解 - 8 - “Take the yellow block to
put it on top of the tower.” “Move water bottle near green jalapeno chip bag.” LILAC FLIP FLIP LILAC ☺ Chip bagの方向へflowを生成 ☺ 持ち上げる方向へ適切に生成

実機実験 - 9 - • Pick up, Move, Pourの3タスクについて実施
• 各タスク20エピソードずつを収集 • 各モデルは収集したエピソードでfine-tuning • 評価は未知の指示・物体で実施 • ロボットベンチマーク: HSR • 訓練データ用の物体群 • 評価用の物体群 Method Pick up Move Pour Total π0 [Black+, RSS25] 15 0 0 5 Im2Flow2Act [Xu+, CoRL24] 25 0 0 8 FLIP [Gao+, ICLR24] 20 15 15 17 LILAC 40 35 15 30

定性的結果: 未知物体に対しても動作生成に成功 - 10 - Could you take the coke.
Pick the yellow bottle. Pour yellow bottle into the red mug. Place the cup near the orange

まとめ - 11 - • Fine-tuningにおいて、少量のロボットデータで訓練ができれば省コスト • 物体中心のflowを生成、flowをアームの起動に変換するflow-based VLAであるLILACを提案
• Visual promptをflow生成の補助として用いることで品質を向上 • Flow生成だけでなく、実機における軌道生成においてもベースラインを上回る性能を達成

[RSJ25] LILAC: Language‑Conditioned Object‑Cent...

[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

神原元就1, 妹尾幸樹1, 鶏内朋也2, 王亜楠2, 杉浦孔明1 物体中心オプティカルフローによる言語条件付きOpen-Loop軌道生成 1慶應義塾大学 2KDDI総合研究所

Motivation: VLAを少量のロボットデータで訓練したい - 1 - 課題：既存VLAは大量のロボットデータでfine-tuning 5-100 h/task [Black+, RSS25]

関連研究: 省データ化への取り組み - 2 - 手法概要 Track2Act [Bharadhwaj+, ECCV24]

LILAC: Visual Promptを用いたFlowベースVLA - 3 - 1. Vision Language ModelによるVisual

Flow Generation Module: RGB画像、自然言語指示に基づき2D flowを生成 - 4 - 1. 指示文とbounding

Visual Prompt Generation: 2D flow生成における補助的な情報の生成 - 5 - Could you

実験設定: Robot Flow Benchmark - 6 - • 2D flow生成用のベンチマークを新しく構築

定量的結果: ベースラインを上回る品質のflow - 7 - Method Fractal Bridge v2 ADE↓

定性的結果: 指示文で指定された動作・物体を理解 - 8 - “Take the yellow block to

実機実験 - 9 - • Pick up, Move, Pourの3タスクについて実施

定性的結果: 未知物体に対しても動作生成に成功 - 10 - Could you take the coke.

まとめ - 11 - • Fine-tuningにおいて、少量のロボットデータで訓練ができれば省コスト • 物体中心のflowを生成、flowをアームの起動に変換するflow-based VLAであるLILACを提案