Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ25] Enhancing VLA Performance in Understand...

[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Research

Transcript

  1. 背景︓既存のVLAは指⽰⽂が⾃由形式の場合に性能が極端に低下する L 指⽰⽂の置換・再訓練は⾮効率 ▪ Fractal [Brohan+, RSS23]: 2890 h ▪

    OpenVLA: 175 h, π0 -FAST: 166 h 本研究: VLAのためのPlug & Play可能な⾃由形式指⽰⽂の理解・実⾏フレームワーク Motivation: VLAに⾃由形式の指⽰⽂を理解・実⾏させたい 2 “Can you pick up the can near the front of the table?” SIMPLER [Li+, CoRL24] における成功率
  2. 関連研究︓Plug & Play可能な⼿法は利便性が⾼い 3 ⼿法 特徴 π0 [Black+, RSS25] GR00T

    [Bjorck+, 25] Vision Language Model (VLM) を⽤いた⼤規模VLA V-GPS [Nakamoto+, CoRL24] VLAの出⼒した軌道を再重み付けすることによる性能向上 J 任意のVLAに接続可能 V-GPS [Nakamoto+, CoRL24] π0 [Black+, RSS25]
  3. 問題設定︓Multimodal Paraphrasing 5 ▪ ⾃由形式の指⽰⽂を定型⽂に変換 ▪ ⼊⼒︓⾃由形式の⾃然⾔語指⽰⽂,画像 ▪ 出⼒︓変換された⾃然⾔語指⽰⽂ “Pick

    water bottle.” VLM L VLMを使うだけでは品質が不⼗分 “Please give me the green one with big printed letters, on the right.”
  4. ▪ VLMを⽤いてVLAが理解可能な指⽰⽂へ変換 ü VLMの指⽰⽂変換性能を向上する Visual Prompt(VP)⽣成 J 任意のVLAにPlug & Play可能

    提案フレームワーク︓ハルシネーションを抑制するVPの⽣成 6 “Please give me the green one with big printed letters, on the right.” Visual Prompt VLM “Pick chip bag.” VLA
  5. Visual Prompt ⽣成のための操作対象物体の特定 7 ▪ 2種類のVisual Promptの⽣成 1. Bounding boxを⽣成

    2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … …
  6. Visual Prompt ⽣成のための操作対象物体の特定 8 ▪ 2種類のVisual Promptの⽣成 1. Bounding boxを⽣成

    2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … … … …
  7. Visual Prompt ⽣成のための操作対象物体の特定 9 ▪ 2種類のVisual Promptの⽣成 1. Bounding boxを⽣成

    2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … …
  8. 実験設定︓⾃由形式の指⽰⽂を含むベンチマークを構築 10 L 既存データセットの指⽰⽂はほとんどが定型⽂ ▪ 訓練︓Fractal-Free(Fractalの1,000エピソードについて,⾃由形式の指⽰⽂を付与) ▪ 評価︓SIMPLER [Li+, CoRL24]

    上でベンチマークを構築 ▪ VLM︓Qwen2.5-VL “Could you please take one of the apples out of the white plate that is on your desk?” “Grasp the can on the center of the table.” J 実環境の結果と強い相関 SIMPLER [Li+, CoRL24] 実環境 SIMPLER
  9. 定性結果︓物体位置を適切に理解 (RT-1) 14 "Pick up the object at the far

    right edge of the table." w/o 指⽰⽂変換 w/o VP 提案⼿法 ”Pick orange." ”Pick fanta can."
  10. 定性結果︓物体の⾊を適切に理解 (RT-1) 15 "Can you give me the green one?"

    ”Pick sponge.” ”Pick orange can.” w/o 指⽰⽂変換 w/o VP 提案⼿法