OpenVLA: 175 h, π0 -FAST: 166 h 本研究: VLAのためのPlug & Play可能な⾃由形式指⽰⽂の理解・実⾏フレームワーク Motivation: VLAに⾃由形式の指⽰⽂を理解・実⾏させたい 2 “Can you pick up the can near the front of the table?” SIMPLER [Li+, CoRL24] における成功率
2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … …
2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … … … …
2. Semantic-SAM [Li+, ECCV24] によるマスク群⽣成 + 類似度計算 J 2種類のVPを同時に⽤いることで,ハルシネーションの低減を確認 “Please give me the green one with big printed letters, on the right.” … …
上でベンチマークを構築 ▪ VLM︓Qwen2.5-VL “Could you please take one of the apples out of the white plate that is on your desk?” “Grasp the can on the center of the table.” J 実環境の結果と強い相関 SIMPLER [Li+, CoRL24] 実環境 SIMPLER