Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[RSJ24] Task Success Prediction for Open-Vocabu...

[RSJ24] Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 関連研究:成否判定を陽に扱っている研究は少ない 4 SayCan REFLECT 手法 概要 SayCan [Brohan+, CoRL23] LLM及び価値関数を用いてサブタスクを決定

    PaLM-E [Driess+, ICML23] 実世界の観測値を言語と同一空間に埋め込む REFLECT [Liu+, CoRL23] 事前定義した物体や状態を用いて失敗の説明・修正 λ-Repformer [斎藤+, JSAI24] λ-Representationによる物体操作の成否を判定
  2. λ-Representation Encoder:画像の多階層視覚表現を抽出 6 ▪ 3種類の特徴量によって構成 1. Scene Representation 2. Aligned

    Representation 3. Narrative Representation ▪ 並列に扱うことで表現力が向上 Transformer 例:ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、 ResNet、… 色や形等の詳細な特徴量 yellow bottle, red spherical apple, gray rectangular table 例:CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、… 自然言語とアラインされた特徴量 In the image, there is a yellow bottle of mustard sitting upright in the front left of the table Text Encoder 言語を媒介とした構造的な特徴量 例:InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…
  3. 実験設定:大規模データセットおよびzero-shot設定で評価 8 SP-RT-1データセット ▪ 13,915サンプル ▪ RT-1データセット [Brohan+, 22] をもとに構築

    SP-HSRデータセット ▪ 112サンプル ▪ zero-shot設定において 評価するために構築 SP-RT-1データセットの例
  4. 定量的結果: 代表的なMLLMを含むベースライン手法を上回った 9 手法 精度 [%] SP-RT-1 SP-HSR Contrastive λ-Repformer

    80.80 60 UNITER-large 63.52 48 GPT-4V (Zero-shot) 63.90 59 GPT-4V (Few-shot) 72.10 54 Gemini (Zero-shot) 67.28 53 Gemini (Few-shot) 69.20 56 +8.70 +1
  5. まとめ 12 タスク ▪ open-vocabularyな物体操作タスクの成否判定 新規性 ▪ 多階層視覚表現λ-Representationを抽出 ▪ 画像間の差異を抽出し,

    指示文とのアラインメントを考慮 実験結果 ▪ Few-Shot MLLMを含むベースライン 手法を精度において上回った
  6. Ablation Study:λ-Representationの有効性を調査 14 ▪ SP-RT-1データセットにおいて,Scene Representation(SR), Aligned Representation(AR) ,Narrative Representation(NR)の

    性能への寄与を調査 ▪ Scene Representationが最も性能向上に寄与 モデル SR AR NR 精度 [%] (i) ✓ ✓ 73.72 (ii) ✓ ✓ 79.94 (iii) ✓ ✓ 79.70 (iv) ✓ ✓ ✓ 80.80 +7.08