[RSJ24] Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

Slide 1

Slide 1 text

慶應義塾大学後神美結，神原元就，小槻誠太郎，杉浦孔明マルチモーダルLLM及び視覚的言語基盤モデルに基づく多階層アラインメント表現による物体操作タスク成功判定

Slide 2

Slide 2 text

背景：物体操作の成否判定は重要 2 物体操作におけるサブタスクの失敗 後続タスクへの影響 潜在的な危険性 ⇒ 物体操作の成否判定の精度を高めることは有用 ロボットの信頼性や効率を向上 ■ 生活支援，医療，産業，農業，物流など  「プロテインバーをオレンジの缶の近くに移動させて」  「りんごをバナナの近くに移動させて」対応が重要

Slide 3

Slide 3 text

問題設定：open-vocabularyな物体操作のタスク成否判定 3 指示文および物体操作前後の画像を元に成否判定を出力出力： Success 指示文：place a red can on the front right

Slide 4

Slide 4 text

関連研究：成否判定を陽に扱っている研究は少ない 4 SayCan REFLECT 手法概要 SayCan [Brohan+, CoRL23] LLM及び価値関数を用いてサブタスクを決定 PaLM-E [Driess+, ICML23] 実世界の観測値を言語と同一空間に埋め込む REFLECT [Liu+, CoRL23] 事前定義した物体や状態を用いて失敗の説明・修正 λ-Repformer [斎藤+, JSAI24] λ-Representationによる物体操作の成否を判定

Slide 5

Slide 5 text

提案手法：多階層視覚表現の差異と指示文のアライメント 5 ■ λ-Representation Encoder：画像の多階層視覚表現を抽出 ■ Contrastive λ-Representation Decoder：視覚特徴の差異と指示文のアラインメントを取り，成否判定を行う

Slide 6

Slide 6 text

λ-Representation Encoder：画像の多階層視覚表現を抽出 6 ■ 3種類の特徴量によって構成 1. Scene Representation 2. Aligned Representation 3. Narrative Representation ■ 並列に扱うことで表現力が向上 Transformer 例：ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、 ResNet、… 色や形等の詳細な特徴量 yellow bottle, red spherical apple, gray rectangular table 例：CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、… 自然言語とアラインされた特徴量 In the image, there is a yellow bottle of mustard sitting upright in the front left of the table Text Encoder 言語を媒介とした構造的な特徴量例：InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…

Slide 7

Slide 7 text

指示文の言語特徴 Contrastive λ-Representation Decoder：視覚特徴間の差異と指示文のアライメント 7 物体操作前後の画像それぞれに対応する視覚特徴λ-Representation 間の差異に関する特徴を抽出

Slide 8

Slide 8 text

実験設定：大規模データセットおよびzero-shot設定で評価 8 SP-RT-1データセット ■ 13,915サンプル ■ RT-1データセット [Brohan+, 22] をもとに構築 SP-HSRデータセット ■ 112サンプル ■ zero-shot設定において評価するために構築 SP-RT-1データセットの例

Slide 9

Slide 9 text

定量的結果：代表的なMLLMを含むベースライン手法を上回った 9 手法精度 [%] SP-RT-1 SP-HSR Contrastive λ-Repformer 80.80 60 UNITER-large 63.52 48 GPT-4V (Zero-shot) 63.90 59 GPT-4V (Few-shot) 72.10 54 Gemini (Zero-shot) 67.28 53 Gemini (Few-shot) 69.20 56 +8.70 +1

Slide 10

Slide 10 text

定性的結果（成功例）：画像と指示文のアラインメント性能向上により適切に判定 10  物体の色，形，状態や位置関係等を適切に考慮  画像間の差異と指示文がアラインされ，適切に判定動画の成否判定にもリアルタイムに使用可能 “move orange near green can” “pick green rice chip bag”

Slide 11

Slide 11 text

Demo：人間の妨害による把持失敗からのリカバリー 11 “pick the orange” ×8 ×8 “move the coke”

Slide 12

Slide 12 text

まとめ 12 タスク ■ open-vocabularyな物体操作タスクの成否判定新規性 ■ 多階層視覚表現λ-Representationを抽出 ■ 画像間の差異を抽出し，指示文とのアラインメントを考慮実験結果 ■ Few-Shot MLLMを含むベースライン手法を精度において上回った

Slide 13

Slide 13 text

Appendix 13

Slide 14

Slide 14 text

Ablation Study：λ-Representationの有効性を調査 14 ■ SP-RT-1データセットにおいて，Scene Representation（SR）， Aligned Representation（AR），Narrative Representation（NR）の性能への寄与を調査 ■ Scene Representationが最も性能向上に寄与モデル SR AR NR 精度 [%] (i) ✓ ✓ 73.72 (ii) ✓ ✓ 79.94 (iii) ✓ ✓ 79.70 (iv) ✓ ✓ ✓ 80.80 +7.08

Slide 15

Slide 15 text

Ablation Study：cross-attentionが性能向上に寄与 15 ■ Contrastive λ-Representation Decoder内のcross-attentionの性能への寄与を調査 ■ Self-attentionよりもcross-attentionの方が画像間の差異を捉えることに適しているモデル Attention Mechanism 精度 [%] (i) Self-Attention 78.88 (ii) Cross-Attention 80.80 +1.92