[RSJ24] Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

慶應義塾大学後神美結，神原元就，小槻誠太郎，杉浦孔明マルチモーダルLLM及び視覚的言語基盤モデルに基づく多階層アラインメント表現による物体操作タスク成功判定

背景：物体操作の成否判定は重要 2 物体操作におけるサブタスクの失敗 後続タスクへの影響 潜在的な危険性 ⇒ 物体操作の成否判定の精度を高めることは有用 ロボットの信頼性や効率を向上 ▪ 生活支援，医療，産業，農業，物流など
 「プロテインバーをオレンジの缶の近くに移動させて」  「りんごをバナナの近くに移動させて」対応が重要

問題設定：open-vocabularyな物体操作のタスク成否判定 3 指示文および物体操作前後の画像を元に成否判定を出力出力： Success 指示文：place a red can on
the front right

関連研究：成否判定を陽に扱っている研究は少ない 4 SayCan REFLECT 手法概要 SayCan [Brohan+, CoRL23] LLM及び価値関数を用いてサブタスクを決定
PaLM-E [Driess+, ICML23] 実世界の観測値を言語と同一空間に埋め込む REFLECT [Liu+, CoRL23] 事前定義した物体や状態を用いて失敗の説明・修正 λ-Repformer [斎藤+, JSAI24] λ-Representationによる物体操作の成否を判定

提案手法：多階層視覚表現の差異と指示文のアライメント 5 ▪ λ-Representation Encoder：画像の多階層視覚表現を抽出 ▪ Contrastive λ-Representation Decoder：
視覚特徴の差異と指示文のアラインメントを取り，成否判定を行う

λ-Representation Encoder：画像の多階層視覚表現を抽出 6 ▪ 3種類の特徴量によって構成 1. Scene Representation 2. Aligned
Representation 3. Narrative Representation ▪ 並列に扱うことで表現力が向上 Transformer 例：ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、 ResNet、… 色や形等の詳細な特徴量 yellow bottle, red spherical apple, gray rectangular table 例：CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、… 自然言語とアラインされた特徴量 In the image, there is a yellow bottle of mustard sitting upright in the front left of the table Text Encoder 言語を媒介とした構造的な特徴量例：InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…

指示文の言語特徴 Contrastive λ-Representation Decoder：視覚特徴間の差異と指示文のアライメント 7 物体操作前後の画像それぞれに対応する視覚特徴λ-Representation 間の差異に関する特徴
を抽出

実験設定：大規模データセットおよびzero-shot設定で評価 8 SP-RT-1データセット ▪ 13,915サンプル ▪ RT-1データセット [Brohan+, 22] をもとに構築
SP-HSRデータセット ▪ 112サンプル ▪ zero-shot設定において評価するために構築 SP-RT-1データセットの例

定量的結果：代表的なMLLMを含むベースライン手法を上回った 9 手法精度 [%] SP-RT-1 SP-HSR Contrastive λ-Repformer
80.80 60 UNITER-large 63.52 48 GPT-4V (Zero-shot) 63.90 59 GPT-4V (Few-shot) 72.10 54 Gemini (Zero-shot) 67.28 53 Gemini (Few-shot) 69.20 56 +8.70 +1

定性的結果（成功例）：画像と指示文のアラインメント性能向上により適切に判定 10  物体の色，形，状態や位置関係等を適切に考慮  画像間の差異と指示文がアラインされ，適切に判定動画の成否判定にもリアルタイムに使用可能 “move
orange near green can” “pick green rice chip bag”

Demo：人間の妨害による把持失敗からのリカバリー 11 “pick the orange” ×8 ×8 “move the coke”

まとめ 12 タスク ▪ open-vocabularyな物体操作タスクの成否判定新規性 ▪ 多階層視覚表現λ-Representationを抽出 ▪ 画像間の差異を抽出し，
指示文とのアラインメントを考慮実験結果 ▪ Few-Shot MLLMを含むベースライン手法を精度において上回った

Appendix 13

Ablation Study：λ-Representationの有効性を調査 14 ▪ SP-RT-1データセットにおいて，Scene Representation（SR）， Aligned Representation（AR），Narrative Representation（NR）の
性能への寄与を調査 ▪ Scene Representationが最も性能向上に寄与モデル SR AR NR 精度 [%] (i) ✓ ✓ 73.72 (ii) ✓ ✓ 79.94 (iii) ✓ ✓ 79.70 (iv) ✓ ✓ ✓ 80.80 +7.08

Ablation Study：cross-attentionが性能向上に寄与 15 ▪ Contrastive λ-Representation Decoder内のcross-attentionの性能への寄与を調査 ▪ Self-attentionよりもcross-attentionの方が画像間の差異を捉えることに
適しているモデル Attention Mechanism 精度 [%] (i) Self-Attention 78.88 (ii) Cross-Attention 80.80 +1.92

[RSJ24] Task Success Prediction for Open-Vocabu...

[RSJ24] Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学後神美結，神原元就，小槻誠太郎，杉浦孔明マルチモーダルLLM及び視覚的言語基盤モデルに基づく多階層アラインメント表現による物体操作タスク成功判定

問題設定：open-vocabularyな物体操作のタスク成否判定 3 指示文および物体操作前後の画像を元に成否判定を出力出力： Success 指示文：place a red can on

関連研究：成否判定を陽に扱っている研究は少ない 4 SayCan REFLECT 手法概要 SayCan [Brohan+, CoRL23] LLM及び価値関数を用いてサブタスクを決定

提案手法：多階層視覚表現の差異と指示文のアライメント 5 ▪ λ-Representation Encoder：画像の多階層視覚表現を抽出 ▪ Contrastive λ-Representation Decoder：

λ-Representation Encoder：画像の多階層視覚表現を抽出 6 ▪ 3種類の特徴量によって構成 1. Scene Representation 2. Aligned

指示文の言語特徴 Contrastive λ-Representation Decoder：視覚特徴間の差異と指示文のアライメント 7 物体操作前後の画像それぞれに対応する視覚特徴λ-Representation 間の差異に関する特徴

実験設定：大規模データセットおよびzero-shot設定で評価 8 SP-RT-1データセット ▪ 13,915サンプル ▪ RT-1データセット [Brohan+, 22] をもとに構築

定量的結果：代表的なMLLMを含むベースライン手法を上回った 9 手法精度 [%] SP-RT-1 SP-HSR Contrastive λ-Repformer

Demo：人間の妨害による把持失敗からのリカバリー 11 “pick the orange” ×8 ×8 “move the coke”

まとめ 12 タスク ▪ open-vocabularyな物体操作タスクの成否判定新規性 ▪ 多階層視覚表現λ-Representationを抽出 ▪ 画像間の差異を抽出し，

Appendix 13

Ablation Study：λ-Representationの有効性を調査 14 ▪ SP-RT-1データセットにおいて，Scene Representation（SR）， Aligned Representation（AR），Narrative Representation（NR）の

Ablation Study：cross-attentionが性能向上に寄与 15 ▪ Contrastive λ-Representation Decoder内のcross-attentionの性能への寄与を調査 ▪ Self-attentionよりもcross-attentionの方が画像間の差異を捉えることに