Slide 1

Slide 1 text

慶應義塾大学 後神美結,神原元就,小槻誠太郎,杉浦孔明 マルチモーダルLLM及び視覚的言語基盤モデル に基づく多階層アラインメント表現による 物体操作タスク成功判定

Slide 2

Slide 2 text

背景:物体操作の成否判定は重要 2 物体操作におけるサブタスクの失敗 後続タスクへの影響 潜在的な危険性 ⇒ 物体操作の成否判定の精度を高めることは有用 ロボットの信頼性や効率を向上 ■ 生活支援,医療,産業,農業,物流など  「プロテインバーをオレンジの缶の 近くに移動させて」  「りんごをバナナの近くに移動させて」 対応が重要

Slide 3

Slide 3 text

問題設定:open-vocabularyな物体操作のタスク成否判定 3 指示文および物体操作前後の画像を元に成否判定を出力 出力: Success 指示文:place a red can on the front right

Slide 4

Slide 4 text

関連研究:成否判定を陽に扱っている研究は少ない 4 SayCan REFLECT 手法 概要 SayCan [Brohan+, CoRL23] LLM及び価値関数を用いてサブタスクを決定 PaLM-E [Driess+, ICML23] 実世界の観測値を言語と同一空間に埋め込む REFLECT [Liu+, CoRL23] 事前定義した物体や状態を用いて失敗の説明・修正 λ-Repformer [斎藤+, JSAI24] λ-Representationによる物体操作の成否を判定

Slide 5

Slide 5 text

提案手法 :多階層視覚表現の差異と指示文のアライメント 5 ■ λ-Representation Encoder:画像の多階層視覚表現を抽出 ■ Contrastive λ-Representation Decoder: 視覚特徴の差異と指示文のアラインメントを取り,成否判定を行う

Slide 6

Slide 6 text

λ-Representation Encoder:画像の多階層視覚表現を抽出 6 ■ 3種類の特徴量によって構成 1. Scene Representation 2. Aligned Representation 3. Narrative Representation ■ 並列に扱うことで表現力が向上 Transformer 例:ViT [Dosovitskiy+, ICLR20]、DINOv2 [Darcet+, ICLR24]、 ResNet、… 色や形等の詳細な特徴量 yellow bottle, red spherical apple, gray rectangular table 例:CLIP [Radford+, ICML21]、SigLIP [Zhai+, ICCV23]、… 自然言語とアラインされた特徴量 In the image, there is a yellow bottle of mustard sitting upright in the front left of the table Text Encoder 言語を媒介とした構造的な特徴量 例:InstructBLIP [Dai+, NeurIPS23]、GPT、Gemini、…

Slide 7

Slide 7 text

指示文の言語特徴 Contrastive λ-Representation Decoder: 視覚特徴間の差異と指示文のアライメント 7 物体操作前後の画像それぞれに対応する 視覚特徴λ-Representation 間の 差異に関する特徴 を抽出

Slide 8

Slide 8 text

実験設定:大規模データセットおよびzero-shot設定で評価 8 SP-RT-1データセット ■ 13,915サンプル ■ RT-1データセット [Brohan+, 22] をもとに構築 SP-HSRデータセット ■ 112サンプル ■ zero-shot設定において 評価するために構築 SP-RT-1データセットの例

Slide 9

Slide 9 text

定量的結果: 代表的なMLLMを含むベースライン手法を上回った 9 手法 精度 [%] SP-RT-1 SP-HSR Contrastive λ-Repformer 80.80 60 UNITER-large 63.52 48 GPT-4V (Zero-shot) 63.90 59 GPT-4V (Few-shot) 72.10 54 Gemini (Zero-shot) 67.28 53 Gemini (Few-shot) 69.20 56 +8.70 +1

Slide 10

Slide 10 text

定性的結果(成功例): 画像と指示文のアラインメント性能向上により適切に判定 10  物体の色,形,状態や位置関係等を適切に考慮  画像間の差異と指示文がアラインされ, 適切に判定 動画の成否判定にもリアルタイムに使用可能 “move orange near green can” “pick green rice chip bag”

Slide 11

Slide 11 text

Demo:人間の妨害による把持失敗からのリカバリー 11 “pick the orange” ×8 ×8 “move the coke”

Slide 12

Slide 12 text

まとめ 12 タスク ■ open-vocabularyな物体操作タスクの成否判定 新規性 ■ 多階層視覚表現λ-Representationを抽出 ■ 画像間の差異を抽出し, 指示文とのアラインメントを考慮 実験結果 ■ Few-Shot MLLMを含むベースライン 手法を精度において上回った

Slide 13

Slide 13 text

Appendix 13

Slide 14

Slide 14 text

Ablation Study:λ-Representationの有効性を調査 14 ■ SP-RT-1データセットにおいて,Scene Representation(SR), Aligned Representation(AR) ,Narrative Representation(NR)の 性能への寄与を調査 ■ Scene Representationが最も性能向上に寄与 モデル SR AR NR 精度 [%] (i) ✓ ✓ 73.72 (ii) ✓ ✓ 79.94 (iii) ✓ ✓ 79.70 (iv) ✓ ✓ ✓ 80.80 +7.08

Slide 15

Slide 15 text

Ablation Study:cross-attentionが性能向上に寄与 15 ■ Contrastive λ-Representation Decoder内のcross-attentionの性能への 寄与を調査 ■ Self-attentionよりもcross-attentionの方が画像間の差異を捉えることに 適している モデル Attention Mechanism 精度 [%] (i) Self-Attention 78.88 (ii) Cross-Attention 80.80 +1.92