Slide 1

Slide 1 text

慶應義塾⼤学 齋藤⼤地,○神原元就,九曜克之,杉浦孔明 マルチモーダルLLMおよび視覚⾔語基盤モデルに基づく ⼤規模物体操作データセットにおけるタスク成功判定

Slide 2

Slide 2 text

概要 - 2 - ■ タスク ■ マニピュレータによる物体操作におけるタスク成否判定 ■ 新規性 ■ 3種類の視覚表現を組み合わせた -Representation ■ MLLM, 視覚⾔語基盤モデル, シングルモーダル特徴量 抽出器 ■ 実験結果 ■ 精度においてMLLMを含むベースライン⼿法を上回る 4x

Slide 3

Slide 3 text

背景︓マニピュレータの物体操作ではタスク成否判定が重要 - 3 - ■ マニピュレータによる物体操作 Instead of this fork, bring a spoon. 様々なサブタスク 把持中のフォークを他の場所に置く/引き出しを開ける/ フォークを把持し引き出しに置く/スプーンを引き出しから取る等 ロボットに各サブタスクの成否を適切に評価する能⼒があれば便利 失敗を検知した時点でタスクを終了することで効率・安全性が向上 https://agrist.com/archives/1873 https://www.sankei.com/article/20220309-IIRCRHG6GRPMVKT3C4NT7MPNOI/

Slide 4

Slide 4 text

問題設定︓物体操作に対するタスク成否判定 - 4 - ■ マニピュレータによるTable-Top物体操作タスクにおけるタスク成否判定 • ⼊⼒︓指⽰⽂および物体操作前後の画像 • 出⼒︓ロボットが物体操作に成功した確率の予測値 Success Failure Status 0.8 0.2 “Pick up orange from white bowl”

Slide 5

Slide 5 text

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 5 - ⼿法 概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定 Inner Monologue [Wenlong+, CoRL23] LLMを⽤いた3種類のフィードバック機構により タスクの実⾏を決定 PaLM-E [Danny+, ICML23] 実世界の観測値を⾔語の埋め込み空間に組み込む [Huang+, CoRL22] 実世界とのインタラクションを通して成否を判定 Inner Monologue [Wenlong+, CoRL23] PaLM-E [Danny+, ICML23]

Slide 6

Slide 6 text

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 6 - ⼿法 概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定 Inner Monologue [Wenlong+, CoRL23] LLMを⽤いた3種類のフィードバック機構により タスクの実⾏を決定 PaLM-E [Danny+, ICML23] 実世界の観測値を⾔語の埋め込み空間に組み込む [Huang+, CoRL22] 実世界とのインタラクションを通して成否を判定 Inner Monologue [Wenlong+, CoRL23] PaLM-E [Danny+, ICML23]

Slide 7

Slide 7 text

画像内の情報をあらゆる粒度で抽出したい - 7 - “Pick up the orange in the most left side from white bowl” タスクにおいて重要な点 物体操作前後の画像内において,何がどのように変化したか • 画像中に存在する物体群 • 各物体の位置関係 • 左端のオレンジの位置 • その他の物体の位置・状態

Slide 8

Slide 8 text

物体操作におけるタスク成否判定機構 - 8 - 1. 3種類の潜在表現を全て組み合わせた -Representationを導⼊ a. ⾊や形状などの視覚的な特徴を保持した特徴量 b. ⾃然⾔語にアラインされた特徴量 c. ⾃然⾔語を媒介として構造化された特徴量 2. -Representation Encoder 1. 物体操作前後の画像に対して -Representationのcross-attentionを 計算

Slide 9

Slide 9 text

λ-Representation: 各解像度において特徴量を抽出 - 9 - • ⾼次特徴量 • 中次特徴量 • 低次特徴量 • MLLM • ⾔語を媒介とした特徴量 • 参照表現・構造化された空間表現 • 視覚⾔語基盤モデル (CLIP等) • ⾔語とアラインされた画像特徴量 • シングルモーダル特徴量抽出器 (ViT等) • 詳細な視覚情報(テクスチャ等)の抽出

Slide 10

Slide 10 text

λ-Representation Encoder: 物体操作前後の差分に注⽬ - 10 - ■ 3つの視覚表現を統合し -Representationを取得 ■ 物体操作前後の -Representationに対しcross-attentionを計算 ロボットが物体操作を適切に実⾏した確率の予測値 ︓transformer encoder ︓transformer decoder ︓feedforward network ︓予測ラベル 物体操作前後の特徴量の差分に注⽬: 指⽰⽂と差分はマッチングしているか︖

Slide 11

Slide 11 text

実験設定︓2種類のデータセットを構築 - 11 - ■ SP-RT-1データセット • 13,915サンプルを含む実世界データセット • RT-1データセット [Brohan+, 22]をもとに構築 ■ SP-VLMbenchデータセット • 8,326サンプルを含むシミュレーションデータセット • VLMbench [Zheng+, NeurIPS22]をもとに構築 実世界の物体操作のための標準⼤規模データセット 物体操作タスクのための標準的なベンチマーク 1x VLMbench [Zheng+, NeurIPS22] RT-1 [Brohan+, 22] 4x

Slide 12

Slide 12 text

定量的結果︓2つのデータセットでベースライン⼿法を上回る - 12 - ■ SP-RT-1及びSP-VLMbenchにおいて性能を評価 ■ 精度において全てのベースライン尺度を上回る ⼿法 精度 [%] SP-RT-1 SP-VLMbench InstructBLIP 52.30±0.74 41.30±0.87 Gemini 64.12±1.21 56.15±2.69 GPT-4V 69.12±0.78 57.81±0.79 UNITER 69.08±1.77 68.22±0.90 Ours 74.50±1.44 78.92±0.68 Ours (extended) 80.80±0.86 ー +11.72 +10.70 MLLM

Slide 13

Slide 13 text

定性的結果︓物体の状態について適切に考慮 - 13 - ■ ペットボトルは存在するが,右上でないかつ倒れてしまっている “Place water bottle upright.” • 正解: Failure • Ours: Failure 提案⼿法は適切に評価 • GPT-4V: Success GPT-4Vは誤って評価

Slide 14

Slide 14 text

定性的結果︓物体の位置関係について適切に考慮 - 14 - ■ ⾚いペンを,適切に⻘いコンテナ内に配置することができている “Drop the red pencil into the navy container.” • 正解: Success • Ours: Success 提案⼿法は適切に評価 • GPT-4V: Failure GPT-4Vは誤って評価

Slide 15

Slide 15 text

Ablation study︓ -Representationの有効性を調査 - 15 - ■ SP-RT-1データセットにおいて,低次特徴量 (SR), 中次特徴量 (AR), ⾼次 特徴量(NR)の性能への寄与を調査 ■ NRが最も性能向上へ寄与 Model SR AR NR Accuracy [%] SP-RT-1 SP-VLMbench (i) ✔ ✔ 73.30±1.27 75.80±0.62 (ii) ✔ ✔ 72.11±1.19 74.44±1.44 (iii) ✔ ✔ 72.02±1.55 73.74±1.84 (iv) ✔ ✔ ✔ 74.50±1.44 78.92±0.68 +2.48 +5.18

Slide 16

Slide 16 text

実機実験︓ゼロショット転移設定においても有効性を確認 - 16 - 4x HSRを⽤いてTable-Top物体操作,タスク成否予測を実⾏ ⼿法 精度 [%] Ours (extended) 59±1.9 “move the light blue cup to the left front”: Success “move the light blue cup to the right front area”: Failure J

Slide 17

Slide 17 text

まとめ - 17 - ■ タスク ■ マニピュレータによる物体操作におけるタスク成否判定 ■ 新規性 ■ 3種類の視覚表現を組み合わせた -Representation ■ MLLM, 視覚⾔語基盤モデル, シングルモーダル特徴量 抽出器 ■ 実験結果 ■ 精度においてMLLMを含むベースライン⼿法を上回る 論⽂PDF 4x

Slide 18

Slide 18 text

定性的結果︓ いくつかのサンプルではオクルージョンにより予測が困難 - 20 - ■ 7upの⽸は配置時の衝撃で倒れているが,アームが被っている • 正解: Failure • Ours: Success “Pick 7up can from bottom drawer and place on counter.”

Slide 19

Slide 19 text

エラー分析︓物体についての理解が不⾜ - 21 - エラー #エラー (1) Multimodal Language Comprehension Error 45 (2) Occlusion 26 (3) Ambiguous Situation 9 (4) Narrative Hallucination 9 (5) Out-of-Frame 6 (6) Ambiguous Instruction 5 計 100 ・マルチモーダル⾔語理解について性能が不⼗分 ・物体についての理解が重要 ex. キャプション⽣成的アプローチ