[JSAI24]Task Success Prediction for Object Manipulation Based on Scene, Aligned, and Narrative Representations

慶應義塾⼤学齋藤⼤地，◦神原元就，九曜克之，杉浦孔明マルチモーダルLLMおよび視覚⾔語基盤モデルに基づく⼤規模物体操作データセットにおけるタスク成功判定

概要 - 2 - ▪ タスク ▪ マニピュレータによる物体操作におけるタスク成否判定 ▪ 新規性
▪ 3種類の視覚表現を組み合わせた -Representation ▪ MLLM, 視覚⾔語基盤モデル, シングルモーダル特徴量抽出器 ▪ 実験結果 ▪ 精度においてMLLMを含むベースライン⼿法を上回る 4x

背景︓マニピュレータの物体操作ではタスク成否判定が重要 - 3 - ▪ マニピュレータによる物体操作 Instead of this fork,
bring a spoon. 様々なサブタスク把持中のフォークを他の場所に置く/引き出しを開ける/ フォークを把持し引き出しに置く/スプーンを引き出しから取る等ロボットに各サブタスクの成否を適切に評価する能⼒があれば便利失敗を検知した時点でタスクを終了することで効率・安全性が向上 https://agrist.com/archives/1873 https://www.sankei.com/article/20220309-IIRCRHG6GRPMVKT3C4NT7MPNOI/

問題設定︓物体操作に対するタスク成否判定 - 4 - ▪ マニピュレータによるTable-Top物体操作タスクにおけるタスク成否判定 • ⼊⼒︓指⽰⽂および物体操作前後の画像 • 出⼒︓ロボットが物体操作に成功した確率の予測値
Success Failure Status 0.8 0.2 “Pick up orange from white bowl”

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 5 - ⼿法概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定
Inner Monologue [Wenlong+, CoRL23] LLMを⽤いた3種類のフィードバック機構によりタスクの実⾏を決定 PaLM-E [Danny+, ICML23] 実世界の観測値を⾔語の埋め込み空間に組み込む [Huang+, CoRL22] 実世界とのインタラクションを通して成否を判定 Inner Monologue [Wenlong+, CoRL23] PaLM-E [Danny+, ICML23]

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 6 - ⼿法概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定
Inner Monologue [Wenlong+, CoRL23] LLMを⽤いた3種類のフィードバック機構によりタスクの実⾏を決定 PaLM-E [Danny+, ICML23] 実世界の観測値を⾔語の埋め込み空間に組み込む [Huang+, CoRL22] 実世界とのインタラクションを通して成否を判定 Inner Monologue [Wenlong+, CoRL23] PaLM-E [Danny+, ICML23]

画像内の情報をあらゆる粒度で抽出したい - 7 - “Pick up the orange in the
most left side from white bowl” タスクにおいて重要な点物体操作前後の画像内において，何がどのように変化したか • 画像中に存在する物体群 • 各物体の位置関係 • 左端のオレンジの位置 • その他の物体の位置・状態

物体操作におけるタスク成否判定機構 - 8 - 1. 3種類の潜在表現を全て組み合わせた -Representationを導⼊ a. ⾊や形状などの視覚的な特徴を保持した特徴量 b.
⾃然⾔語にアラインされた特徴量 c. ⾃然⾔語を媒介として構造化された特徴量 2. -Representation Encoder 1. 物体操作前後の画像に対して -Representationのcross-attentionを計算

λ-Representation: 各解像度において特徴量を抽出 - 9 - • ⾼次特徴量 • 中次特徴量 •
低次特徴量 • MLLM • ⾔語を媒介とした特徴量 • 参照表現・構造化された空間表現 • 視覚⾔語基盤モデル (CLIP等) • ⾔語とアラインされた画像特徴量 • シングルモーダル特徴量抽出器 (ViT等) • 詳細な視覚情報(テクスチャ等)の抽出

λ-Representation Encoder: 物体操作前後の差分に注⽬ - 10 - ▪ 3つの視覚表現を統合し -Representationを取得 ▪
物体操作前後の -Representationに対しcross-attentionを計算ロボットが物体操作を適切に実⾏した確率の予測値 ︓transformer encoder ︓transformer decoder ︓feedforward network ︓予測ラベル物体操作前後の特徴量の差分に注⽬: 指⽰⽂と差分はマッチングしているか︖

実験設定︓2種類のデータセットを構築 - 11 - ▪ SP-RT-1データセット • 13,915サンプルを含む実世界データセット • RT-1データセット
[Brohan+, 22]をもとに構築 ▪ SP-VLMbenchデータセット • 8,326サンプルを含むシミュレーションデータセット • VLMbench [Zheng+, NeurIPS22]をもとに構築実世界の物体操作のための標準⼤規模データセット物体操作タスクのための標準的なベンチマーク 1x VLMbench [Zheng+, NeurIPS22] RT-1 [Brohan+, 22] 4x

定量的結果︓2つのデータセットでベースライン⼿法を上回る - 12 - ▪ SP-RT-1及びSP-VLMbenchにおいて性能を評価 ▪ 精度において全てのベースライン尺度を上回る⼿法精度
[%] SP-RT-1 SP-VLMbench InstructBLIP 52.30±0.74 41.30±0.87 Gemini 64.12±1.21 56.15±2.69 GPT-4V 69.12±0.78 57.81±0.79 UNITER 69.08±1.77 68.22±0.90 Ours 74.50±1.44 78.92±0.68 Ours (extended) 80.80±0.86 ー +11.72 +10.70 MLLM

定性的結果︓物体の状態について適切に考慮 - 13 - ▪ ペットボトルは存在するが，右上でないかつ倒れてしまっている “Place water bottle upright.”
• 正解: Failure • Ours: Failure 提案⼿法は適切に評価 • GPT-4V: Success GPT-4Vは誤って評価

定性的結果︓物体の位置関係について適切に考慮 - 14 - ▪ ⾚いペンを，適切に⻘いコンテナ内に配置することができている “Drop the red pencil
into the navy container.” • 正解: Success • Ours: Success 提案⼿法は適切に評価 • GPT-4V: Failure GPT-4Vは誤って評価

Ablation study︓ -Representationの有効性を調査 - 15 - ▪ SP-RT-1データセットにおいて，低次特徴量 (SR), 中次特徴量
(AR), ⾼次特徴量(NR)の性能への寄与を調査 ▪ NRが最も性能向上へ寄与 Model SR AR NR Accuracy [%] SP-RT-1 SP-VLMbench (i) ✔ ✔ 73.30±1.27 75.80±0.62 (ii) ✔ ✔ 72.11±1.19 74.44±1.44 (iii) ✔ ✔ 72.02±1.55 73.74±1.84 (iv) ✔ ✔ ✔ 74.50±1.44 78.92±0.68 +2.48 +5.18

実機実験︓ゼロショット転移設定においても有効性を確認 - 16 - 4x HSRを⽤いてTable-Top物体操作，タスク成否予測を実⾏⼿法精度 [%] Ours
(extended) 59±1.9 “move the light blue cup to the left front”: Success “move the light blue cup to the right front area”: Failure J

まとめ - 17 - ▪ タスク ▪ マニピュレータによる物体操作におけるタスク成否判定 ▪ 新規性
▪ 3種類の視覚表現を組み合わせた -Representation ▪ MLLM, 視覚⾔語基盤モデル, シングルモーダル特徴量抽出器 ▪ 実験結果 ▪ 精度においてMLLMを含むベースライン⼿法を上回る論⽂PDF 4x

定性的結果︓ いくつかのサンプルではオクルージョンにより予測が困難 - 20 - ▪ 7upの⽸は配置時の衝撃で倒れているが，アームが被っている • 正解: Failure
• Ours: Success “Pick 7up can from bottom drawer and place on counter.”

エラー分析︓物体についての理解が不⾜ - 21 - エラー #エラー (1) Multimodal Language Comprehension
Error 45 (2) Occlusion 26 (3) Ambiguous Situation 9 (4) Narrative Hallucination 9 (5) Out-of-Frame 6 (6) Ambiguous Instruction 5 計 100 ・マルチモーダル⾔語理解について性能が不⼗分・物体についての理解が重要 ex. キャプション⽣成的アプローチ

[JSAI24]Task Success Prediction for Object Mani...

[JSAI24]Task Success Prediction for Object Manipulation Based on Scene, Aligned, and Narrative Representations

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾⼤学齋藤⼤地，◦神原元就，九曜克之，杉浦孔明マルチモーダルLLMおよび視覚⾔語基盤モデルに基づく⼤規模物体操作データセットにおけるタスク成功判定

概要 - 2 - ▪ タスク ▪ マニピュレータによる物体操作におけるタスク成否判定 ▪ 新規性

背景︓マニピュレータの物体操作ではタスク成否判定が重要 - 3 - ▪ マニピュレータによる物体操作 Instead of this fork,

問題設定︓物体操作に対するタスク成否判定 - 4 - ▪ マニピュレータによるTable-Top物体操作タスクにおけるタスク成否判定 • ⼊⼒︓指⽰⽂および物体操作前後の画像 • 出⼒︓ロボットが物体操作に成功した確率の予測値

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 5 - ⼿法概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定

関連研究︓LLMによるタスク成否判定は性能が不⼗分 - 6 - ⼿法概要 SayCan [Anthony+, CoRL23] LLM及び価値関数を⽤いてサブタスクを決定

画像内の情報をあらゆる粒度で抽出したい - 7 - “Pick up the orange in the

物体操作におけるタスク成否判定機構 - 8 - 1. 3種類の潜在表現を全て組み合わせた -Representationを導⼊ a. ⾊や形状などの視覚的な特徴を保持した特徴量 b.

λ-Representation: 各解像度において特徴量を抽出 - 9 - • ⾼次特徴量 • 中次特徴量 •

λ-Representation Encoder: 物体操作前後の差分に注⽬ - 10 - ▪ 3つの視覚表現を統合し -Representationを取得 ▪

実験設定︓2種類のデータセットを構築 - 11 - ▪ SP-RT-1データセット • 13,915サンプルを含む実世界データセット • RT-1データセット

定量的結果︓2つのデータセットでベースライン⼿法を上回る - 12 - ▪ SP-RT-1及びSP-VLMbenchにおいて性能を評価 ▪ 精度において全てのベースライン尺度を上回る⼿法精度

定性的結果︓物体の状態について適切に考慮 - 13 - ▪ ペットボトルは存在するが，右上でないかつ倒れてしまっている “Place water bottle upright.”

定性的結果︓物体の位置関係について適切に考慮 - 14 - ▪ ⾚いペンを，適切に⻘いコンテナ内に配置することができている “Drop the red pencil

Ablation study︓ -Representationの有効性を調査 - 15 - ▪ SP-RT-1データセットにおいて，低次特徴量 (SR), 中次特徴量

実機実験︓ゼロショット転移設定においても有効性を確認 - 16 - 4x HSRを⽤いてTable-Top物体操作，タスク成否予測を実⾏⼿法精度 [%] Ours

まとめ - 17 - ▪ タスク ▪ マニピュレータによる物体操作におけるタスク成否判定 ▪ 新規性

定性的結果︓ いくつかのサンプルではオクルージョンにより予測が困難 - 20 - ▪ 7upの⽸は配置時の衝撃で倒れているが，アームが被っている • 正解: Failure

エラー分析︓物体についての理解が不⾜ - 21 - エラー #エラー (1) Multimodal Language Comprehension