[Journal club] VIMA: General Robot Manipulation with Multimodal Prompts

慶應義塾大学杉浦孔明研究室長嶋隼矢 VIMA: General Robot Manipulation with Multimodal Prompts
Yunfan Jiang 1, Agrim Gupta 1, Zichen Zhang 2, Guanzhi Wang 3,4, Yongqiang Dou 5, Yanjun Chen 1, Li Fei-Fei 1, Anima Anandkumar 3,4, Yuke Zhu 3,6, Linxi Fan 3 1Stanford, 2Macalester College, now at Allen Institute for AI, 3NVIDIA, 4Caltech, 5Tsinghua, 6UT Austin ICML 2023 Jiang, Y., Gupta, A., Zhang, Z., Wang, G., Dou, Y., Chen, Y., et al. "Vima: General Robot Manipulation with Multimodal Prompts." ICML 2023.

背景 : 既存のロボット操作タスクでは個別にモデル構築 n タスク毎に独自のモデルやアーキテクチャが必要 n 多くのロボット操作タスクにおいて、タスク固有のモデルを構築 n 各モデルを統合することは困難 n
これらを統合できると表現力の向上が期待 2 [Stengel-Eskin+, PMLR22] 【自然言語によるロボット操作】【視覚によるロボット操作】 [Aceituno+, CoRL21]

関連研究 : 自然言語文(プロンプト)を入力とする手法が多い 3 手法概要 CLIPort [Shridhar+, CoRL 21]
言語条件付き模倣学習手法を用いて複数の物体配置タスクを実行 SayCan [Ahn+, CoRL22] LLMを用いて高レベル指示文から有用なタスクを決定 PaLM-E [Driess+, 23] LLMを用いてマルチモーダル文章から複数のタスクを実行 CLIPort [Shridhar+, CoRL 21] SayCan [Ahn+, CoRL22] PaLM-E [Driess+, 23]

提案アプローチ：VIMA (VisuoMotor Attention agent) 4 n 言語と画像を複合したマルチモーダルプロンプトによる物体操作 n 多くのロボット操作タスクがマルチモーダルプロンプトで表現可能 n
複数のタスクを統一的なモデルで実行可能

プロンプト：言語と画像のマルチモーダルプロンプトは表現力が高い 5 n 幅広いロボット操作タスクを表現可能 n 物体再配置タスク ex.) “Please rearrange objects
to match this {scene image}” n デモ動画の模倣学習 ex.) “Follow this motion trajectory for the wooden cube: {frame1}, {frame2}, {frame3}, {frame4}”

6 データセット：新しいベンチマークVIMA-BENCHの作成 n VIMA-BENCH n 6つに分類される17個のプロンプトテンプレートを作成 n 各テンプレート毎に何千ものインスタンスが存在 n 正面から見た画像と上から見た画像が存在
n 模倣学習のための大規模なデータセットを作成 n 1タスクあたり50k個の軌道のデータを用意 n 合計で650k個の軌道のデータを用意 n 評価のために17個のうち4個のタスクがテストセット

7 提案手法(1/4)：マルチタスクエージェントVIMAのアーキテクチャ n マルチタスクモデル(模倣学習) n transformerベースのエンコーダ・デコーダモデル n 過去の状態と行動の履歴ℋとプロンプト𝒫が与えられたとき、以下の方策𝜋を学習する
n ここで、 ℋ=[o!, a!, o", … , o#], n o! は視覚特徴量、 a! は行動 n プロンプト𝒫の詳細は次スライド以降 𝜋(a! |𝒫, ℋ) Encoder Decoder

8 提案手法(2/4)：VIMAのエンコーダ構造 n エンコーダにおけるプロンプトのトークン化 1. 文字のとき n PretrainedのT5のTokenizerを使用 2. 特定の物体画像のとき
n ViTを用いて特徴量に変換 3. 全体画像のとき n 事前学習済みのMask R-CNNを使用し、各物体領域を抽出 n 検出したbounding boxをbounding box encoderに、切り取った画像はViTを用いて特徴量に変換

9 提案手法(3/4)：VIMAのデコーダ構造 n デコーダにおけるプロンプトのトークン化 1. プロンプト𝒫もCross-Attentionで使用 n PretrainedのT5のTokenizerを使用 2. プロンプト𝒫における出力をK𝒫,
V𝒫 とし、 n 履歴ℋにおける出力をQℋ とすると、 Cross-Attention層では以下のように計算 𝓟 𝓟

10 提案アプローチ(4/4)：VIMAの学習 n 出力は行動(右図) n この行動をロボットアームの離散化されたポーズに対応付ける n 損失関数 n
以下の損失関数を使用

11 段階別評価：設定を変えて評価 n モデルの汎化性能を確認するために以下の4設定で評価 1. Placement generalization : すべてのプロンプトはseenだが配置はランダム 2.
Combinatorial generalization : すべての言語＆物体はseenだが組み合わせは初出 3. Novel object generalization : unseenのプロンプトや物体を含む 4. Novel task generalization : unseenのタスクを含む

12 定量的結果：データスケーリングの確認 n 比較する手法の設定 n Gato, Flamingo, GPTをマルチモーダルプロンプト用に改良したVIMA-Gato, VIMA-Flamingo,
VIMA-GPTで比較 n 考察 n L1, L2での提案手法の1%のデータを用いた成功率が10倍のデータを用いた他手法の成功率と同程度 n L4においては、提案手法の1%のデータを用いた精度が他手法のすべてのデータを使った場合よりも高い成功率 ※評価指標はSuccess Rate

13 追試およびエラー分析(定性的結果)：終了判定によるエラーが多数 n モデルのパラメータ数：200M, 92M, 43M, 20M, 9M, 4M, 2M
n unseenのタスクを含む Novel task generalizationで評価 n 考察 n 正しくタスクを完了しているが正しく終了判定できない例が多数 J Put into then . Finally restore it into its original container. L Put into then . Finally restore it into its original container.

まとめ背景 n 既存の手法ではタスク毎に異なるモデルを構築する必要 n タスクに依存しない統一的な手法は少ない提案 n 画像と言語を複合したマルチモーダルプロンプトによるロボット操作タスクの提案
n transformerベースのロボットエージェントVIMAを提案結果 n 汎化性能別に分けた4段階の評価指標の全てにおいて提案手法がベースライン手法より高い性能を報告 14

15 Appendix：マルチモーダルプロンプトテンプレートの用意 n 6つのマルチモーダルプロンプトのテンプレートを用意 1. Simple object manipulation(単純な物体操作) 2. Visual
goal reaching(視覚的目標の達成) 3. Novel concept grounding(新規概念への接地) ex.) 言語はunseenで画像が与えられる 4. One-shot video imitation(ワンショットでの動画模倣) 5. Visual Constraint Satisfaction(安全条件の充足) 6. Visual reasoning(視覚的推論) 5. Visual Constraint Satisfaction

16 Appendix：モデルスケーリングの確認 n 考察 n VIMAはすべての設定で一番成功率が高い n 他手法では、提案手法の100倍のモデルサイズを用いても提案手法を上回らない n 他の手法もモデルサイズを大きくすると成功率が向上する傾向がある

17 Appendix： Ablation Study (object-centric表現の方がよい性能) n デコーダにおける画像トークナイザーを変更 n 提案手法 n
提案手法(GT(Oracle)を使う) n Object Perceiverを使用 n Image Patchesを使用 n Single image n考察 n 画素からのトークン化（Perceiver, Image Patch, Single image)は成功率が低い object-centric表現の方がよい性能 nPerceiverのように固定長のトークンに変換するのはよくない

18 Appendix : Ablation Study (GPT likeなデコーダを用いたモデルの検証) n 状態と行動の履歴ℋとプロンプト𝒫を統合して入力するGPTのようなデコーダだけのTransformerを用いた場合について検証
n 考察 n 提案手法のクロスアテンションを用いたほうがゼロショット設定においてよく汎化 n モデルサイズがより大きくなるとgpt-decoderが上回る可能性

[Journal club] VIMA: General Robot Manipulation...

[Journal club] VIMA: General Robot Manipulation with Multimodal Prompts

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室長嶋隼矢 VIMA: General Robot Manipulation with Multimodal Prompts

背景 : 既存のロボット操作タスクでは個別にモデル構築 n タスク毎に独自のモデルやアーキテクチャが必要 n 多くのロボット操作タスクにおいて、タスク固有のモデルを構築 n 各モデルを統合することは困難 n

関連研究 : 自然言語文(プロンプト)を入力とする手法が多い 3 手法概要 CLIPort [Shridhar+, CoRL 21]

提案アプローチ：VIMA (VisuoMotor Attention agent) 4 n 言語と画像を複合したマルチモーダルプロンプトによる物体操作 n 多くのロボット操作タスクがマルチモーダルプロンプトで表現可能 n

プロンプト：言語と画像のマルチモーダルプロンプトは表現力が高い 5 n 幅広いロボット操作タスクを表現可能 n 物体再配置タスク ex.) “Please rearrange objects

6 データセット：新しいベンチマークVIMA-BENCHの作成 n VIMA-BENCH n 6つに分類される17個のプロンプトテンプレートを作成 n 各テンプレート毎に何千ものインスタンスが存在 n 正面から見た画像と上から見た画像が存在

8 提案手法(2/4)：VIMAのエンコーダ構造 n エンコーダにおけるプロンプトのトークン化 1. 文字のとき n PretrainedのT5のTokenizerを使用 2. 特定の物体画像のとき

9 提案手法(3/4)：VIMAのデコーダ構造 n デコーダにおけるプロンプトのトークン化 1. プロンプト𝒫もCross-Attentionで使用 n PretrainedのT5のTokenizerを使用 2. プロンプト𝒫における出力をK𝒫,

10 提案アプローチ(4/4)：VIMAの学習 n 出力は行動(右図) n この行動をロボットアームの離散化されたポーズに対応付ける n 損失関数 n

11 段階別評価：設定を変えて評価 n モデルの汎化性能を確認するために以下の4設定で評価 1. Placement generalization : すべてのプロンプトはseenだが配置はランダム 2.

12 定量的結果：データスケーリングの確認 n 比較する手法の設定 n Gato, Flamingo, GPTをマルチモーダルプロンプト用に改良したVIMA-Gato, VIMA-Flamingo,

13 追試およびエラー分析(定性的結果)：終了判定によるエラーが多数 n モデルのパラメータ数：200M, 92M, 43M, 20M, 9M, 4M, 2M

まとめ背景 n 既存の手法ではタスク毎に異なるモデルを構築する必要 n タスクに依存しない統一的な手法は少ない提案 n 画像と言語を複合したマルチモーダルプロンプトによるロボット操作タスクの提案

15 Appendix：マルチモーダルプロンプトテンプレートの用意 n 6つのマルチモーダルプロンプトのテンプレートを用意 1. Simple object manipulation(単純な物体操作) 2. Visual

17 Appendix： Ablation Study (object-centric表現の方がよい性能) n デコーダにおける画像トークナイザーを変更 n 提案手法 n

18 Appendix : Ablation Study (GPT likeなデコーダを用いたモデルの検証) n 状態と行動の履歴ℋとプロンプト𝒫を統合して入力するGPTのようなデコーダだけのTransformerを用いた場合について検証