Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] VIMA: General Robot Manipulation with Multimodal Prompts

[Journal club] VIMA: General Robot Manipulation with Multimodal Prompts

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 長嶋隼矢 VIMA: General Robot Manipulation with Multimodal Prompts

    Yunfan Jiang 1, Agrim Gupta 1, Zichen Zhang 2, Guanzhi Wang 3,4, Yongqiang Dou 5, Yanjun Chen 1, Li Fei-Fei 1, Anima Anandkumar 3,4, Yuke Zhu 3,6, Linxi Fan 3 1Stanford, 2Macalester College, now at Allen Institute for AI, 3NVIDIA, 4Caltech, 5Tsinghua, 6UT Austin ICML 2023 Jiang, Y., Gupta, A., Zhang, Z., Wang, G., Dou, Y., Chen, Y., et al. "Vima: General Robot Manipulation with Multimodal Prompts." ICML 2023.
  2. 背景 : 既存のロボット操作タスクでは個別にモデル構築 n タスク毎に独自のモデルやアーキテクチャが必要 n 多くのロボット操作タスクにおいて、タスク固有のモデルを構築 n 各モデルを統合することは困難 n

    これらを統合できると表現力の向上が期待 2 [Stengel-Eskin+, PMLR22] 【自然言語によるロボット操作】 【視覚によるロボット操作】 [Aceituno+, CoRL21]
  3. 関連研究 : 自然言語文(プロンプト)を入力とする手法が多い 3 手法 概要 CLIPort [Shridhar+, CoRL 21]

    言語条件付き模倣学習手法を用いて複数の物体配置タスクを実行 SayCan [Ahn+, CoRL22] LLMを用いて高レベル指示文から有用なタスクを決定 PaLM-E [Driess+, 23] LLMを用いてマルチモーダル文章から複数のタスクを実行 CLIPort [Shridhar+, CoRL 21] SayCan [Ahn+, CoRL22] PaLM-E [Driess+, 23]
  4. プロンプト:言語と画像のマルチモーダルプロンプトは表現力が高い 5 n 幅広いロボット操作タスクを表現可能 n 物体再配置タスク ex.) “Please rearrange objects

    to match this {scene image}” n デモ動画の模倣学習 ex.) “Follow this motion trajectory for the wooden cube: {frame1}, {frame2}, {frame3}, {frame4}”
  5. 6 データセット:新しいベンチマークVIMA-BENCHの作成 n VIMA-BENCH n 6つに分類される17個のプロンプトテンプレートを作成 n 各テンプレート毎に何千ものインスタンスが存在 n 正面から見た画像と上から見た画像が存在

    n 模倣学習のための大規模なデータセットを作成 n 1タスクあたり50k個の軌道のデータを用意 n 合計で650k個の軌道のデータを用意 n 評価のために17個のうち4個のタスクがテストセット
  6. 8 提案手法(2/4):VIMAのエンコーダ構造 n エンコーダにおけるプロンプトのトークン化 1. 文字のとき n PretrainedのT5のTokenizerを使用 2. 特定の物体画像のとき

    n ViTを用いて特徴量に変換 3. 全体画像のとき n 事前学習済みのMask R-CNNを使用し、各物体領域 を抽出 n 検出したbounding boxをbounding box encoderに、 切り取った画像はViTを用いて特徴量に変換
  7. 11 段階別評価:設定を変えて評価 n モデルの汎化性能を確認するために以下の4設定で評価 1. Placement generalization : すべてのプロンプトはseenだが配置はランダム 2.

    Combinatorial generalization : すべての言語&物体はseenだが組み合わせは初出 3. Novel object generalization : unseenのプロンプトや物体を含む 4. Novel task generalization : unseenのタスクを含む
  8. 12 定量的結果:データスケーリングの確認 n 比較する手法の設定 n Gato, Flamingo, GPTをマルチモーダル プロンプト用に改良したVIMA-Gato, VIMA-Flamingo,

    VIMA-GPTで比較 n 考察 n L1, L2での提案手法の1%のデータを用いた成功率 が10倍のデータを用いた他手法の成功率と同程度 n L4においては、提案手法の1%のデータを用いた 精度が他手法のすべてのデータを使った場合より も高い成功率 ※評価指標はSuccess Rate
  9. 13 追試およびエラー分析(定性的結果):終了判定によるエラーが多数 n モデルのパラメータ数:200M, 92M, 43M, 20M, 9M, 4M, 2M

    n unseenのタスクを含む Novel task generalizationで評価 n 考察 n 正しくタスクを完了しているが正しく終了判定できない例が多数 J Put into then . Finally restore it into its original container. L Put into then . Finally restore it into its original container.
  10. まとめ 背景 n 既存の手法ではタスク毎に異なるモデルを構築する必要 n タスクに依存しない統一的な手法は少ない 提案 n 画像と言語を複合したマルチモーダルプロンプト によるロボット操作タスクの提案

    n transformerベースのロボット エージェントVIMAを提案 結果 n 汎化性能別に分けた4段階の評価指標の全てにおいて 提案手法がベースライン手法より高い性能を報告 14
  11. 15 Appendix:マルチモーダルプロンプトテンプレートの用意 n 6つのマルチモーダルプロンプトのテンプレートを用意 1. Simple object manipulation(単純な物体操作) 2. Visual

    goal reaching(視覚的目標の達成) 3. Novel concept grounding(新規概念への接地) ex.) 言語はunseenで画像が与えられる 4. One-shot video imitation(ワンショットでの動画模倣) 5. Visual Constraint Satisfaction(安全条件の充足) 6. Visual reasoning(視覚的推論) 5. Visual Constraint Satisfaction
  12. 17 Appendix: Ablation Study (object-centric表現の方がよい性能) n デコーダにおける画像トークナイザーを変更 n 提案手法 n

    提案手法(GT(Oracle)を使う) n Object Perceiverを使用 n Image Patchesを使用 n Single image n考察 n 画素からのトークン化(Perceiver, Image Patch, Single image)は成功率が低い object-centric表現の方がよい性能 nPerceiverのように固定長のトークンに変換するのはよくない
  13. 18 Appendix : Ablation Study (GPT likeなデコーダを用いたモデルの検証) n 状態と行動の履歴ℋとプロンプト𝒫を統合して入力するGPTのようなデコーダだけのTransformerを用 いた場合について検証

    n 考察 n 提案手法のクロスアテンションを用いたほうがゼロショット設定においてよく汎化 n モデルサイズがより大きくなるとgpt-decoderが上回る可能性