[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting

Slide 1

Slide 1 text

慶應義塾大学杉浦孔明研究室名字氏名 MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting Kuan Fang, Fangchen Liu, Pieter Abbeel, Sergey Levine (UC Berkeley) RSS 2024 慶應義塾大学杉浦孔明研究室是方諒介 Fang, K., Liu, F., Abbeel, P., Levine, S. "MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting.“ RSS 2024.

Slide 2

Slide 2 text

概要背景 ✓ open-vocabularyな指示文に基づく物体操作タスク ✓ 基盤モデルの常識的な知識への期待提案 ✓ VLMによるhigh/low-levelな2段階のreasoning ✓ VQAに帰着したkeypoint予測に基づくaffordance検出結果 ✓ 実機において階層的な物体操作タスクを実施し，既存手法を上回る成功率 ✓ ロボティクス基盤モデルによる拡張性を示唆 2

Slide 3

Slide 3 text

背景：open-vocabularyな指示文に基づく物体操作 ◼ 課題 ◼ 指示文の曖昧さ，複雑性，階層性 ◼ 多様かつ未知の物体/環境への汎化 → 常識的な知識を持つ基盤モデルに期待  LLMは視覚情報が欠落し，3D空間の認知に弱い ☺ VLMにより，視覚と軌道生成との中間的な affordance表現をkeypointとして獲得 3 "Insert the pink roses into the vase." "Put the scissors in the hand."

Slide 4

Slide 4 text

関連研究：VLMによるkeypoint予測を扱う手法は少ない 4 手法概要 Code as Policies [Liang+, ICRA23] LLMにより，指示文を実行可能なコードに変換  VLMを用いておらず，視覚的な接地が不十分 VoxPoser [Huang+, CoRL23] voxel value mapを構築し，LLM / VLMを用いてプランニング  性能がvoxel mapの解像度に依存 ViLa [Hu+, 23] GPT-4Vを用いたプランニング  low-levelなスキルを事前に定義する必要がある Code as Policies VoxPoser ViLa

Slide 5

Slide 5 text

提案手法：Marking Open-vocabulary Keypoint Affordances (MOKA) ◼ VLM (GPT-4V) によるhigh / low-levelな2段階のreasoning ◼ affordance検出を，keypoint / waypoint選択に関するVQAに帰着 ◼ 対象物体の候補点/全体をgrid状に分割した候補領域を観測画像に重畳 5

Slide 6

Slide 6 text

high-level reasoning：階層的な指示文をサブタスクに分解 ◼ サブタスクごとに把持物体，干渉物体，操作方向を特定 ◼ GroundedSAM [Ren+, 24] により対象物体のセグメンテーションマスクを取得 6 Grounding DINO [Liu+, 23] + SAM [Kirillov+, ICCV23] ：プロンプト：指示文：初期の観測画像

Slide 7

Slide 7 text

low-level reasoning (1/2)：マーキングによる視覚的なプロンプト ◼ VLMは座標を直接予測するより候補から選択する方が正確 (cf. SoM [Yang+, 23]) ◼ keypoint候補：PointNet [Qi+, CVPR17] による輪郭上の点 + 物体の中心1点 ◼ waypoint候補：観測画像全体をgrid状に分割 → そこから一様に1点をサンプリング 7 SoM

Slide 8

Slide 8 text

low-level reasoning (2/2)：VLMの「選択」によるkeypoint / waypoint予測 ◼ サブタスクごとに把持，作用，干渉keypoint，および動作waypointを選択 8 ：プロンプト，：サブタスク，：現在の観測画像，：マーキング処理

Slide 9

Slide 9 text

成功例に基づく改良：in-context learning, policy distillation ◼ in-context learning ◼ 3つの成功例（画像，出力）をVLMのプロンプトに追加 ◼ policy distillation ◼ ロボティクス基盤モデル Octo [Ghosh+, 23] ◼ RT-X [Vuong+, CoRL23] データセットの800Kの軌道でpre-trained ◼ 本タスクにおいて，50の軌道でfine-tuning 9 Octo RT-X

Slide 10

Slide 10 text

定量的結果：既存手法を上回るタスク成功率 [%] ◼ それぞれ2つのサブタスクから成る，合計4タスクを各々10回試行 ◼ 考察 ✓ すべてのサブタスクにおいて，既存手法と同等または上回った ✓ 蒸留の寄与より，data generatorとしての応用可能性を示唆 10

Slide 11

Slide 11 text

定性的結果 (1/2)：階層的なタスクを正確に実施 ◼ Table Wiping ◼ Laptop Packing 11 "Unplug the charge cable and close the lid of the laptop." "Move the eyeglasses onto the yellow cloth and use the brush to sweep the snack package to the right side of the table."

Slide 12

Slide 12 text

定性的結果 (2/2)：異なる指示文，配置，形容に対して頑健 ◼ 同じタスクに関して，多様な条件で評価 12

Slide 13

Slide 13 text

まとめ背景 ✓ open-vocabularyな指示文に基づく物体操作タスク ✓ 基盤モデルの常識的な知識への期待提案 ✓ VLMによるhigh/low-levelな2段階のreasoning ✓ VQAに帰着したkeypoint予測に基づくaffordance検出結果 ✓ 実機において階層的な物体操作タスクを実施し，既存手法を上回る成功率 ✓ ロボティクス基盤モデルによる拡張性を示唆 13

Slide 14

Slide 14 text

Appendix：疑似コード 14

Slide 15

Slide 15 text

Appendix：high-level reasoningに用いるプロンプト 15

Slide 16

Slide 16 text

Appendix：low-level reasoningに用いるプロンプト (1/2) 16 入力に関する説明 keypoint / waypointの定義

Slide 17

Slide 17 text

Appendix：low-level reasoningに用いるプロンプト (2/2) 17 出力に関する説明