Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] MOKA: Open-Vocabulary Robotic Ma...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
Technology
0
290
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 15, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
52
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
91
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
69
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
310
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
180
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
36
[Journal club] Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action Models
keio_smilab
PRO
0
10
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
67
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
95
Other Decks in Technology
See All in Technology
Java 25に至る道
skrb
3
130
スクラムマスターが スクラムチームに入って取り組む5つのこと - スクラムガイドには書いてないけど入った当初から取り組んでおきたい大切なこと -
scrummasudar
0
1k
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
19k
プロンプトエンジニアリングを超えて:自由と統制のあいだでつくる Platform × Context Engineering
yuriemori
0
130
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
170
複雑さを受け入れるか、拒むか? - 事業成長とともに育ったモノリスを前に私が考えたこと #RSGT2026
murabayashi
0
920
「駆動」って言葉、なんかカッコイイ_Mitz
comucal
PRO
0
130
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
17k
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
5
1.5k
Redshift認可、アップデートでどう変わった?
handy
1
120
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
820
善意の活動は、なぜ続かなくなるのか ーふりかえりが"構造を変える判断"になった半年間ー
matsukurou
0
180
Featured
See All Featured
The SEO identity crisis: Don't let AI make you average
varn
0
44
Scaling GitHub
holman
464
140k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.9k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.3k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
0
84
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
From π to Pie charts
rasagy
0
100
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
130
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.1k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
690
Transcript
慶應義塾大学 杉浦孔明研究室 名字氏名 MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting Kuan Fang, Fangchen Liu, Pieter Abbeel, Sergey Levine (UC Berkeley) RSS 2024 慶應義塾大学 杉浦孔明研究室 是方諒介 Fang, K., Liu, F., Abbeel, P., Levine, S. "MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting.“ RSS 2024.
概要 背景 ✓ open-vocabularyな指示文に基づく物体操作タスク ✓ 基盤モデルの常識的な知識への期待 提案 ✓ VLMによるhigh/low-levelな2段階のreasoning ✓
VQAに帰着したkeypoint予測に基づくaffordance検出 結果 ✓ 実機において階層的な物体操作タスクを実施し,既存手法を上回る成功率 ✓ ロボティクス基盤モデルによる拡張性を示唆 2
背景:open-vocabularyな指示文に基づく物体操作 ◼ 課題 ◼ 指示文の曖昧さ,複雑性,階層性 ◼ 多様かつ未知の物体/環境への汎化 → 常識的な知識を持つ基盤モデルに期待
LLMは視覚情報が欠落し,3D空間の認知に弱い ☺ VLMにより,視覚と軌道生成との中間的な affordance表現をkeypointとして獲得 3 "Insert the pink roses into the vase." "Put the scissors in the hand."
関連研究:VLMによるkeypoint予測を扱う手法は少ない 4 手法 概要 Code as Policies [Liang+, ICRA23] LLMにより,指示文を実行可能なコードに変換
VLMを用いておらず,視覚的な接地が不十分 VoxPoser [Huang+, CoRL23] voxel value mapを構築し,LLM / VLMを用いてプランニング 性能がvoxel mapの解像度に依存 ViLa [Hu+, 23] GPT-4Vを用いたプランニング low-levelなスキルを事前に定義する必要がある Code as Policies VoxPoser ViLa
提案手法:Marking Open-vocabulary Keypoint Affordances (MOKA) ◼ VLM (GPT-4V) によるhigh /
low-levelな2段階のreasoning ◼ affordance検出を,keypoint / waypoint選択に関するVQAに帰着 ◼ 対象物体の候補点/全体をgrid状に分割した候補領域を観測画像に重畳 5
high-level reasoning:階層的な指示文をサブタスクに分解 ◼ サブタスクごとに把持物体,干渉物体,操作方向を特定 ◼ GroundedSAM [Ren+, 24] により対象物体のセグメンテーションマスクを取得 6
Grounding DINO [Liu+, 23] + SAM [Kirillov+, ICCV23] :プロンプト :指示文 :初期の観測画像
low-level reasoning (1/2):マーキングによる視覚的なプロンプト ◼ VLMは座標を直接予測するより候補から選択する方が正確 (cf. SoM [Yang+, 23]) ◼
keypoint候補:PointNet [Qi+, CVPR17] による輪郭上の 点 + 物体の中心1点 ◼ waypoint候補:観測画像全体をgrid状に分割 → そこから一様に1点をサンプリング 7 SoM
low-level reasoning (2/2):VLMの「選択」によるkeypoint / waypoint予測 ◼ サブタスクごとに把持,作用,干渉keypoint,および動作waypointを選択 8 :プロンプト, :サブタスク,
:現在の観測画像, :マーキング処理
成功例に基づく改良:in-context learning, policy distillation ◼ in-context learning ◼ 3つの成功例(画像,出力)をVLMのプロンプトに追加 ◼
policy distillation ◼ ロボティクス基盤モデル Octo [Ghosh+, 23] ◼ RT-X [Vuong+, CoRL23] データセットの800Kの軌道でpre-trained ◼ 本タスクにおいて,50の軌道でfine-tuning 9 Octo RT-X
定量的結果:既存手法を上回るタスク成功率 [%] ◼ それぞれ2つのサブタスクから成る,合計4タスクを各々10回試行 ◼ 考察 ✓ すべてのサブタスクにおいて,既存手法と同等または上回った ✓ 蒸留の寄与より,data
generatorとしての応用可能性を示唆 10
定性的結果 (1/2):階層的なタスクを正確に実施 ◼ Table Wiping ◼ Laptop Packing 11 "Unplug
the charge cable and close the lid of the laptop." "Move the eyeglasses onto the yellow cloth and use the brush to sweep the snack package to the right side of the table."
定性的結果 (2/2):異なる指示文,配置,形容に対して頑健 ◼ 同じタスクに関して,多様な条件で評価 12
まとめ 背景 ✓ open-vocabularyな指示文に基づく物体操作タスク ✓ 基盤モデルの常識的な知識への期待 提案 ✓ VLMによるhigh/low-levelな2段階のreasoning ✓
VQAに帰着したkeypoint予測に基づくaffordance検出 結果 ✓ 実機において階層的な物体操作タスクを実施し,既存手法を上回る成功率 ✓ ロボティクス基盤モデルによる拡張性を示唆 13
Appendix:疑似コード 14
Appendix:high-level reasoningに用いるプロンプト 15
Appendix:low-level reasoningに用いるプロンプト (1/2) 16 入力に関する説明 keypoint / waypointの定義
Appendix:low-level reasoningに用いるプロンプト (2/2) 17 出力に関する説明
Appendix:その他のタスク 18 ◼ Watch Cleaning ◼ Gift Preparation
Appendix:Ablation Study 19
Appendix:エラー分析 20