Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Technology
240
1
Share
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
12
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
110
A Gentle Introduction to Transformers
keio_smilab
PRO
5
2.5k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
40
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
110
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
170
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
120
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
400
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
250
Other Decks in Technology
See All in Technology
AIを活用したアクセシビリティ改善フロー
degudegu2510
1
140
15年メンテしてきたdotfilesから開発トレンドを振り返る 2011 - 2026
giginet
PRO
2
280
OpenClaw初心者向けセミナー / OpenClaw Beginner Seminar
cmhiranofumio
0
310
Podcast配信で広がったアウトプットの輪~70人と音声発信してきた7年間~/outputconf_01
fortegp05
0
230
すごいぞManaged Kubernetes
harukasakihara
1
310
Claude Teamプランの選定と、できること/できないこと
rfdnxbro
1
180
AIにより大幅に強化された AWS Transform Customを触ってみる
0air
0
310
OCI技術資料 : ロード・バランサ 概要 - FLB・NLB共通
ocise
4
27k
出版記念イベントin大阪「書籍紹介&私がよく使うMCPサーバー3選と社内で安全に活用する方法」
kintotechdev
0
150
BIツール「Omni」の紹介 @Snowflake中部UG
sagara
0
160
バックオフィスPJのPjMをコーポレートITが担うとうまくいく3つの理由
yueda256
1
270
Datadog で実現するセキュリティ対策 ~オブザーバビリティとセキュリティを 一緒にやると何がいいのか~
a2ush
0
190
Featured
See All Featured
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
480
The SEO Collaboration Effect
kristinabergwall1
0
410
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Code Reviewing Like a Champion
maltzj
528
40k
Agile that works and the tools we love
rasmusluckow
331
21k
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
160
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.9k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
350
Designing for Timeless Needs
cassininazir
0
180
Exploring anti-patterns in Rails
aemeredith
3
300
WCS-LA-2024
lcolladotor
0
510
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
120
Transcript
慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測
背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x
背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]
関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]
問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」
提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder
Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント
定量的結果:ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認
定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測
定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測
まとめ - 11 - ▪ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x