Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Technology
240
1
Share
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
57
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
44
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
63
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
130
A Gentle Introduction to Transformers
keio_smilab
PRO
10
4.9k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
45
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
120
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
170
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
120
Other Decks in Technology
See All in Technology
AIが書いたコードを信じられない問題 〜レビュー負荷を下げるために変えたこと〜 / The AI Code Trust Gap: Reducing the Review Burden
bitkey
PRO
8
1.4k
Arcana: Production-Ready RAG in Elixir @ ElixirConf EU 2026
georgeguimaraes
0
110
AI駆動1on1〜AIに自分を育ててもらう〜
yoshiakiyasuda
0
140
マルチエージェント × ハーネスエンジニアリング × GitLab Duo Agent Platformで実現する「AIエージェントに仕事をさせる時代へ。」 / 20260421 GitLab Duo Agent Platform
n11sh1
0
180
生成AIが変える SaaS の競争原理と弁護士ドットコムのプロダクト戦略
bengo4com
1
1.8k
No Types Needed, Just Callable Method Check
dak2
1
1.5k
MLOps導入のための組織作りの第一歩
akasan
0
350
M5Stack CoreS3とZephyr(RTOS)で Edge AIっぽいことしてみた
iotengineer22
0
270
Keeping Ruby Running on Cygwin
fd0
0
170
Standards et agents IA : un tour d’horizon de MCP, A2A, ADK et plus encore
glaforge
0
190
実践ハーネスエンジニアリング:TAKTで実現するAIエージェント制御 / Practical Harness Engineering: AI Agent Control Enabled by TAKT
nrslib
12
4.7k
AgentCore×VPCでの設計パターンn選と勘所
har1101
3
300
Featured
See All Featured
Writing Fast Ruby
sferik
630
63k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
210
XXLCSS - How to scale CSS and keep your sanity
sugarenia
250
1.3M
Into the Great Unknown - MozCon
thekraken
41
2.4k
What the history of the web can teach us about the future of AI
inesmontani
PRO
1
530
Mobile First: as difficult as doing things right
swwweet
225
10k
Tell your own story through comics
letsgokoyo
1
900
Mind Mapping
helmedeiros
PRO
1
160
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
Transcript
慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測
背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x
背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]
関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]
問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」
提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder
Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント
定量的結果:ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認
定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測
定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測
まとめ - 11 - ▪ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x