Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タス...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
Technology
240
1
Share
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 05, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
110
A Gentle Introduction to Transformers
keio_smilab
PRO
5
2.5k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
39
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
100
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
160
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
120
[Journal club] Flow Matching for Generative Modeling
keio_smilab
PRO
1
400
Multimodal AI Driving Solutions to Societal Challenges
keio_smilab
PRO
2
250
[Journal club] Re-thinking Temporal Search for Long-Form Video Understanding
keio_smilab
PRO
0
66
Other Decks in Technology
See All in Technology
スクラムを支える内部品質の話
iij_pr
0
150
FASTでAIエージェントを作りまくろう!
yukiogawa
4
180
Even G2 クイックスタートガイド(日本語版)
vrshinobi1
0
180
脳が溶けた話 / Melted Brain
keisuke69
1
1.2k
Move Fast and Break Things: 10 in 20
ramimac
0
110
Kiro Meetup #7 Kiro アップデート (2025/12/15〜2026/3/20)
katzueno
2
270
Sansanの認証基盤を支えるアーキテクチャとその振り返り
sansantech
PRO
1
130
遊びで始めたNew Relic MCP、気づいたらChatOpsなオブザーバビリティボットができてました/From New Relic MCP to a ChatOps Observability Bot
aeonpeople
1
150
LLMに何を任せ、何を任せないか
cap120
11
6.8k
Zephyr(RTOS)でARMとRISC-Vのコア間通信をしてみた
iotengineer22
0
120
15年メンテしてきたdotfilesから開発トレンドを振り返る 2011 - 2026
giginet
PRO
2
260
40代からのアウトプット ― 経験は価値ある学びに変わる / 20260404 Naoki Takahashi
shift_evolve
PRO
4
660
Featured
See All Featured
We Are The Robots
honzajavorek
0
210
Amusing Abliteration
ianozsvald
0
150
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
250
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
199
73k
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
260
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
290
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
110
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
320
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.2k
Producing Creativity
orderedlist
PRO
348
40k
How GitHub (no longer) Works
holman
316
150k
Transcript
慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測
背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x
背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける →
フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]
関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23]
実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]
問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success
Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」
提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う
Transformer Decoder
Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN
Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント
定量的結果:ベースライン⼿法を精度において上回った - 8 - ▪ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ▪ w/o CNN:
Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認
定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into
middle drawer” ▪ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測
定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ▪ オレンジ⽸を動かそうとしている & 倒してしまった “Move
green rice chip bag near orange can” J 適切にタスクの失敗を予測
まとめ - 11 - ▪ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ▪ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory
Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ▪ 精度においてベースライン⼿法を上回った 10x