Slide 1

Slide 1 text

慶應義塾⼤学 神原元就,杉浦孔明 オフライン軌道⽣成による軌道に基づく Open-Vocabulary物体操作タスクにおける将来成否予測

Slide 2

Slide 2 text

背景:物体操作ではタスク成否判定が重要 「野球ボールを取って⾼い机に置いて」 8x

Slide 3

Slide 3 text

背景:物体操作ではタスク成否判定が重要 - 3 - フォークの代わりにスプーンを持ってきて 様々なサブタスク 把持中のフォークを他の場所に置く → 引き出しを開ける → フォークを把持し引き出しに置く → スプーンを引き出しから取る等 タスク実⾏前に⽣成した軌道の適切さを判定できれば効率性・安全性向上 [Driess+, ICML23] [Schmalstieg+, ICRA24]

Slide 4

Slide 4 text

関連研究: 既存のタスク成否判定機構は実⾏後の判定が中⼼ - 4 - ⼿法 概要 PaLM-E [Driess+, ICML23] 実世界の観測値を⾔語の埋め込み空間に組み込む [Shirasaka+, ICRA24] 失敗を3種類に分類.タスク失敗の際は再計画を実施 REFLECT [Liu+, CoRL23] 事前に定義された物体の状態に基づき成否判定 [Liu+, ICRA24] 将来の状態に関する潜在表現に基づくタスク成否予測 [Shirasaka+, ICRA24] [Liu+, ICRA24]

Slide 5

Slide 5 text

問題設定: オフライン⽣成された軌道に基づくタスク成否判定 - 5 - • ⼊⼒:指⽰⽂,1⼈称視点画像,エンドエフェクタの軌道 • 出⼒:物体操作に成功する確率の予測値 Success Failure Status 0.8 0.2 「⽩いボウルから⾚いリンゴを取って」

Slide 6

Slide 6 text

提案⼿法: オフライン⽣成された軌道に基づくタスク成否予測機構 - 6 - 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoder 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder

Slide 7

Slide 7 text

Trajectory Encoder: 軌道を埋め込み,画像による条件付け - 7 - ・ ・ ・ CNN Pooling λ-Rep. Encoder [Goko+, CoRL24] • 前提 軌道は環境の状況に基づき⽣成 される 1⼈称画像と軌道の特徴量の 対応づけが有効 • 獲得した特徴量はCross- Attention機構により⾔語特徴量 とアラインメント

Slide 8

Slide 8 text

定量的結果:ベースライン⼿法を精度において上回った - 8 - ■ SP-RT-1データセット(13Kエピソード,[Goko+, CoRL24])において評価 ■ w/o CNN: Trajectory EncoderのCNNをLinearに変更 モデル 精度 [%] 齋藤ら [齋藤+, JSAI24] 74.9±0.79 提案⼿法 w/o CNN 83.2±0.48 提案⼿法 83.4±0.65 “pick orange can from bottom drawer and place on counter” Trajectory Encoderの構造の有効性も確認

Slide 9

Slide 9 text

定性的結果 (1/2): タスクに対して適切な軌道であることを理解 - 9 - “Place rxbar chocolate into middle drawer” ■ チョコレート菓⼦を適切に引き出しに格納 J 適切にタスクの成功を予測

Slide 10

Slide 10 text

定性的結果 (2/2):物体の位置関係について適切に考慮 - 10 - ■ オレンジ⽸を動かそうとしている & 倒してしまった “Move green rice chip bag near orange can” J 適切にタスクの失敗を予測

Slide 11

Slide 11 text

まとめ - 11 - ■ 物体操作における,エンドエフェクタの軌道に基づくタスク成否予測 ■ 新規性 1. 軌道を埋め込み画像特徴量により条件付けを⾏うTrajectory Encoderの導⼊ 2. ⾃然⾔語指⽰⽂と軌道に関する特徴量のアラインメントを⾏う Transformer Decoder ■ 精度においてベースライン⼿法を上回った 10x