Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ22] Collision Prediction and Visual Explana...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2022
Technology
0
1.4k
[RSJ22] Collision Prediction and Visual Explanation Generation Using Structural Knowledge in Object Placement Tasks
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
92
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
61
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
66
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
55
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
89
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
52
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
52
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
17
[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
keio_smilab
PRO
0
33
Other Decks in Technology
See All in Technology
なぜスクラムはこうなったのか?歴史が教えてくれたこと/Shall we explore the roots of Scrum
sanogemaru
1
470
シークレット管理だけじゃない!HashiCorp Vault でデータ暗号化をしよう / Beyond Secret Management! Let's Encrypt Data with HashiCorp Vault
nnstt1
3
150
MCPで変わる Amebaデザインシステム「Spindle」の開発
spindle
PRO
3
2.4k
モダンフロントエンド 開発研修
recruitengineers
PRO
10
6.3k
実践AIガバナンス
asei
3
300
Vault meets Kubernetes
mochizuki875
0
190
20250903_1つのAWSアカウントに複数システムがある環境におけるアクセス制御をABACで実現.pdf
yhana
2
290
サンドボックス技術でAI利活用を促進する
koh_naga
0
160
Webブラウザ向け動画配信プレイヤーの 大規模リプレイスから得た知見と学び
yud0uhu
0
180
ライブサービスゲームQAのパフォーマンス検証による品質改善の取り組み
gree_tech
PRO
0
450
RSCの時代にReactとフレームワークの境界を探る
uhyo
9
2.4k
Grafana MCPサーバーによるAIエージェント経由でのGrafanaダッシュボード動的生成
hamadakoji
1
1.1k
Featured
See All Featured
A better future with KSS
kneath
239
17k
Documentation Writing (for coders)
carmenintech
73
5k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
800
For a Future-Friendly Web
brad_frost
179
9.9k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Producing Creativity
orderedlist
PRO
347
40k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
The Cost Of JavaScript in 2023
addyosmani
53
8.9k
Transcript
物体配置タスクにおける構造的知識を用いた 衝突予測および視覚的説明生成 松尾榛夏¹ 畑中駿平¹ 平川翼² 山下隆義² 藤吉弘亘² 杉浦孔明¹ ¹慶應義塾大学 ²中部大学
1
背景:生活支援ロボットの物体配置には高い安全性が求められる • 介助従事者不足の解決策の一つとして生活支援ロボットが有望視 • 物体配置は生活支援ロボットの基本的動作の一つ – 高い安全性が必要 2
対象タスク:物体間の衝突に関する衝突予測タスク • 軽微な接触の連鎖による物体の転倒や落下の可能性 – 連鎖の予測は困難 • 物体間の衝突に関する衝突予測タスク – 衝突確率の予測
3 軽微な接触 (アームと物体) 軽微な接触 (物体と物体) 物体の落下
既存研究:物体配置分野はこれまでにも広く研究されている 4 代表的研究 概要 [Jiang+, IJRR12] 物体間の幾何学的関係や配置における人間の意向など 複数の性質を扱うグラフィカルなモデル [Gualtieri+, ICRA18]
深層強化学習に基づく物体配置動作計画の研究 PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network ( ABN ) [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 [Jiang+, IJRR12] [Gualtieri+, ICRA18] Transformer PonNet
• Transformer PonNet [植田+, JSAI21] – 入力:対象物体と配置領域のRGBD画像 – 出力:衝突確率 •
構造的知識を用いていない – 構造的知識:障害物の位置情報および画像特徴量同士の関係 • 配置方策を行っていない ⇒ 構造的知識も考慮した手法の提案 & 配置方策を導入 既存手法の問題点:構造的知識と配置方策を扱っていない 5 RGB depth 配置領域 対象物体 RGB depth
全体構造:Transformer PonNetに新たなモジュールを追加 • Transformer PonNetの拡張: Structural Causal Encoder を 追加
• 5種類のモジュール – Transformer PonNetの 4種類のモジュール – Structural Causal Encoder 6
• Attention Branch Network (ABN) [Fukui+, CVPR19] attention mapから特徴量に対して重み付けを行う 構造
(1/4):衝突に関連する部分に注目して重み付け 7 7 ABN [Fukui+, CVPR19] Attention Map 𝒘rgb = (1 + 𝒂rgb )⨀𝒉rgb <dest> 𝒘depth = (1 + 𝒂depth )⨀𝒉depth <dest>
構造 (2/4):位置情報・画像特徴量の埋め込み処理 • Structural Causal Encoder (SCE):埋め込み処理 Faster R-CNN [Ren+,
PAMI16] から各障害物の位置情報・画像特徴量を得て埋め込む 8 画像特徴量 位置情報 ResNet ×障害物数 [ bboxの座標,幅,高さ,面積 ] 新規性
構造 (3/4):特徴量を transformer で算出 • Structural Causal Encoder (SCE):transformer transformer
を導入し構造的知識に関する特徴量を算出する 9 障害物同士の attention を計算 → 構造的知識の獲得 新規性
構造 (4/4):Transformer の decoder により attention を計算 • Transformer Perception
Branch (TPB) transformer の decoder によって SCE の出力との間の attention を計算 10 𝑸(𝑖) = 𝑾𝑞 (𝑖)𝜶. , 𝑲(i) = 𝑾 𝑘 (𝑖)𝒉obstmha , 𝑽(i)= 𝑾 𝑣 (𝑖)𝒉obstmha 𝒇(𝑖) = softmax 𝑸(𝑖) 𝑲 𝑖 T 𝑑 𝑽(𝑖) , 𝑑 = 𝑸(𝑖)の次元数 ヘッド数 Transformer decoder
配置方策:安全な位置に配置 • データセットを作成する際に配置方策を導入 – 既存手法より安全な位置に配置 – 実用時の条件に近いデータセット • Transformer PonNet
[植田+, JSAI21] を使用 • 衝突すると予測した場合 – Attentionが低い場所に配置 • 衝突しないと予測した場合 – Attentionが高い場所に配置 11
実験:Simulation データセット • BILA-S データセット – 配置方策を導入 – 約 12,000
サンプル – シミュレータによって自動的にラベル付け – Faster R-CNN [Ren+, PAMI16] による物体検出の学習 • COCOデータセットで事前学習済み Faster R-CNN を使用 • BILA-S データセットで finetuning 12
実験:実機環境によるデータセット • トヨタの生活支援ロボット Human Support Robot (HSR) を使用 • BILA-Real
データセット – 中心領域のみに配置 – 約 2,000 サンプル 13 x100
定量的結果:ベースラインを精度で上回る結果 • 提案手法はBILA-Sデータセットにおいてベースライン手法を精度で上回る • Real Datasetではunseenのみ上回る • タスク成功率も提案手法が上回る Method 精度
タスク成功率 Sim Real (seen) Real (unseen) Transformer PonNet [植田+, JSAI21] 77.64±2.32 62.30±0.06 61.70±0.06 52.0% (482/940) 提案手法 80.74±0.53 58.90±0.05 63.90±0.04 61.9% (70/113) 14 +3.10 +9.9
定性的結果:シミュレーションデータの成功例 (TP (衝突)) 15 入力画像 ( RGB ) 物体検出した 矩形領域
Attention map ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 既存手法 提案手法 広い範囲に注目 重要ではない 一部に注目 ☺ 障害物がある領域に注目 ☺ すべての障害物を 正しく認識
定性的結果:シミュレーションデータの成功例 (TN (非衝突)) 16 入力画像 ( RGB ) Attention map
( RGB ) Attention map ( depth ) 入力画像 ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ すべての障害物を 正しく認識 置けない部分に注目 物体がある 部分にも注目 ☺ 障害物が無い配置可能な 領域に注目
Ablation Study:Structural Causal Encoder モジュールの有効性 • TPB 内の decoder が無くなる、または画像サイズの縮小で精度は低下
• Transfomer PonNet に SCE を加えると精度は向上 ⇒ Structural Causal Encoder モジュールを加えることが最も重要 17 TPB の decoder 層 Destination 画像サイズ 精度 Type1 384×384 80.43±0.66 Type2 ✔ 192×192 80.59±0.55 Ours ✔ 384×384 80.74±0.53
結論:構造的知識を考慮した衝突確率の予測の提案 • 本研究のポイント – 構造的知識を扱うために Transformer PonNet を拡張 – 配置方策を導入
– ベースライン手法を精度・タスク 成功率の両方で上回る 18
Appendix:シミュレーションデータの失敗例(上 : FP, 下 : FN) 19 物体検出した 矩形領域 Attention
map ( RGB ) Attention map ( depth ) 入力画像 ( RGB ) 入力画像 ( depth ) 誤って衝突と予測 誤って衝突しないと予測
Appendix:エラー分析(人間が見ても判断が難しい例、透過物体) • 衝突と予測した予測誤り – 軽微な接触 • 衝突しないと予測した予測誤り – 障害物と対象物体の衝突 –
障害物とアームの衝突 • 透過物体との衝突 – depth画像で透過部分が消える 20 入力画像 ( RGB ) 入力画像 ( depth )
Appendix : タスク成功率に関する定性的結果 21 Attention map ( RGB ) Attention
map ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ 缶に注目できている → 予測成功=配置成功 物体に注目できていない → 予測失敗=配置失敗