Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[RSJ22] Collision Prediction and Visual Explana...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2022
Technology
0
960
[RSJ22] Collision Prediction and Visual Explanation Generation Using Structural Knowledge in Object Placement Tasks
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
25
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
21
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
5
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
0
9
[Journal club] Simplified State Space Layers for Sequence Modeling
keio_smilab
PRO
0
25
[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models
keio_smilab
PRO
1
71
[IROS24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
keio_smilab
PRO
0
44
[IROS24] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine
keio_smilab
PRO
0
77
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
keio_smilab
PRO
1
120
Other Decks in Technology
See All in Technology
The Role of Developer Relations in AI Product Success.
giftojabu1
0
120
安心してください、日本語使えますよ―Ubuntu日本語Remix提供休止に寄せて― 2024-11-17
nobutomurata
1
990
【令和最新版】AWS Direct Connectと愉快なGWたちのおさらい
minorun365
PRO
5
750
サイバーセキュリティと認知バイアス:対策の隙を埋める心理学的アプローチ
shumei_ito
0
380
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.8k
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
isaoshimizu
2
600
DMARC 対応の話 - MIXI CTO オフィスアワー #04
bbqallstars
1
160
AWS Media Services 最新サービスアップデート 2024
eijikominami
0
200
データプロダクトの定義からはじめる、データコントラクト駆動なデータ基盤
chanyou0311
2
310
iOSチームとAndroidチームでブランチ運用が違ったので整理してます
sansantech
PRO
0
130
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
190
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
26
2.1k
Thoughts on Productivity
jonyablonski
67
4.3k
BBQ
matthewcrist
85
9.3k
What's new in Ruby 2.0
geeforr
343
31k
Optimizing for Happiness
mojombo
376
70k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.1k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
410
KATA
mclloyd
29
14k
A Tale of Four Properties
chriscoyier
156
23k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
16
2.1k
Building an army of robots
kneath
302
43k
Transcript
物体配置タスクにおける構造的知識を用いた 衝突予測および視覚的説明生成 松尾榛夏¹ 畑中駿平¹ 平川翼² 山下隆義² 藤吉弘亘² 杉浦孔明¹ ¹慶應義塾大学 ²中部大学
1
背景:生活支援ロボットの物体配置には高い安全性が求められる • 介助従事者不足の解決策の一つとして生活支援ロボットが有望視 • 物体配置は生活支援ロボットの基本的動作の一つ – 高い安全性が必要 2
対象タスク:物体間の衝突に関する衝突予測タスク • 軽微な接触の連鎖による物体の転倒や落下の可能性 – 連鎖の予測は困難 • 物体間の衝突に関する衝突予測タスク – 衝突確率の予測
3 軽微な接触 (アームと物体) 軽微な接触 (物体と物体) 物体の落下
既存研究:物体配置分野はこれまでにも広く研究されている 4 代表的研究 概要 [Jiang+, IJRR12] 物体間の幾何学的関係や配置における人間の意向など 複数の性質を扱うグラフィカルなモデル [Gualtieri+, ICRA18]
深層強化学習に基づく物体配置動作計画の研究 PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network ( ABN ) [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 [Jiang+, IJRR12] [Gualtieri+, ICRA18] Transformer PonNet
• Transformer PonNet [植田+, JSAI21] – 入力:対象物体と配置領域のRGBD画像 – 出力:衝突確率 •
構造的知識を用いていない – 構造的知識:障害物の位置情報および画像特徴量同士の関係 • 配置方策を行っていない ⇒ 構造的知識も考慮した手法の提案 & 配置方策を導入 既存手法の問題点:構造的知識と配置方策を扱っていない 5 RGB depth 配置領域 対象物体 RGB depth
全体構造:Transformer PonNetに新たなモジュールを追加 • Transformer PonNetの拡張: Structural Causal Encoder を 追加
• 5種類のモジュール – Transformer PonNetの 4種類のモジュール – Structural Causal Encoder 6
• Attention Branch Network (ABN) [Fukui+, CVPR19] attention mapから特徴量に対して重み付けを行う 構造
(1/4):衝突に関連する部分に注目して重み付け 7 7 ABN [Fukui+, CVPR19] Attention Map 𝒘rgb = (1 + 𝒂rgb )⨀𝒉rgb <dest> 𝒘depth = (1 + 𝒂depth )⨀𝒉depth <dest>
構造 (2/4):位置情報・画像特徴量の埋め込み処理 • Structural Causal Encoder (SCE):埋め込み処理 Faster R-CNN [Ren+,
PAMI16] から各障害物の位置情報・画像特徴量を得て埋め込む 8 画像特徴量 位置情報 ResNet ×障害物数 [ bboxの座標,幅,高さ,面積 ] 新規性
構造 (3/4):特徴量を transformer で算出 • Structural Causal Encoder (SCE):transformer transformer
を導入し構造的知識に関する特徴量を算出する 9 障害物同士の attention を計算 → 構造的知識の獲得 新規性
構造 (4/4):Transformer の decoder により attention を計算 • Transformer Perception
Branch (TPB) transformer の decoder によって SCE の出力との間の attention を計算 10 𝑸(𝑖) = 𝑾𝑞 (𝑖)𝜶. , 𝑲(i) = 𝑾 𝑘 (𝑖)𝒉obstmha , 𝑽(i)= 𝑾 𝑣 (𝑖)𝒉obstmha 𝒇(𝑖) = softmax 𝑸(𝑖) 𝑲 𝑖 T 𝑑 𝑽(𝑖) , 𝑑 = 𝑸(𝑖)の次元数 ヘッド数 Transformer decoder
配置方策:安全な位置に配置 • データセットを作成する際に配置方策を導入 – 既存手法より安全な位置に配置 – 実用時の条件に近いデータセット • Transformer PonNet
[植田+, JSAI21] を使用 • 衝突すると予測した場合 – Attentionが低い場所に配置 • 衝突しないと予測した場合 – Attentionが高い場所に配置 11
実験:Simulation データセット • BILA-S データセット – 配置方策を導入 – 約 12,000
サンプル – シミュレータによって自動的にラベル付け – Faster R-CNN [Ren+, PAMI16] による物体検出の学習 • COCOデータセットで事前学習済み Faster R-CNN を使用 • BILA-S データセットで finetuning 12
実験:実機環境によるデータセット • トヨタの生活支援ロボット Human Support Robot (HSR) を使用 • BILA-Real
データセット – 中心領域のみに配置 – 約 2,000 サンプル 13 x100
定量的結果:ベースラインを精度で上回る結果 • 提案手法はBILA-Sデータセットにおいてベースライン手法を精度で上回る • Real Datasetではunseenのみ上回る • タスク成功率も提案手法が上回る Method 精度
タスク成功率 Sim Real (seen) Real (unseen) Transformer PonNet [植田+, JSAI21] 77.64±2.32 62.30±0.06 61.70±0.06 52.0% (482/940) 提案手法 80.74±0.53 58.90±0.05 63.90±0.04 61.9% (70/113) 14 +3.10 +9.9
定性的結果:シミュレーションデータの成功例 (TP (衝突)) 15 入力画像 ( RGB ) 物体検出した 矩形領域
Attention map ( RGB ) Attention map ( depth ) 入力画像 ( depth ) 既存手法 提案手法 広い範囲に注目 重要ではない 一部に注目 ☺ 障害物がある領域に注目 ☺ すべての障害物を 正しく認識
定性的結果:シミュレーションデータの成功例 (TN (非衝突)) 16 入力画像 ( RGB ) Attention map
( RGB ) Attention map ( depth ) 入力画像 ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ すべての障害物を 正しく認識 置けない部分に注目 物体がある 部分にも注目 ☺ 障害物が無い配置可能な 領域に注目
Ablation Study:Structural Causal Encoder モジュールの有効性 • TPB 内の decoder が無くなる、または画像サイズの縮小で精度は低下
• Transfomer PonNet に SCE を加えると精度は向上 ⇒ Structural Causal Encoder モジュールを加えることが最も重要 17 TPB の decoder 層 Destination 画像サイズ 精度 Type1 384×384 80.43±0.66 Type2 ✔ 192×192 80.59±0.55 Ours ✔ 384×384 80.74±0.53
結論:構造的知識を考慮した衝突確率の予測の提案 • 本研究のポイント – 構造的知識を扱うために Transformer PonNet を拡張 – 配置方策を導入
– ベースライン手法を精度・タスク 成功率の両方で上回る 18
Appendix:シミュレーションデータの失敗例(上 : FP, 下 : FN) 19 物体検出した 矩形領域 Attention
map ( RGB ) Attention map ( depth ) 入力画像 ( RGB ) 入力画像 ( depth ) 誤って衝突と予測 誤って衝突しないと予測
Appendix:エラー分析(人間が見ても判断が難しい例、透過物体) • 衝突と予測した予測誤り – 軽微な接触 • 衝突しないと予測した予測誤り – 障害物と対象物体の衝突 –
障害物とアームの衝突 • 透過物体との衝突 – depth画像で透過部分が消える 20 入力画像 ( RGB ) 入力画像 ( depth )
Appendix : タスク成功率に関する定性的結果 21 Attention map ( RGB ) Attention
map ( depth ) 物体検出した 矩形領域 既存手法 提案手法 ☺ 缶に注目できている → 予測成功=配置成功 物体に注目できていない → 予測失敗=配置失敗