Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Collision Prediction and Visual Explanation Gen...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2021
Technology
0
1.2k
Collision Prediction and Visual Explanation Generation for Object Placement Task by Domestic Service Robots
Semantic Machine Intelligence Lab., Keio Univ.
PRO
September 06, 2021
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
600
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
82
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
190
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
26k
fukabori.fm 出張版: 売上高617億円と高稼働率を陰で支えた社内ツール開発のあれこれ話 / 20250704 Yoshimasa Iwase & Tomoo Morikawa
shift_evolve
PRO
2
1.2k
Liquid Glass革新とSwiftUI/UIKit進化
fumiyasac0921
0
300
KubeCon + CloudNativeCon Japan 2025 に行ってきた! & containerd の新機能紹介
honahuku
0
120
生成AIで小説を書くためにプロンプトの制約や原則について学ぶ / prompt-engineering-for-ai-fiction
nwiizo
6
3.7k
Lambda Web Adapterについて自分なりに理解してみた
smt7174
5
140
「良さそう」と「とても良い」の間には 「良さそうだがホンマか」がたくさんある / 2025.07.01 LLM品質Night
smiyawaki0820
1
450
KubeCon + CloudNativeCon Japan 2025 Recap
ren510dev
1
320
一体いつからSRE NEXTがSREだけのカンファレンスだと錯覚していた? / When did you ever get the idea that SRE NEXT was a conference just for SREs?
vtryo
1
120
自律的なスケーリング手法FASTにおけるVPoEとしてのアカウンタビリティ / dev-productivity-con-2025
yoshikiiida
1
2.6k
整頓のジレンマとの戦い〜Tidy First?で振り返る事業とキャリアの歩み〜/Fighting the tidiness dilemma〜Business and Career Milestones Reflected on in Tidy First?〜
bitkey
1
2.5k
AI導入の理想と現実~コストと浸透〜
oprstchn
0
160
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
2.7k
Become a Pro
speakerdeck
PRO
28
5.4k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
680
The Invisible Side of Design
smashingmag
300
51k
Facilitating Awesome Meetings
lara
54
6.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
VelocityConf: Rendering Performance Case Studies
addyosmani
331
24k
Building Applications with DynamoDB
mza
95
6.5k
Scaling GitHub
holman
459
140k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
48
2.9k
Transcript
畑中駿平1,上田雄斗1,植田有咲1,平川翼2,山下隆義2,藤吉弘亘2,杉浦孔明1 1慶應義塾大学,2中部大学 生活支援ロボットによる物体配置タスクにおける 危険性予測および視覚的説明生成
背景:生活支援ロボットは安全にものを置くことが求められる • 人手不足の解決策として生活支援ロボットは有望視 • 生活支援ロボットの基本的動作のひとつに物体配置 − 安全配置のために衝突回避は重要 2 https://global.toyota/jp/download/8725215
問題設定:軽微な接触の連鎖から生じる衝突を予測することは難しい 1. ロボットのアームがペットボトルに接触 2. ペットボトルがマヨネーズに接触 3. マヨネーズが落下する危険な衝突が発生 物体同士の物理的相互作用の連鎖の 予測は難しい 3
✓ 衝突確率の予測 ✓ 安全領域の可視化 本研究のタスク
既存研究:生活支援ロボットが行うべき代表的なサブタスク 4 サブタスク 代表的研究 概要 Pick & Place [Zeng+, ICRA18]
新規の物体を把持して認識可能 Grasping DIRL [Tanwani+, CoRL20] 敵対的学習を用いた実環境転用 Placing PonNet [Magassouba+, AR21] Transformer PonNet [植田+, JSAI21] Attention Branch Network [Fukui+, CVPR19] を 用いて物体同士の衝突確率を予測 DIRL Transformer PonNet [Zeng+, ICRA18]
既存手法の問題点:安全である領域のみを可視化することができない Transformer PonNet では安全領域と危険領域が混合して可視化されていた − ユーザに安全領域を事前に提示できれば,物体配置の最終的な判断を仰ぐことが可能 5 安全領域 危険領域
安全領域のみ可視化する手法を提案 • ABN の特徴:画像内のどの領域に注目しているかを示す attention map を可視化
提案手法:対象物体を配置する際の衝突確率の予測・安全領域の可視化 6 入力:対象物体と配置場所のRGBD画像 出力:衝突確率・安全領域の可視化画像
デモ動画:衝突確率を予測し、安全である場合に物体を配置 7
構造 ( 1/4 ):3つのモジュールから構成 8 ①Feature Extractor,②Attention Branch,③Transformer Perception Branch
の3つから構成 ① ② ③
✓ Feature Extractor ( FE ) 配置領域・対象物体のRGBD画像の特徴量を ResNet18 の前半部分で抽出 構造
( 2/4 ):配置領域と対象物体画像の特徴量抽出 9 切り出し ゼロ埋め 𝒙 𝑘 dst 𝒙 𝑘 trg 𝑘 ∈ {rgb, depth} FE FE 配置領域 対象物体
構造 ( 3/4 ):衝突に関連する部分に注目して重み付け ✓ Attention Branch ( AB )
𝑤𝑘∈{rgb,depth} = 1 + 𝑎𝑘 ⨀ 𝑓𝑘 10 Attention Map 𝑎𝑘
構造 ( 4/4 ):RGBとdepthの特徴量を融合して衝突確率を予測 ✓ Transformer Perception Branch ( TPB
) ABNのPerception branch構造にTransformerを導入 [ 植田+, JSAI21 ] 11 𝑸(i)= 𝑊 𝑞 (𝑖)𝑜 𝑘 (𝑖), 𝑲(i) = 𝑊 𝑘 (𝑖)𝑜 𝑘 (𝑖), 𝑽(i) = 𝑊𝑣 (𝑖)𝑜 𝑘 (𝑖) 𝜔𝑘 = 𝑽(𝑖) softmax 𝑸(i) 𝑲 𝑖 T 𝑑𝑘 , 𝑑𝑘 = 𝐻 𝐴 𝑚𝑘 = 𝑸(i) + 𝛼 ⨀ 𝒉(i) 𝐻 は入力𝑜 𝑘 (𝑖)の次元数 𝐴 はヘッド数を表す
新規性:Attention map と 平面検出による安全領域 𝑠 の可視化 𝑠 = 𝑎rgb +
𝑎depth 2 ⨀ℎ ℎ :平面と検出されたピクセルの集合 ⊕ ⨀ Plane detection ℎ [Wang+, 3DV18] 安全領域 𝑠 12 𝑎rgb 𝑎depth
実験設定:simulation 環境によるデータセット 各配置場所はシミュレータによって自動的にラベル付け 13 PonNet-A-Sim データセット − 中心領域のみに配置 − 約
12,000 の衝突サンプルが記録 PonNet-B-Sim データセット − 9 領域に配置 − 各領域 1,500,合計約 13,500 の衝突サンプルが記録 − 家具,明るさ,背景の異なる 5 種類の場面を使用
定性的結果:シミュレーションデータの成功例 ✓ 障害物を避けた領域を安全領域 として獲得 RGB 画像 安全領域 𝒔 TN (
非衝突 ) TP ( 衝突 ) 14 ✓ 顕著な安全領域は可視化されない
Method Accuracy Train : A-Sim Test : A-Sim Train :
B-Sim Test : B-Sim Plane detection [Wang+, 3DV18] 82.5 72.30 PonNet [Magassouba+, AR21] 90.94±0.22 82.29±0.68 Transformer PonNet [植田+, JSAI21] パラメータ数:約2600万 91.26±0.21 82.10±0.52 Ours パラメータ数:約900万 91.23±0.32 82.28±1.77 定量的結果:ベースラインと同等または上回る結果 ✓ 提案手法はパラメータ数を削減しつつベースライン手法と同等の精度 15
エラー分析:透過物体や人から見ても判断が難しい例 入力画像 ( RGB ) 16 Attention map ( RGB
) Attention map ( Depth ) 例1 例2 正解:衝突 予測:非衝突 透過物体を捉える 人の目から見ても 判断が難しい衝突
追加実験:実機環境によるデータ収集・実験 17 • トヨタの生活支援ロボット Human Support Robot ( HSR )
を使用 • 収集した 200 個のデータを Train / Test 用に分割 ✓ 実機環境への転用の可能性を示唆 Method Accuracy Train : A-Sim + Real ( 100 ) Test : Real ( 100 ) Ours 87.39±3.12
結論:衝突確率の低い安全領域を可視化する手法の提案 本研究のポイント ✓ Attention mapと平面検出を組み合わせて 安全な領域の候補を可視化 18