Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
Search
tt1717
October 25, 2023
Research
0
31
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale
tt1717
0
5
[論文紹介] Chip Placement with Deep Reinforcement Learning
tt1717
0
4
[論文紹介] Human-level control through deep reinforcement learning
tt1717
0
6
[論文紹介] Transformer-based World Models Are Happy With 100k Interactions
tt1717
0
31
[論文紹介] Deep Learning for Video Game Playing
tt1717
0
18
[論文紹介] Playing Atari with Deep Reinforcement Learning
tt1717
0
13
[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習
tt1717
0
18
[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習
tt1717
0
18
[論文サーベイ] Survey on Minecraft AI
tt1717
0
29
Other Decks in Research
See All in Research
サウナでのプロジェクションマッピングの可能性の検討 / EC71koizumi
yumulab
0
190
LiDARセキュリティ最前線
kentaroy47
0
280
オープンな日本語埋め込みモデルの選択肢 / Exploring Publicly Available Japanese Embedding Models
nttcom
14
5.7k
SANER 2019 Most Influential Paper Talk
tsantalis
1
120
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
290
CASCON 2023 Most Influential Paper Award Talk
tsantalis
0
130
リサーチに組織を巻き込むための「準備8割」の話
terasho
0
470
MegaParticles: GPUを利用したStein Particle Filterによる点群6自由度姿勢推定
koide3
1
550
論文紹介 DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction / DISN: Deep Implicit Surface Network for High quality Single-view 3D Reconstruction
nttcom
0
130
媒介分析と疫学
kingqwert
0
110
ニフティのインナーソース導入事例 - InnerSource Commons #11
niftycorp
PRO
0
270
Accurate Method and Variable Tracking in Commit History
tsantalis
0
280
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
A Philosophy of Restraint
colly
197
16k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.4k
Statistics for Hackers
jakevdp
790
220k
Practical Orchestrator
shlominoach
183
9.7k
Making the Leap to Tech Lead
cromwellryan
125
8.5k
Design by the Numbers
sachag
274
18k
It's Worth the Effort
3n
180
27k
What the flash - Photography Introduction
edds
64
11k
Six Lessons from altMBA
skipperchong
22
3k
The Invisible Side of Design
smashingmag
294
49k
The Language of Interfaces
destraynor
151
23k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・多視点MAEを学習し,世界モデルを学習するMV-MWMを提案 ・シミュレーションで学習した方策をカメラキャリブレーションな しで実ロボットタスクを解決できる ・ビジュアルフィードバックによるロボット制御の頑健性を示す ・MWMをベースラインとして比較する ・マルチビュー制御&シングルビュー制御と視点ロバスト制御タス
クを実施 ・視点ランダムによる実験 ・アブレーションスタディ 「視点にマスク,ビデオAEのありなし,マスキング比率」 1.多視点データが与えられたときに,ランダムに画像をマスクした 視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2.多視点MAEから取得した特徴から世界モデルを学習し,シミュ レーションと実世界の両方で「マルチビュー制御,シングルビュー 制御,視点ロバスト制御」などの様々なロボット制御を行う ・MWM (Masked World Model)の入力に使う画像を多視点画像を入 力としたもの ・複数のランダムな視点で学習した多視点MAEにより,カメラキャ リブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像 被引用数:1 1/7
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差(MSE) ❏
画像分類タスクで高精度を達成 2/7 出典:https://arxiv.org/abs/2111.06377
実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 5/7 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ googleサイト 7/7