$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Multi-View Masked World Models for Visua...
Search
tt1717
October 25, 2023
Research
0
46
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
13
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
12
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
68
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
57
[論文サーベイ] Survey on Pokemon AI
tt1717
0
92
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
110
[論文サーベイ] Survey on GPT for Games
tt1717
0
68
[論文サーベイ] Survey on World Models for Games
tt1717
0
180
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
70
Other Decks in Research
See All in Research
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
1k
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
280
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
220
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
350
Multi-Agent Large Language Models for Code Intelligence: Opportunities, Challenges, and Research Directions
fatemeh_fard
0
110
POI: Proof of Identity
katsyoshi
0
120
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
180
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
satai
3
300
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
120
When Learned Data Structures Meet Computer Vision
matsui_528
1
1.5k
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
180
Featured
See All Featured
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
110
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
0
87
Java REST API Framework Comparison - PWX 2021
mraible
34
9k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
91k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
20
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
250
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Producing Creativity
orderedlist
PRO
348
40k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・多視点MAEを学習し,世界モデルを学習するMV-MWMを提案 ・シミュレーションで学習した方策をカメラキャリブレーションな しで実ロボットタスクを解決できる ・ビジュアルフィードバックによるロボット制御の頑健性を示す ・MWMをベースラインとして比較する ・マルチビュー制御&シングルビュー制御と視点ロバスト制御タス
クを実施 ・視点ランダムによる実験 ・アブレーションスタディ 「視点にマスク,ビデオAEのありなし,マスキング比率」 1.多視点データが与えられたときに,ランダムに画像をマスクした 視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2.多視点MAEから取得した特徴から世界モデルを学習し,シミュ レーションと実世界の両方で「マルチビュー制御,シングルビュー 制御,視点ロバスト制御」などの様々なロボット制御を行う ・MWM (Masked World Model)の入力に使う画像を多視点画像を入 力としたもの ・複数のランダムな視点で学習した多視点MAEにより,カメラキャ リブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像 被引用数:1 1/7
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差(MSE) ❏
画像分類タスクで高精度を達成 2/7 出典:https://arxiv.org/abs/2111.06377
実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 5/7 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ googleサイト 7/7