Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Multi-View Masked World Models for Visua...
Search
tt1717
October 25, 2023
Research
0
46
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
16
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
15
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
70
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
59
[論文サーベイ] Survey on Pokemon AI
tt1717
0
94
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
110
[論文サーベイ] Survey on GPT for Games
tt1717
0
69
[論文サーベイ] Survey on World Models for Games
tt1717
0
180
[論文サーベイ] Survey on Linguistic Explanations in Deep Reinforcement Learning of Atari Tasks
tt1717
0
70
Other Decks in Research
See All in Research
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
210
生成的情報検索時代におけるAI利用と認知バイアス
trycycle
PRO
0
110
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
140
AIスパコン「さくらONE」の オブザーバビリティ / Observability for AI Supercomputer SAKURAONE
yuukit
2
1k
離散凸解析に基づく予測付き離散最適化手法 (IBIS '25)
taihei_oki
PRO
1
630
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
130
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
5
2.2k
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
690
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
390
When Learned Data Structures Meet Computer Vision
matsui_528
1
1.6k
視覚から身体性を持つAIへ: 巧緻な動作の3次元理解
tkhkaeio
0
120
SNLP2025:Can Language Models Reason about Individualistic Human Values and Preferences?
yukizenimoto
0
230
Featured
See All Featured
Collaborative Software Design: How to facilitate domain modelling decisions
baasie
0
97
Facilitating Awesome Meetings
lara
57
6.7k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
16
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
980
Visualization
eitanlees
150
16k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
80
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Building Applications with DynamoDB
mza
96
6.8k
Paper Plane (Part 1)
katiecoart
PRO
0
1.9k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
580
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
0
950
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・多視点MAEを学習し,世界モデルを学習するMV-MWMを提案 ・シミュレーションで学習した方策をカメラキャリブレーションな しで実ロボットタスクを解決できる ・ビジュアルフィードバックによるロボット制御の頑健性を示す ・MWMをベースラインとして比較する ・マルチビュー制御&シングルビュー制御と視点ロバスト制御タス
クを実施 ・視点ランダムによる実験 ・アブレーションスタディ 「視点にマスク,ビデオAEのありなし,マスキング比率」 1.多視点データが与えられたときに,ランダムに画像をマスクした 視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2.多視点MAEから取得した特徴から世界モデルを学習し,シミュ レーションと実世界の両方で「マルチビュー制御,シングルビュー 制御,視点ロバスト制御」などの様々なロボット制御を行う ・MWM (Masked World Model)の入力に使う画像を多視点画像を入 力としたもの ・複数のランダムな視点で学習した多視点MAEにより,カメラキャ リブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像 被引用数:1 1/7
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差(MSE) ❏
画像分類タスクで高精度を達成 2/7 出典:https://arxiv.org/abs/2111.06377
実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 5/7 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ googleサイト 7/7