Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Multi-View Masked World Models for Visua...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
October 25, 2023
Research
55
0
Share
[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
66
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
52
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
41
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
43
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
87
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
85
[論文サーベイ] Survey on Pokemon AI
tt1717
0
120
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
130
[論文サーベイ] Survey on GPT for Games
tt1717
0
92
Other Decks in Research
See All in Research
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
750
LiDAR点群の地表面分類手法の比較・検証
vegapunkhiroshi79
0
100
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
正規分布と最適化について
koide3
0
220
存立危機事態の再検討
jimboken
0
280
IEEE AIxVR 2026 Keynote Talk: "Beyond Visibility: Understanding Scenes and Humans under Challenging Conditions with Diverse Sensing"
miso2024
0
190
台湾モデルに学ぶ詐欺広告対策:市民参加の必要性
dd2030
0
340
Scalable dynamic origin-destination demand estimation enhanced by high-resolution satellite imagery data
satai
2
220
データセンター事業者を取り巻く近年の状況とその中での研究開発動向、テストベッドへの貢献の可能性
kikuzo
1
140
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
970
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
600
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
780
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
234
18k
SEO for Brand Visibility & Recognition
aleyda
0
4.6k
Chasing Engaging Ingredients in Design
codingconduct
0
200
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
55k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
[SF Ruby Conf 2025] Rails X
palkan
2
1.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
10
1.2k
A better future with KSS
kneath
240
18k
30 Presentation Tips
portentint
PRO
1
310
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.9k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
590
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・多視点MAEを学習し,世界モデルを学習するMV-MWMを提案 ・シミュレーションで学習した方策をカメラキャリブレーションな しで実ロボットタスクを解決できる ・ビジュアルフィードバックによるロボット制御の頑健性を示す ・MWMをベースラインとして比較する ・マルチビュー制御&シングルビュー制御と視点ロバスト制御タス
クを実施 ・視点ランダムによる実験 ・アブレーションスタディ 「視点にマスク,ビデオAEのありなし,マスキング比率」 1.多視点データが与えられたときに,ランダムに画像をマスクした 視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2.多視点MAEから取得した特徴から世界モデルを学習し,シミュ レーションと実世界の両方で「マルチビュー制御,シングルビュー 制御,視点ロバスト制御」などの様々なロボット制御を行う ・MWM (Masked World Model)の入力に使う画像を多視点画像を入 力としたもの ・複数のランダムな視点で学習した多視点MAEにより,カメラキャ リブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像 被引用数:1 1/7
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差(MSE) ❏
画像分類タスクで高精度を達成 2/7 出典:https://arxiv.org/abs/2111.06377
実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 5/7 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ googleサイト 7/7