Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[論文紹介] Masked World Models for Visual Control
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tt1717
October 25, 2023
Research
0
56
[論文紹介] Masked World Models for Visual Control
PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
tt1717
October 25, 2023
Tweet
Share
More Decks by tt1717
See All by tt1717
[勉強会] Decision Transformer
tt1717
0
28
[論文サーベイ] Survey on Google DeepMind’s Game AI 2
tt1717
0
34
[論文サーベイ] Survey on Google DeepMind’s Game AI
tt1717
0
21
[論文サーベイ] Survey on VLM for Video Game Quality Assurance
tt1717
0
22
[論文サーベイ] Survey on Pokemon AI 3
tt1717
0
75
[論文サーベイ] Survey on Pokemon AI 2
tt1717
0
65
[論文サーベイ] Survey on Pokemon AI
tt1717
0
100
[論文サーベイ] Survey on Minecraft AI in NeurIPS 2024
tt1717
0
120
[論文サーベイ] Survey on GPT for Games
tt1717
0
72
Other Decks in Research
See All in Research
20251023_くまもと21の会例会_「車1割削減、渋滞半減、公共交通2倍」をめざして.pdf
trafficbrain
0
180
Agentic AI フレームワーク戦略白書 (2025年度版)
mickey_kubo
1
120
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
210
POI: Proof of Identity
katsyoshi
0
140
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
140
その推薦システムの評価指標、ユーザーの感覚とズレてるかも
kuri8ive
1
320
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
160
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
510
LLM-Assisted Semantic Guidance for Sparsely Annotated Remote Sensing Object Detection
satai
3
470
2026-01-30-MandSL-textbook-jp-cos-lod
yegusa
0
230
Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning
satai
3
490
第二言語習得研究における 明示的・暗示的知識の再検討:この分類は何に役に立つか,何に役に立たないか
tam07pb915
0
1.2k
Featured
See All Featured
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Crafting Experiences
bethany
1
52
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.7k
Become a Pro
speakerdeck
PRO
31
5.8k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
170
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
How GitHub (no longer) Works
holman
316
140k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
66
37k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
Site-Speed That Sticks
csswizardry
13
1.1k
Transcript
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・報酬の予測によりタスクに適した表現を獲得 ・DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善 ・Meta-world,RLBench,DeepMind Control Suiteの環境で実験 ・特徴マスキング,マスキング比率,報酬予測に対してアブレー
ションスタディを実施 ・DreamerV2とMWMで予測画像を比較 ・MWM (Masked World Models) 1.畳み込み特徴マスキングと報酬予測によるAEの学習 2.AEから視覚表現を予測する潜在的ダイナミクスモデル学習を繰り 返し,「視覚表現」と「ダイナミクス」を別々に更新 3.「環境との相互作用から収集したサンプル」を用いて,AEと潜在 的なダイナミクスモデルを継続的に更新 ・世界モデルの画像表現学習に,「MAE」を使用 ・報酬の予測によりタスクに適した表現を獲得 Masked World Models for Visual Control (CoRL 2022) Younggyo Seo,Danijar Hafner,Hao Liu,Fangchen Liu,Stephen James,Kimin Lee,Pieter Abbeel https://arxiv.org/abs/2206.14244 2023/06/18 論文を表す画像 被引用数:19 1/10
背景:物体消失問題 ❏ 画像表現学習とタスクのギャップ ❏ 単純に再構成誤差でAEを学習し てもタスクに適した表現が得られ ない ❏ VAEのような再構成学習では面積 の小さい要素は無視してもLossが
下がる ❏ 一方で,タスクに必要なのは対象 物体の位置などの一部の情報 ❏ 学習コストの問題 ❏ 画像モデルと状態遷移モデルを同 時に学習すると,高次元データと なり計算量が増大 2/10 出典:https://arxiv.org/abs/2203.00494
Masked Autoencoder (MAE) ❏ パッチに分割された画像の75%を マスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差
(MSE) ❏ 画像分類タスクで高精度を達成 3/10 出典:https://arxiv.org/abs/2111.06377
Masked World Models (MWM) 4/10 ❏ 画像直接ではなく,中間層でマスキング(物体消失を防ぐ) ❏ パッチ内の細かいディテールを学習することが困難な場合がある ❏
再構成に加え報酬予測(報酬にかかわる情報を重視させる)
実験 5/10 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite
結果 6/10 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を 扱うタスク 小さな物体を扱わ ないタスク
結果:Ablation Studies 7/10 画像直接ではなく特徴量 マスクで性能向上 75%のマスクで最高性能 報酬予測で性能向上 ❏ 特徴量マスク+マスク比率75%+報酬予測で最高性能
結果:予測画像比較 8/10 ❏ DreamerV2と比較してMWMは物体位置を予測できている 物体位置把 握 物体消失
まとめ 9/10 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善
参考文献 ❏ 松尾研究室スライド ❏ googleサイト 10/10