[論文紹介] Masked World Models for Visual Control

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・報酬の予測によりタスクに適した表現を獲得・DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善・Meta-world，RLBench，DeepMind Control Suiteの環境で実験・特徴マスキング，マスキング比率，報酬予測に対してアブレー
ションスタディを実施・DreamerV2とMWMで予測画像を比較・MWM (Masked World Models) 1．畳み込み特徴マスキングと報酬予測によるAEの学習 2．AEから視覚表現を予測する潜在的ダイナミクスモデル学習を繰り返し，「視覚表現」と「ダイナミクス」を別々に更新 3．「環境との相互作用から収集したサンプル」を用いて，AEと潜在的なダイナミクスモデルを継続的に更新・世界モデルの画像表現学習に，「MAE」を使用・報酬の予測によりタスクに適した表現を獲得 Masked World Models for Visual Control (CoRL 2022) Younggyo Seo,Danijar Hafner,Hao Liu,Fangchen Liu,Stephen James,Kimin Lee,Pieter Abbeel https://arxiv.org/abs/2206.14244 2023/06/18 論文を表す画像被引用数：19 1/10

背景：物体消失問題 ❏ 画像表現学習とタスクのギャップ ❏ 単純に再構成誤差でAEを学習してもタスクに適した表現が得られない ❏ VAEのような再構成学習では面積の小さい要素は無視してもLossが
下がる ❏ 一方で，タスクに必要なのは対象物体の位置などの一部の情報 ❏ 学習コストの問題 ❏ 画像モデルと状態遷移モデルを同時に学習すると，高次元データとなり計算量が増大 2/10 出典：https://arxiv.org/abs/2203.00494

Masked Autoencoder (MAE) ❏ パッチに分割された画像の75％をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差
（MSE） ❏ 画像分類タスクで高精度を達成 3/10 出典：https://arxiv.org/abs/2111.06377

Masked World Models (MWM) 4/10 ❏ 画像直接ではなく，中間層でマスキング（物体消失を防ぐ） ❏ パッチ内の細かいディテールを学習することが困難な場合がある ❏
再構成に加え報酬予測（報酬にかかわる情報を重視させる）

実験 5/10 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite

結果 6/10 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を扱うタスク小さな物体を扱わないタスク

結果：Ablation Studies 7/10 画像直接ではなく特徴量マスクで性能向上 75%のマスクで最高性能報酬予測で性能向上 ❏ 特徴量マスク＋マスク比率75％＋報酬予測で最高性能

結果：予測画像比較 8/10 ❏ DreamerV2と比較してMWMは物体位置を予測できている物体位置把握物体消失

まとめ 9/10 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善

参考文献 ❏ 松尾研究室スライド ❏ googleサイト 10/10

[論文紹介] Masked World Models for Visual Control

[論文紹介] Masked World Models for Visual Control

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

背景：物体消失問題 ❏ 画像表現学習とタスクのギャップ ❏ 単純に再構成誤差でAEを学習してもタスクに適した表現が得られない ❏ VAEのような再構成学習では面積の小さい要素は無視してもLossが

Masked Autoencoder (MAE) ❏ パッチに分割された画像の75％をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差

Masked World Models (MWM) 4/10 ❏ 画像直接ではなく，中間層でマスキング（物体消失を防ぐ） ❏ パッチ内の細かいディテールを学習することが困難な場合がある ❏

実験 5/10 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite

結果 6/10 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度

結果：Ablation Studies 7/10 画像直接ではなく特徴量マスクで性能向上 75%のマスクで最高性能報酬予測で性能向上 ❏ 特徴量マスク＋マスク比率75％＋報酬予測で最高性能

結果：予測画像比較 8/10 ❏ DreamerV2と比較してMWMは物体位置を予測できている物体位置把握物体消失

まとめ 9/10 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善

参考文献 ❏ 松尾研究室スライド ❏ googleサイト 10/10