[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・多視点MAEを学習し，世界モデルを学習するMV-MWMを提案・シミュレーションで学習した方策をカメラキャリブレーションなしで実ロボットタスクを解決できる・ビジュアルフィードバックによるロボット制御の頑健性を示す・MWMをベースラインとして比較する・マルチビュー制御＆シングルビュー制御と視点ロバスト制御タス
クを実施・視点ランダムによる実験・アブレーションスタディ「視点にマスク，ビデオAEのありなし，マスキング比率」 1．多視点データが与えられたときに，ランダムに画像をマスクした視点をマスクしていない視点の両方の画素を再構成する多視点MAE の学習を行う 2．多視点MAEから取得した特徴から世界モデルを学習し，シミュレーションと実世界の両方で「マルチビュー制御，シングルビュー制御，視点ロバスト制御」などの様々なロボット制御を行う・MWM (Masked World Model)の入力に使う画像を多視点画像を入力としたもの・複数のランダムな視点で学習した多視点MAEにより，カメラキャリブレーションなしに実ロボットタスクを解決 Multi-View Masked World Models for Visual Robotic Manipulation (ICML 2023) Younggyo Seo, Junsu Kim, Stephen James, Kimin Lee, Jinwoo Shin, Pieter Abbeel https://arxiv.org/abs/2302.02408 2023/06/18 論文を表す画像被引用数：1 1/7

Masked Autoencoder (MAE) ❏ パッチに分割された画像の75％をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差（MSE） ❏
画像分類タスクで高精度を達成 2/7 出典：https://arxiv.org/abs/2111.06377

実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite

結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度
小さな物体を扱うタスク小さな物体を扱わないタスク

結果：Ablation Studies 5/7 画像直接ではなく特徴量マスクで性能向上 75%のマスクで最高性能報酬予測で性能向上 ❏ 特徴量マスク＋マスク比率75％＋報酬予測で最高性能

まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善

参考文献 ❏ googleサイト 7/7

[論文紹介] Multi-View Masked World Models for Visua...

[論文紹介] Multi-View Masked World Models for Visual Robotic Manipulation

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

Masked Autoencoder (MAE) ❏ パッチに分割された画像の75％をマスクしてViTに入力 ❏ 損失関数 ❏ マスクされたパッチの再構成誤差（MSE） ❏

実験 3/7 ❏ Meta-world ❏ RLBench ❏ DeepMind Control Suite

結果 4/7 ❏ 性能・サンプル効率ともにDreamerV2から改善 ❏ Pick Placeタスクの小さな物体が重要なタスクでは差が顕著 ❏ Quadruped Walkタスクの小さな物体のないタスクでは同等程度

結果：Ablation Studies 5/7 画像直接ではなく特徴量マスクで性能向上 75%のマスクで最高性能報酬予測で性能向上 ❏ 特徴量マスク＋マスク比率75％＋報酬予測で最高性能

まとめ 6/7 ❏ 世界モデルの画像表現学習にMAEを使用 ❏ 画像直接ではなく中間層でマスキング ❏ 報酬予測によりタスクに適した表現を獲得 ❏ DreamerV2と比較して小さな物体を扱うタスクで大幅に性能改善

参考文献 ❏ googleサイト 7/7