[論文紹介] Mastering Diverse Domains through World Models

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・先行研究では特定タスクやドメインに特化していたが，Dreamerv3では多くのドメインにわたるタスクを解決できる汎用的でスケーリング特性をもつ手法を提案．・チューニングが少なくて済み，タスクや環境の変化に対して堅牢．・優れたスケーリング特性により先行研究よりも大規模で複雑なタスクを処理できる．
・複数のベンチマークで性能評価行動空間が離散or連続，空間が2Dor3D，報酬が疎or密なものを対象．・モデルサイズの変更による性能評価・世界モデルによる未来予測・Minecraftダイヤモンド収集タスクによる評価・Dreamerv2をより汎用的に使える手法にするためにいくつか工夫・ドメインが変わっても常に同じハイパラで学習できるように 1．観測や報酬の値をsymlog関数で変換する． 2．Actorの目的関数ではλ収益の値を正規化する．・固定ハイパラを用いた広範囲のドメインにおいて，既存手法を超えた．・Dreamerv3はスケーリング特性により，大きなモデルを使用すると高いデータ効率と高い最終パフォーマンスを獲得．・「人間のデータ」「カリキュラム学習」を使わずに，ゼロから Minecraftでダイヤモンド採集タスクに成功した． Mastering Diverse Domains through World Models （arXiv 2023）Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap https://arxiv.org/pdf/2301.04104v1.pdf 2023/05/06 論文を表す画像被引用数：947 1/11

Symlog Prediction ❏ ドメインが変わると，観測や報酬の値のスケールが変わるので，逐一ハイパラを調整する必要がある ❏ それをしなくていいように，symlog関数をかけることで値をある程度揃える ❏ 可逆な関数なので，逆関数をかければ元の値に戻せる
2/11

λ収益の正規化 ❏ エントロピー正則化付きでactorを学習する場合，その係数のチューニングは報酬のスケールやスパース性に依存するので難しい ❏ うまく報酬の値を正規化できれば，ドメインによらずエントロピー項の係数を固定できるはず ❏ 収益を5~95%分位数の幅で正規化する ❏
単純に分散で正規化すると，報酬がスパースなときに，収益が過大評価されてしまうので，外れ値を弾けるようにこの形にする 3/11

実験(ベンチマーク) ❏ すべてのドメイン・タスクで同じハイパラで高い性能が出せる ❏ チューニングの必要がなくなる 4/11

実験(スケーリング) ❏ モデルサイズによって性能がスケールすることを確認 ❏ 最終パフォーマンスとデータ効率向上 ❏ 勾配ステップ数を増やすと，データ効率がさらに向上 ❏ 最終パフォーマンスはどれも同じ 5/11

実験(データ効率) ❏ DMLabタスクでDreamerv3はIMPALAの約1/130のデータ効率 ❏ さらに，Dreamerv3の最終パフォーマンスがIMPALAを超えている 6/11

実験(世界モデルにおける未来予測) ❏ 上2段がDMLabタスクにおける結果 ❏ 下2段がControl Suiteタスクにおける結果 7/11

実験(Minecraftタスク) ❏ Minecraftタスクで初めてRL agentがダイヤモンドを取ることに成功 8/11

まとめ ❏ Dreamerv2の発展版を提案 ❏ Minecraftタスクでダイヤモンドを採取できるのはすごいと感じた ❏ Minecraftタスク40回のプレイすべてで，ダイヤモンドを採取できない ❏ 人間だと40回の全プレイにおいて，ダイヤモンドを採取できると
予想 ❏ より横断的にゲーム環境のタスクでテストの実施が必要 9/11

補足：用語の意味 ❏ カリキュラム学習 ❏ タスクの難易度を徐々に上げて，効率的にエージェントを学習させる方法 ❏ トレーニング率 ❏ ステップ数に対するトレーニング中に実行された環境ステップ数
の比率 10/11

参考文献 ❏ モリカトロンAIラボ ❏ 松尾研究室スライド ❏ Danijar Hafnerサイト ❏ ステートオブAIガイド
11/11

[論文紹介] Mastering Diverse Domains through World ...

[論文紹介] Mastering Diverse Domains through World Models

tt1717

More Decks by tt1717

Other Decks in Research

Featured

Transcript

実験(ベンチマーク) ❏ すべてのドメイン・タスクで同じハイパラで高い性能が出せる ❏ チューニングの必要がなくなる 4/11

実験(スケーリング) ❏ モデルサイズによって性能がスケールすることを確認 ❏ 最終パフォーマンスとデータ効率向上 ❏ 勾配ステップ数を増やすと，データ効率がさらに向上 ❏ 最終パフォーマンスはどれも同じ 5/11

実験(データ効率) ❏ DMLabタスクでDreamerv3はIMPALAの約1/130のデータ効率 ❏ さらに，Dreamerv3の最終パフォーマンスがIMPALAを超えている 6/11

実験(世界モデルにおける未来予測) ❏ 上2段がDMLabタスクにおける結果 ❏ 下2段がControl Suiteタスクにおける結果 7/11

実験(Minecraftタスク) ❏ Minecraftタスクで初めてRL agentがダイヤモンドを取ることに成功 8/11

補足：用語の意味 ❏ カリキュラム学習 ❏ タスクの難易度を徐々に上げて，効率的にエージェントを学習させる方法 ❏ トレーニング率 ❏ ステップ数に対するトレーニング中に実行された環境ステップ数

参考文献 ❏ モリカトロンAIラボ ❏ 松尾研究室スライド ❏ Danijar Hafnerサイト ❏ ステートオブAIガイド