[論文紹介] Mastering Diverse Domains through World Models

Slide 1

Slide 1 text

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・先行研究では特定タスクやドメインに特化していたが，Dreamerv3では多くのドメインにわたるタスクを解決できる汎用的でスケーリング特性をもつ手法を提案．・チューニングが少なくて済み，タスクや環境の変化に対して堅牢．・優れたスケーリング特性により先行研究よりも大規模で複雑なタスクを処理できる．・複数のベンチマークで性能評価行動空間が離散or連続，空間が2Dor3D，報酬が疎or密なものを対象．・モデルサイズの変更による性能評価・世界モデルによる未来予測・Minecraftダイヤモンド収集タスクによる評価・Dreamerv2をより汎用的に使える手法にするためにいくつか工夫・ドメインが変わっても常に同じハイパラで学習できるように 1．観測や報酬の値をsymlog関数で変換する． 2．Actorの目的関数ではλ収益の値を正規化する．・固定ハイパラを用いた広範囲のドメインにおいて，既存手法を超えた．・Dreamerv3はスケーリング特性により，大きなモデルを使用すると高いデータ効率と高い最終パフォーマンスを獲得．・「人間のデータ」「カリキュラム学習」を使わずに，ゼロから Minecraftでダイヤモンド採集タスクに成功した． Mastering Diverse Domains through World Models （arXiv 2023）Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap https://arxiv.org/pdf/2301.04104v1.pdf 2023/05/06 論文を表す画像被引用数：947 1/11

Slide 2

Slide 2 text

Symlog Prediction ❏ ドメインが変わると，観測や報酬の値のスケールが変わるので，逐一ハイパラを調整する必要がある ❏ それをしなくていいように，symlog関数をかけることで値をある程度揃える ❏ 可逆な関数なので，逆関数をかければ元の値に戻せる 2/11

Slide 3

Slide 3 text

λ収益の正規化 ❏ エントロピー正則化付きでactorを学習する場合，その係数のチューニングは報酬のスケールやスパース性に依存するので難しい ❏ うまく報酬の値を正規化できれば，ドメインによらずエントロピー項の係数を固定できるはず ❏ 収益を5~95%分位数の幅で正規化する ❏ 単純に分散で正規化すると，報酬がスパースなときに，収益が過大評価されてしまうので，外れ値を弾けるようにこの形にする 3/11

Slide 4

Slide 4 text

実験(ベンチマーク) ❏ すべてのドメイン・タスクで同じハイパラで高い性能が出せる ❏ チューニングの必要がなくなる 4/11

Slide 5

Slide 5 text

実験(スケーリング) ❏ モデルサイズによって性能がスケールすることを確認 ❏ 最終パフォーマンスとデータ効率向上 ❏ 勾配ステップ数を増やすと，データ効率がさらに向上 ❏ 最終パフォーマンスはどれも同じ 5/11

Slide 6

Slide 6 text

実験(データ効率) ❏ DMLabタスクでDreamerv3はIMPALAの約1/130のデータ効率 ❏ さらに，Dreamerv3の最終パフォーマンスがIMPALAを超えている 6/11

Slide 7

Slide 7 text

実験(世界モデルにおける未来予測) ❏ 上2段がDMLabタスクにおける結果 ❏ 下2段がControl Suiteタスクにおける結果 7/11

Slide 8

Slide 8 text

実験(Minecraftタスク) ❏ Minecraftタスクで初めてRL agentがダイヤモンドを取ることに成功 8/11

Slide 9

Slide 9 text

まとめ ❏ Dreamerv2の発展版を提案 ❏ Minecraftタスクでダイヤモンドを採取できるのはすごいと感じた ❏ Minecraftタスク40回のプレイすべてで，ダイヤモンドを採取できない ❏ 人間だと40回の全プレイにおいて，ダイヤモンドを採取できると予想 ❏ より横断的にゲーム環境のタスクでテストの実施が必要 9/11

Slide 10

Slide 10 text

補足：用語の意味 ❏ カリキュラム学習 ❏ タスクの難易度を徐々に上げて，効率的にエージェントを学習させる方法 ❏ トレーニング率 ❏ ステップ数に対するトレーニング中に実行された環境ステップ数の比率 10/11

Slide 11

Slide 11 text

参考文献 ❏ モリカトロンAIラボ ❏ 松尾研究室スライド ❏ Danijar Hafnerサイト ❏ ステートオブAIガイド 11/11