Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文輪読会 第28回 "Mastering Diverse Domains through W...

AcademiX
November 23, 2023
130

論文輪読会 第28回 "Mastering Diverse Domains through World Models"

AcademiX が開催した 第28回 論文輪読会 資料

日時:2023/11/12
論文タイトル:Mastering Diverse Domains through World Models

<概要>
固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。
様々なテクニック(KLバランシング+free bits, Symlog予測、)を用いることで、異なるドメインにまたがって学習できるようになった
人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモンドを収集する最初のアルゴリズム

AcademiX

November 23, 2023
Tweet

More Decks by AcademiX

Transcript

  1. 書誌情報 ・題名:Mastering Diverse Domains through World Models ・著者:Danijar Hafner,12 Jurgis

    Pasukonis,1 Jimmy Ba,2 Timothy Lillicrap1 ・URL:https://arxiv.org/abs/2301.04104 ・Code:https://github.com/danijar/dreamerv3 ・[Submitted on 10 Jan 2023] ※本資料における出典の記載の無い図表は全て上記の論文より引用
  2. RSSM PlaNetで提案されたダイナミクスモデル RSSM 確率論的な遷移と決定論的な遷移をモデル化 • ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1

    , 𝑠𝑡−1 ) • 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 • 𝑜𝑡 ~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) • 𝑟𝑡 ~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡 なぜ、分ける必要があるのか? ゲームでは、背景などは決定論的に変化するもの、 と確率的に変化する(敵の動きなど)部分が存在。 これらをうまく表現するために分けている https://arxiv.org/pdf/1811.04551.pdf
  3. Dreamer 世界モデルの学習 • RSSMを用いて、経験から世界モデルを学習 ①過去の画像(𝑜1 , 𝑜2 , 𝑜3 )と行

    動(𝑎1 , 𝑎2 , 𝑎3 )を用いて、 compact stateを予測 ②そこから画像を再構成し、 報酬を予測 ③再構成された画像と予測 された報酬をもとに損失を 計算し学習 https://blog.research.google/2020/03/introducing- dreamer-scalable.html
  4. • Actor-Critic Dreamerでは、行動を学習する際に2つのモジュールを用いる。 Actorある状態の下でどう行動するのか(方策) 𝑎𝑡 ~𝜋𝜃 𝑎𝑡 𝑠𝑡 Critic エージェントの到達した状態の良さを評価(状態価値関数)

    𝑣𝜓 𝑠𝑡 ≈ 𝐸𝑝𝜓,𝜋𝜃 𝑅𝑡 Criticは正確に状態価値を予測できるように学習し、Actorはその状態価値を最大化す る行動を出力するように学習する *ここで𝑅𝑡 はTD(𝜆)法を使用(詳しくはゼロつく4) Dreamer 価値関数、方策を学習
  5. 様々なドメインに適用するためのテクニック3 • Ex)バケットB=[-2, -1, 0, 1, 2]で報酬がX=1.3とする。 𝐾 = ෍

    𝑗=1 𝐵 𝛿 𝑏𝑗 < 𝑥 = 1 + 1 + 1 + 1 + 0 = 4 Τ 𝑏𝑘+1 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 2 − 1.3 2 − 1 = 0.7 Τ 𝑏𝑘 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 1 − 1.3 2 − 1 = 0.3 𝑡𝑤𝑜ℎ𝑜𝑡 𝑥 = [0, 0, 0,0.7, 0.3]に変換 ⇒softターゲットの分類問題に!
  6. Results Maincraft ダイヤモンド収集タスク 従来は、 expert dataの模倣学習とハイパーパラメータの調整 今回は、 固定のパラメータ,expertdataなし 40個のシードの環境で100Mステップで学習 環境の設定

    MineRLと同様に12のマイルストーン(木材、鉄のピッケル、ダイヤモンドを獲得)に報酬を 与えるような疎な報酬構造で検証 各アイテムの報酬は1エピソードにつき1回 *失われたハートには-0.01 回復したハートには+0.01の小さな報酬をあたえる エピソード終了はプレイヤー死亡もしくは36000ステップで終了
  7. Conclusion • 固定パラメータで幅広いドメインで学習できるDreamerV3を提案 • 7つのベンチマークでSOTA • スケーリングによって、精度およびデータ効率が向上することを示し た • パラメータ固定、expert

    dataを用いずに、100Mstepでの学習で Minecraftのダイヤ収集をすることに初めて成功 • 本研究では、別々のエージェントを訓練しているが、ワールドモデル はタスク間で移行できる可能性がある。今後、モデルを大規模化する ことで複数のタスクを解決するエージョンを訓練できる方向性を示し た
  8. Appendix RNNとSSMとRSSMの違い • □→□は決定論的な遷移 〇→〇確率的な遷移 ℎ𝑡 = 𝑓 ℎ𝑡−1 ,

    𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の未来をとらえるのが難 しい 𝑠𝑡 ~𝑝 𝑠𝑡 |𝑠𝑡−1 , 𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の時間ステップに渡って情 報を記憶することが難しくなる ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1 , 𝑠𝑡−1 ) 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 𝑜𝑡 ′~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) 𝑟𝑡 ′~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡