Slide 1

Slide 1 text

https://www.academix.jp/ AcademiX 論文輪読会 Mastering Diverse Domains through World Models 東京理科大学社会基盤工学科B3 藤野倫太郎 2023/11/12

Slide 2

Slide 2 text

書誌情報 ・題名:Mastering Diverse Domains through World Models ・著者:Danijar Hafner,12 Jurgis Pasukonis,1 Jimmy Ba,2 Timothy Lillicrap1 ・URL:https://arxiv.org/abs/2301.04104 ・Code:https://github.com/danijar/dreamerv3 ・[Submitted on 10 Jan 2023] ※本資料における出典の記載の無い図表は全て上記の論文より引用

Slide 3

Slide 3 text

目次 1. 世界モデルについて 1. 世界モデルと強化学習 2. RSSM(PlaNet) 3. DeamerV1 4. DreamerV2 2. DreamerV3 3. Results 4. Conclution

Slide 4

Slide 4 text

強化学習について 機械学習のひとつ。システムが試行錯誤を繰り返して、目的にあった適切な制御 方法を学習していく技術を指します。 (参考:https://www.sedesign.co.jp/dxinsight/what-is-reinforcement-learning) 図)https://dajiro.com/entry/2020/05/18/091134

Slide 5

Slide 5 text

世界モデルとは 将棋や囲碁で深層強化学習は成功している ⇒実世界に適用可能なエージェントの実現には課題がある 課題 ● サンプル効率が悪い 実世界で十分なサンプルを集めるのは難しい ● 汎化性能が低い 別のタスクに転移できない、環境が変わると精度が下がる

Slide 6

Slide 6 text

世界モデルとは、 ● サンプル効率が悪い ⇒シミュレーション環境を擬似的に作成する ● 汎化性能が低い ⇒表現学習を用いて、汎用的な表現を獲得 汎用的な表現を抽出し、その表現空間内での遷移をモデル化することで、汎用的な環 境で、効率的に学習できる。 ⇒世界モデル World Models[Ha and Schmidhuber] 引用)https://qiita.com/pocokhc/items/bcebc4b7b2454028baf9

Slide 7

Slide 7 text

世界モデルと強化学習 ①方策を用いて、実環境からデー タを収集 ②収集したデータを用いて、世界 モデルを学習 ③世界モデル内で方策を学習 ④①~③を繰り返す ②をうまく学習できたモデルが PlaNetのRSSM(Recurrent State Space Model)

Slide 8

Slide 8 text

(補足)World Model

Slide 9

Slide 9 text

RSSM PlaNetで提案されたダイナミクスモデル RSSM 確率論的な遷移と決定論的な遷移をモデル化 ● ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1 , 𝑠𝑡−1 ) ● 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 ● 𝑜𝑡 ~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) ● 𝑟𝑡 ~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡 なぜ、分ける必要があるのか? ゲームでは、背景などは決定論的に変化するもの、 と確率的に変化する(敵の動きなど)部分が存在。 これらをうまく表現するために分けている https://arxiv.org/pdf/1811.04551.pdf

Slide 10

Slide 10 text

Appendix PlaNetの結果 ● 決定論的(Deterministic)と確率論的(Stochastic)より明らかに精度が良い https://arxiv.org/pdf/1811.04551.pdf

Slide 11

Slide 11 text

Dreamer PlaNetをベースとして、方策学習をActor-critic型に変更したもの 3つの過程 https://arxiv.org/pdf/1912.01603.pdf

Slide 12

Slide 12 text

Dreamer 世界モデルの学習 ● RSSMを用いて、経験から世界モデルを学習 ①過去の画像(𝑜1 , 𝑜2 , 𝑜3 )と行 動(𝑎1 , 𝑎2 , 𝑎3 )を用いて、 compact stateを予測 ②そこから画像を再構成し、 報酬を予測 ③再構成された画像と予測 された報酬をもとに損失を 計算し学習 https://blog.research.google/2020/03/introducing- dreamer-scalable.html

Slide 13

Slide 13 text

● Actor-Critic Dreamerでは、行動を学習する際に2つのモジュールを用いる。 Actorある状態の下でどう行動するのか(方策) 𝑎𝑡 ~𝜋𝜃 𝑎𝑡 𝑠𝑡 Critic エージェントの到達した状態の良さを評価(状態価値関数) 𝑣𝜓 𝑠𝑡 ≈ 𝐸𝑝𝜓,𝜋𝜃 𝑅𝑡 Criticは正確に状態価値を予測できるように学習し、Actorはその状態価値を最大化す る行動を出力するように学習する *ここで𝑅𝑡 はTD(𝜆)法を使用(詳しくはゼロつく4) Dreamer 価値関数、方策を学習

Slide 14

Slide 14 text

Dreamer 価値関数、方策を学習 ● アクターネットワークを効率的に学習して、成功アクションを予測します。 モデルの状態を連続して予測し、最終的に得られる報酬を逆方向に伝播する ことにより、これを達成します。 Point Actorは確率モデル であったため、再 パラメータ化トリ ックを用いて勾配 を通している https://blog.research.google/2020/03/introducing- dreamer-scalable.html

Slide 15

Slide 15 text

DreamerV2(説明は省略) ● Dreamerの改良版 ● 潜在変数の分布をカテゴ リカル分布に変更(多様 な表現が可能) ● KLバランシング(学習の 安定化) https://arxiv.org/pdf/2010.02193.pdf

Slide 16

Slide 16 text

概要(DeamerV3) ● 固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一 般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。 ● 様々なテクニック(KLバランシング+free bits, Symlog予測、)を用いることで、異 なるドメインにまたがって学習できるようになった ● 人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモ ンドを収集する最初のアルゴリズム

Slide 17

Slide 17 text

DreamerV3 学習するプロセス、モデルはほとんど同じ 変更点 ● DreamerV2を様々なドメインに適用するためのテクニックを導入 世界モデル学習時 ・Symlog予測 ・Free-bit critic学習時 ・報酬の離散化 Actor学習時 ・収益の正規化 ● モデルの大規模化

Slide 18

Slide 18 text

様々なドメインに適用するためのテクニック1 世界モデル学習時 Symlog予測 報酬や状態価値はドメインごとにスケールが異 なる ⇒ハイパーパラメータを調整する必要がある 損失を計算する際に、以下の関数で変換した値 を予測するようにする ⇒大きな報酬を切り捨てたりする必要がない 大きな正負の値を圧縮している

Slide 19

Slide 19 text

様々なドメインに適用するためのテクニック2 世界モデル学習時 従来の世界モデルでは、環境の視覚的な複雑さに応じて、表現損失(representation loss)をスケーリングする必要がある。 ジレンマ 複雑な3D環境では、不要な情報が含まれているため、単純化したい 2Dでは、細かいディテールが重要であるため、表現を単純化させたくない Free-bit 潜在変数が獲得する情報量の最小値について、制約を設ける KLダイバージェンスのそれぞれの項について、1以上であれば1を返すようにクリッ ピングする

Slide 20

Slide 20 text

様々なドメインに適用するためのテクニック3 Criticの学習時 報酬を離散化 従来は、評価器(Critic)ばらつきが大きい収益の期待値を予測しなければいけなか った⇒学習が遅い アプローチ 連続値をtwo-hotベクトルを用いて、離散化 回帰問題ではなく、分類問題に変換

Slide 21

Slide 21 text

様々なドメインに適用するためのテクニック3 ● Ex)バケットB=[-2, -1, 0, 1, 2]で報酬がX=1.3とする。 𝐾 = ෍ 𝑗=1 𝐵 𝛿 𝑏𝑗 < 𝑥 = 1 + 1 + 1 + 1 + 0 = 4 Τ 𝑏𝑘+1 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 2 − 1.3 2 − 1 = 0.7 Τ 𝑏𝑘 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 1 − 1.3 2 − 1 = 0.3 𝑡𝑤𝑜ℎ𝑜𝑡 𝑥 = [0, 0, 0,0.7, 0.3]に変換 ⇒softターゲットの分類問題に!

Slide 22

Slide 22 text

様々なドメインに適用するためのテクニック4 Actorの学習時 十分探索しながら、収益を最大化するように行動を選択するように学習 環境中の報酬の規模と頻度に大きく依存 単純に分散で正規化すると報酬がスパース時、0に近い報酬(ノイズ)を過大評価され てしまう 大きな報酬をスケールダウンし、小さな報酬をスケールダウンさせない方法を提案 𝜆収益の正規化 ● 収益を5~95%分位数Sの幅で正規化する 𝑆 = 𝑃𝑒𝑟 𝑅𝑡 𝜆, 95 − 𝑃𝑒𝑟 𝑅𝑡 𝜆, 5

Slide 23

Slide 23 text

Results ● DreamerV3の汎用性を評価するために、150以上のタスクからなる多様なド メインに渡って評価 ● 8M~200Mのパラメータまでの5つのモデルサイズを訓練し、スケーリングを 評価 ● Mincraftにおけるダイヤモンドの収集に挑戦 多様なドメイン 連続アクション⇔離散アクション 高次元(視覚)入力⇔低次元入力 疎な報酬⇔密な報酬 スケールが大きい報酬⇔スケールが小さい報酬 2D世界⇔3D世界

Slide 24

Slide 24 text

Results 多様なドメイン領域において、同じハイパーパラメータを用いて、モデルフリ ーおよびモデルベースのアルゴリズムを凌駕する

Slide 25

Slide 25 text

Results モデルサイズを大きくすると 性能とデータ効率の両方向上 する *縦軸:精度、横軸:モデルのパラメータ数

Slide 26

Slide 26 text

Results Maincraft ダイヤモンド収集タスク 従来は、 expert dataの模倣学習とハイパーパラメータの調整 今回は、 固定のパラメータ,expertdataなし 40個のシードの環境で100Mステップで学習 環境の設定 MineRLと同様に12のマイルストーン(木材、鉄のピッケル、ダイヤモンドを獲得)に報酬を 与えるような疎な報酬構造で検証 各アイテムの報酬は1エピソードにつき1回 *失われたハートには-0.01 回復したハートには+0.01の小さな報酬をあたえる エピソード終了はプレイヤー死亡もしくは36000ステップで終了

Slide 27

Slide 27 text

Results 結果 ・40シードの環境で24回は一つの ダイヤモンドを獲得 ・ダイヤモンドを獲得したシード 環境での、最初にダイヤを見つけ るまでのステップの中央値は、 74Mプレイ時間42日

Slide 28

Slide 28 text

Results 世界モデルが5frame入力され、45frameを予測した結果

Slide 29

Slide 29 text

Abulation Study KLバランシング 部分的に学習を加速させる Free-bit 単純な環境でのoverfittingを避ける *targrtKLはより複雑な方法 今回用い ていない

Slide 30

Slide 30 text

Abulation Study 離散分類問題への帰着の優位性 Cont regression vs DreamerV3 Montezuma, PinPad Fiveなどで効果がある 別の手法 DreamerV3の方が優位 Slow target Reward norm Sqrt transform

Slide 31

Slide 31 text

Abulation Study 𝝀収益の正規化の優位性 Dreamer vs Advantage std Return std PinPad FiveやCartPole Swing Sparseにおいて優れている

Slide 32

Slide 32 text

Conclusion ● 固定パラメータで幅広いドメインで学習できるDreamerV3を提案 ● 7つのベンチマークでSOTA ● スケーリングによって、精度およびデータ効率が向上することを示し た ● パラメータ固定、expert dataを用いずに、100Mstepでの学習で Minecraftのダイヤ収集をすることに初めて成功 ● 本研究では、別々のエージェントを訓練しているが、ワールドモデル はタスク間で移行できる可能性がある。今後、モデルを大規模化する ことで複数のタスクを解決するエージョンを訓練できる方向性を示し た

Slide 33

Slide 33 text

Appendix RNNとSSMとRSSMの違い ● □→□は決定論的な遷移 〇→〇確率的な遷移 ℎ𝑡 = 𝑓 ℎ𝑡−1 , 𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の未来をとらえるのが難 しい 𝑠𝑡 ~𝑝 𝑠𝑡 |𝑠𝑡−1 , 𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の時間ステップに渡って情 報を記憶することが難しくなる ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1 , 𝑠𝑡−1 ) 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 𝑜𝑡 ′~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) 𝑟𝑡 ′~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡

Slide 34

Slide 34 text

Appendix Model size

Slide 35

Slide 35 text

Appendix DreamerV2 ● 潜分布に在変数の分布をカテゴリカルに変更(多様な表現が可能) 潜在変数分布に単峰正規分布という強い仮定を置くのではなく、 より自在な分布を表現できるカテゴリ分布を用いることで系の 確率的な遷移をより表現しやすくなる

Slide 36

Slide 36 text

KL Balancing ● 世界モデルのLossにおいて、KL項はencoderと遷移モデルのを近づける正則 化の役割をする