論文輪読会第28回 "Mastering Diverse Domains through World Models"

https://www.academix.jp/ AcademiX 論文輪読会 Mastering Diverse Domains through World Models 東京理科大学社会基盤工学科B3
藤野倫太郎 2023/11/12

書誌情報・題名：Mastering Diverse Domains through World Models ・著者：Danijar Hafner,12 Jurgis
Pasukonis,1 Jimmy Ba,2 Timothy Lillicrap1 ・URL：https://arxiv.org/abs/2301.04104 ・Code：https://github.com/danijar/dreamerv3 ・[Submitted on 10 Jan 2023] ※本資料における出典の記載の無い図表は全て上記の論文より引用

目次 1. 世界モデルについて 1. 世界モデルと強化学習 2. RSSM(PlaNet) 3. DeamerV1 4.
DreamerV2 2. DreamerV3 3. Results 4. Conclution

強化学習について機械学習のひとつ。システムが試行錯誤を繰り返して、目的にあった適切な制御方法を学習していく技術を指します。 (参考：https://www.sedesign.co.jp/dxinsight/what-is-reinforcement-learning) 図）https://dajiro.com/entry/2020/05/18/091134

世界モデルとは将棋や囲碁で深層強化学習は成功している ⇒実世界に適用可能なエージェントの実現には課題がある課題 • サンプル効率が悪い実世界で十分なサンプルを集めるのは難しい • 汎化性能が低い別のタスクに転移できない、環境が変わると精度が下がる

世界モデルとは、 • サンプル効率が悪い ⇒シミュレーション環境を擬似的に作成する • 汎化性能が低い ⇒表現学習を用いて、汎用的な表現を獲得汎用的な表現を抽出し、その表現空間内での遷移をモデル化することで、汎用的な環境で、効率的に学習できる。 ⇒世界モデル
World Models[Ha and Schmidhuber] 引用）https://qiita.com/pocokhc/items/bcebc4b7b2454028baf9

世界モデルと強化学習 ①方策を用いて、実環境からデータを収集 ②収集したデータを用いて、世界モデルを学習 ③世界モデル内で方策を学習 ④①～③を繰り返す ②をうまく学習できたモデルが PlaNetのRSSM(Recurrent State
Space Model)

(補足)World Model

RSSM PlaNetで提案されたダイナミクスモデル RSSM 確率論的な遷移と決定論的な遷移をモデル化 • ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1
, 𝑠𝑡−1 ) • 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 • 𝑜𝑡 ~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) • 𝑟𝑡 ~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡 なぜ、分ける必要があるのか？ゲームでは、背景などは決定論的に変化するもの、と確率的に変化する(敵の動きなど)部分が存在。これらをうまく表現するために分けている https://arxiv.org/pdf/1811.04551.pdf

Appendix PlaNetの結果 • 決定論的(Deterministic)と確率論的(Stochastic)より明らかに精度が良い https://arxiv.org/pdf/1811.04551.pdf

Dreamer PlaNetをベースとして、方策学習をActor-critic型に変更したもの 3つの過程 https://arxiv.org/pdf/1912.01603.pdf

Dreamer 世界モデルの学習 • RSSMを用いて、経験から世界モデルを学習 ①過去の画像(𝑜1 , 𝑜2 , 𝑜3 )と行
動(𝑎1 , 𝑎2 , 𝑎3 )を用いて、 compact stateを予測 ②そこから画像を再構成し、報酬を予測 ③再構成された画像と予測された報酬をもとに損失を計算し学習 https://blog.research.google/2020/03/introducing- dreamer-scalable.html

• Actor-Critic Dreamerでは、行動を学習する際に2つのモジュールを用いる。 Actorある状態の下でどう行動するのか(方策) 𝑎𝑡 ~𝜋𝜃 𝑎𝑡 𝑠𝑡 Critic エージェントの到達した状態の良さを評価(状態価値関数)
𝑣𝜓 𝑠𝑡 ≈ 𝐸𝑝𝜓,𝜋𝜃 𝑅𝑡 Criticは正確に状態価値を予測できるように学習し、Actorはその状態価値を最大化する行動を出力するように学習する＊ここで𝑅𝑡 はTD(𝜆)法を使用(詳しくはゼロつく4) Dreamer 価値関数、方策を学習

Dreamer 価値関数、方策を学習 • アクターネットワークを効率的に学習して、成功アクションを予測します。モデルの状態を連続して予測し、最終的に得られる報酬を逆方向に伝播することにより、これを達成します。 Point Actorは確率モデルであったため、再パラメータ化トリ
ックを用いて勾配を通している https://blog.research.google/2020/03/introducing- dreamer-scalable.html

DreamerV2(説明は省略) • Dreamerの改良版 • 潜在変数の分布をカテゴリカル分布に変更(多様な表現が可能） • KLバランシング(学習の安定化)
https://arxiv.org/pdf/2010.02193.pdf

概要(DeamerV3) • 固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。 • 様々なテクニック（KLバランシング＋free bits, Symlog予測、）を用いることで、異なるドメインにまたがって学習できるようになった •
人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモンドを収集する最初のアルゴリズム

DreamerV3 学習するプロセス、モデルはほとんど同じ変更点 • DreamerV2を様々なドメインに適用するためのテクニックを導入世界モデル学習時・Symlog予測・Free-bit critic学習時・報酬の離散化
Actor学習時・収益の正規化 • モデルの大規模化

様々なドメインに適用するためのテクニック1 世界モデル学習時 Symlog予測報酬や状態価値はドメインごとにスケールが異なる ⇒ハイパーパラメータを調整する必要がある損失を計算する際に、以下の関数で変換した値を予測するようにする ⇒大きな報酬を切り捨てたりする必要がない大きな正負の値を圧縮している

様々なドメインに適用するためのテクニック2 世界モデル学習時従来の世界モデルでは、環境の視覚的な複雑さに応じて、表現損失(representation loss)をスケーリングする必要がある。ジレンマ複雑な３D環境では、不要な情報が含まれているため、単純化したい 2Dでは、細かいディテールが重要であるため、表現を単純化させたくない Free-bit 潜在変数が獲得する情報量の最小値について、制約を設ける KLダイバージェンスのそれぞれの項について、1以上であれば１を返すようにクリッ
ピングする

様々なドメインに適用するためのテクニック3 Criticの学習時報酬を離散化従来は、評価器(Critic)ばらつきが大きい収益の期待値を予測しなければいけなかった⇒学習が遅いアプローチ連続値をtwo-hotベクトルを用いて、離散化回帰問題ではなく、分類問題に変換

様々なドメインに適用するためのテクニック3 • Ex)バケットB=[-2, -1, 0, 1, 2]で報酬がX=1.3とする。 𝐾 = ෍
𝑗=1 𝐵 𝛿 𝑏𝑗 < 𝑥 = 1 + 1 + 1 + 1 + 0 = 4 Τ 𝑏𝑘+1 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 2 − 1.3 2 − 1 = 0.7 Τ 𝑏𝑘 − 𝑥 𝑏𝑘+1 − 𝑏𝑘 = Τ 1 − 1.3 2 − 1 = 0.3 𝑡𝑤𝑜ℎ𝑜𝑡 𝑥 = [0, 0, 0,0.7, 0.3]に変換 ⇒softターゲットの分類問題に！

様々なドメインに適用するためのテクニック4 Actorの学習時十分探索しながら、収益を最大化するように行動を選択するように学習環境中の報酬の規模と頻度に大きく依存単純に分散で正規化すると報酬がスパース時、0に近い報酬(ノイズ）を過大評価されてしまう大きな報酬をスケールダウンし、小さな報酬をスケールダウンさせない方法を提案 𝜆収益の正規化 • 収益を5~95%分位数Sの幅で正規化する
𝑆 = 𝑃𝑒𝑟 𝑅𝑡 𝜆, 95 − 𝑃𝑒𝑟 𝑅𝑡 𝜆, 5

Results • DreamerV3の汎用性を評価するために、150以上のタスクからなる多様なドメインに渡って評価 • 8M~200Mのパラメータまでの5つのモデルサイズを訓練し、スケーリングを評価 • Mincraftにおけるダイヤモンドの収集に挑戦多様なドメイン
連続アクション⇔離散アクション高次元(視覚)入力⇔低次元入力疎な報酬⇔密な報酬スケールが大きい報酬⇔スケールが小さい報酬 2D世界⇔3D世界

Results 多様なドメイン領域において、同じハイパーパラメータを用いて、モデルフリーおよびモデルベースのアルゴリズムを凌駕する

Results モデルサイズを大きくすると性能とデータ効率の両方向上する＊縦軸：精度、横軸：モデルのパラメータ数

Results Maincraft ダイヤモンド収集タスク従来は、 expert dataの模倣学習とハイパーパラメータの調整今回は、固定のパラメータ,expertdataなし 40個のシードの環境で100Mステップで学習環境の設定
MineRLと同様に12のマイルストーン(木材、鉄のピッケル、ダイヤモンドを獲得)に報酬を与えるような疎な報酬構造で検証各アイテムの報酬は1エピソードにつき1回＊失われたハートには-0.01 回復したハートには+0.01の小さな報酬をあたえるエピソード終了はプレイヤー死亡もしくは36000ステップで終了

Results 結果・40シードの環境で24回は一つのダイヤモンドを獲得・ダイヤモンドを獲得したシード環境での、最初にダイヤを見つけるまでのステップの中央値は、 74Mプレイ時間42日

Results 世界モデルが5frame入力され、45frameを予測した結果

Abulation Study KLバランシング部分的に学習を加速させる Free-bit 単純な環境でのoverfittingを避ける＊targrtKLはより複雑な方法今回用いていない

Abulation Study 離散分類問題への帰着の優位性 Cont regression vs DreamerV3 Montezuma, PinPad Fiveなどで効果がある
別の手法 DreamerV3の方が優位 Slow target Reward norm Sqrt transform

Abulation Study 𝝀収益の正規化の優位性 Dreamer vs Advantage std Return std PinPad
FiveやCartPole Swing Sparseにおいて優れている

Conclusion • 固定パラメータで幅広いドメインで学習できるDreamerV3を提案 • 7つのベンチマークでSOTA • スケーリングによって、精度およびデータ効率が向上することを示した • パラメータ固定、expert
dataを用いずに、100Mstepでの学習で Minecraftのダイヤ収集をすることに初めて成功 • 本研究では、別々のエージェントを訓練しているが、ワールドモデルはタスク間で移行できる可能性がある。今後、モデルを大規模化することで複数のタスクを解決するエージョンを訓練できる方向性を示した

Appendix RNNとSSMとRSSMの違い • □→□は決定論的な遷移〇→〇確率的な遷移 ℎ𝑡 = 𝑓 ℎ𝑡−1 ,
𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の未来をとらえるのが難しい 𝑠𝑡 ~𝑝 𝑠𝑡 |𝑠𝑡−1 , 𝑎𝑡−1 𝑜𝑡 ~𝑝(𝑜𝑡 |, 𝑠𝑡 ) 𝑟𝑡 ~𝑝 𝑟𝑡 𝑠𝑡 複数の時間ステップに渡って情報を記憶することが難しくなる ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1 , 𝑠𝑡−1 ) 𝑠𝑡 ~𝑝 𝑠𝑡 |ℎ𝑡 𝑜𝑡 ′~𝑝(𝑜𝑡 |ℎ𝑡 , 𝑠𝑡 ) 𝑟𝑡 ′~𝑝 𝑟𝑡 ℎ𝑡 , 𝑠𝑡

Appendix Model size

Appendix DreamerV2 • 潜分布に在変数の分布をカテゴリカルに変更(多様な表現が可能）潜在変数分布に単峰正規分布という強い仮定を置くのではなく、より自在な分布を表現できるカテゴリ分布を用いることで系の確率的な遷移をより表現しやすくなる

KL Balancing • 世界モデルのLossにおいて、KL項はencoderと遷移モデルのを近づける正則化の役割をする

論文輪読会第28回 "Mastering Diverse Domains through W...

論文輪読会第28回 "Mastering Diverse Domains through World Models"

AcademiX

More Decks by AcademiX

Featured

Transcript

https://www.academix.jp/ AcademiX 論文輪読会 Mastering Diverse Domains through World Models 東京理科大学社会基盤工学科B3

書誌情報・題名：Mastering Diverse Domains through World Models ・著者：Danijar Hafner,12 Jurgis

目次 1. 世界モデルについて 1. 世界モデルと強化学習 2. RSSM(PlaNet) 3. DeamerV1 4.

世界モデルと強化学習 ①方策を用いて、実環境からデータを収集 ②収集したデータを用いて、世界モデルを学習 ③世界モデル内で方策を学習 ④①～③を繰り返す ②をうまく学習できたモデルが PlaNetのRSSM(Recurrent State

(補足)World Model

RSSM PlaNetで提案されたダイナミクスモデル RSSM 確率論的な遷移と決定論的な遷移をモデル化 • ℎ𝑡 = 𝑓(ℎ𝑡−1 , 𝑎𝑡−1

Appendix PlaNetの結果 • 決定論的(Deterministic)と確率論的(Stochastic)より明らかに精度が良い https://arxiv.org/pdf/1811.04551.pdf

Dreamer PlaNetをベースとして、方策学習をActor-critic型に変更したもの 3つの過程 https://arxiv.org/pdf/1912.01603.pdf

Dreamer 世界モデルの学習 • RSSMを用いて、経験から世界モデルを学習 ①過去の画像(𝑜1 , 𝑜2 , 𝑜3 )と行

• Actor-Critic Dreamerでは、行動を学習する際に2つのモジュールを用いる。 Actorある状態の下でどう行動するのか(方策) 𝑎𝑡 ~𝜋𝜃 𝑎𝑡 𝑠𝑡 Critic エージェントの到達した状態の良さを評価(状態価値関数)

DreamerV2(説明は省略) • Dreamerの改良版 • 潜在変数の分布をカテゴリカル分布に変更(多様な表現が可能） • KLバランシング(学習の安定化)

DreamerV3 学習するプロセス、モデルはほとんど同じ変更点 • DreamerV2を様々なドメインに適用するためのテクニックを導入世界モデル学習時・Symlog予測・Free-bit critic学習時・報酬の離散化

様々なドメインに適用するためのテクニック3 • Ex)バケットB=[-2, -1, 0, 1, 2]で報酬がX=1.3とする。 𝐾 = ෍

Results 多様なドメイン領域において、同じハイパーパラメータを用いて、モデルフリーおよびモデルベースのアルゴリズムを凌駕する

Results モデルサイズを大きくすると性能とデータ効率の両方向上する＊縦軸：精度、横軸：モデルのパラメータ数

Results Maincraft ダイヤモンド収集タスク従来は、 expert dataの模倣学習とハイパーパラメータの調整今回は、固定のパラメータ,expertdataなし 40個のシードの環境で100Mステップで学習環境の設定

Results 結果・40シードの環境で24回は一つのダイヤモンドを獲得・ダイヤモンドを獲得したシード環境での、最初にダイヤを見つけるまでのステップの中央値は、 74Mプレイ時間42日

Results 世界モデルが5frame入力され、45frameを予測した結果

Abulation Study KLバランシング部分的に学習を加速させる Free-bit 単純な環境でのoverfittingを避ける＊targrtKLはより複雑な方法今回用いていない

Abulation Study 離散分類問題への帰着の優位性 Cont regression vs DreamerV3 Montezuma, PinPad Fiveなどで効果がある

Abulation Study 𝝀収益の正規化の優位性 Dreamer vs Advantage std Return std PinPad

Conclusion • 固定パラメータで幅広いドメインで学習できるDreamerV3を提案 • 7つのベンチマークでSOTA • スケーリングによって、精度およびデータ効率が向上することを示した • パラメータ固定、expert

Appendix RNNとSSMとRSSMの違い • □→□は決定論的な遷移〇→〇確率的な遷移 ℎ𝑡 = 𝑓 ℎ𝑡−1 ,

Appendix Model size

KL Balancing • 世界モデルのLossにおいて、KL項はencoderと遷移モデルのを近づける正則化の役割をする

論文輪読会 第28回 "Mastering Diverse Domains through W...

論文輪読会 第28回 "Mastering Diverse Domains through World Models"

More Decks by AcademiX

Featured

Transcript

論文輪読会第28回 "Mastering Diverse Domains through W...

論文輪読会第28回 "Mastering Diverse Domains through World Models"