Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文輪読会 第28回 "Mastering Diverse Domains through World Models"

AcademiX
November 23, 2023
53

論文輪読会 第28回 "Mastering Diverse Domains through World Models"

AcademiX が開催した 第28回 論文輪読会 資料

日時:2023/11/12
論文タイトル:Mastering Diverse Domains through World Models

<概要>
固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。
様々なテクニック(KLバランシング+free bits, Symlog予測、)を用いることで、異なるドメインにまたがって学習できるようになった
人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモンドを収集する最初のアルゴリズム

AcademiX

November 23, 2023
Tweet

More Decks by AcademiX

Transcript

  1. https://www.academix.jp/
    AcademiX 論文輪読会
    Mastering Diverse Domains through
    World Models
    東京理科大学社会基盤工学科B3
    藤野倫太郎
    2023/11/12

    View full-size slide

  2. 書誌情報
    ・題名:Mastering Diverse Domains through World Models
    ・著者:Danijar Hafner,12 Jurgis Pasukonis,1 Jimmy Ba,2 Timothy Lillicrap1
    ・URL:https://arxiv.org/abs/2301.04104
    ・Code:https://github.com/danijar/dreamerv3
    ・[Submitted on 10 Jan 2023]
    ※本資料における出典の記載の無い図表は全て上記の論文より引用

    View full-size slide

  3. 目次
    1. 世界モデルについて
    1. 世界モデルと強化学習
    2. RSSM(PlaNet)
    3. DeamerV1
    4. DreamerV2
    2. DreamerV3
    3. Results
    4. Conclution

    View full-size slide

  4. 強化学習について
    機械学習のひとつ。システムが試行錯誤を繰り返して、目的にあった適切な制御
    方法を学習していく技術を指します。
    (参考:https://www.sedesign.co.jp/dxinsight/what-is-reinforcement-learning)
    図)https://dajiro.com/entry/2020/05/18/091134

    View full-size slide

  5. 世界モデルとは
    将棋や囲碁で深層強化学習は成功している
    ⇒実世界に適用可能なエージェントの実現には課題がある
    課題
    ● サンプル効率が悪い
    実世界で十分なサンプルを集めるのは難しい
    ● 汎化性能が低い
    別のタスクに転移できない、環境が変わると精度が下がる

    View full-size slide

  6. 世界モデルとは、
    ● サンプル効率が悪い
    ⇒シミュレーション環境を擬似的に作成する
    ● 汎化性能が低い
    ⇒表現学習を用いて、汎用的な表現を獲得
    汎用的な表現を抽出し、その表現空間内での遷移をモデル化することで、汎用的な環
    境で、効率的に学習できる。
    ⇒世界モデル World Models[Ha and Schmidhuber]
    引用)https://qiita.com/pocokhc/items/bcebc4b7b2454028baf9

    View full-size slide

  7. 世界モデルと強化学習
    ①方策を用いて、実環境からデー
    タを収集
    ②収集したデータを用いて、世界
    モデルを学習
    ③世界モデル内で方策を学習
    ④①~③を繰り返す
    ②をうまく学習できたモデルが
    PlaNetのRSSM(Recurrent State
    Space Model)

    View full-size slide

  8. (補足)World Model

    View full-size slide

  9. RSSM
    PlaNetで提案されたダイナミクスモデル
    RSSM
    確率論的な遷移と決定論的な遷移をモデル化
    ● ℎ𝑡
    = 𝑓(ℎ𝑡−1
    , 𝑎𝑡−1
    , 𝑠𝑡−1
    )
    ● 𝑠𝑡
    ~𝑝 𝑠𝑡
    |ℎ𝑡
    ● 𝑜𝑡
    ~𝑝(𝑜𝑡
    |ℎ𝑡
    , 𝑠𝑡
    )
    ● 𝑟𝑡
    ~𝑝 𝑟𝑡
    ℎ𝑡
    , 𝑠𝑡
    なぜ、分ける必要があるのか?
    ゲームでは、背景などは決定論的に変化するもの、
    と確率的に変化する(敵の動きなど)部分が存在。
    これらをうまく表現するために分けている
    https://arxiv.org/pdf/1811.04551.pdf

    View full-size slide

  10. Appendix PlaNetの結果
    ● 決定論的(Deterministic)と確率論的(Stochastic)より明らかに精度が良い
    https://arxiv.org/pdf/1811.04551.pdf

    View full-size slide

  11. Dreamer
    PlaNetをベースとして、方策学習をActor-critic型に変更したもの
    3つの過程
    https://arxiv.org/pdf/1912.01603.pdf

    View full-size slide

  12. Dreamer 世界モデルの学習
    ● RSSMを用いて、経験から世界モデルを学習
    ①過去の画像(𝑜1
    , 𝑜2
    , 𝑜3
    )と行
    動(𝑎1
    , 𝑎2
    , 𝑎3
    )を用いて、
    compact stateを予測
    ②そこから画像を再構成し、
    報酬を予測
    ③再構成された画像と予測
    された報酬をもとに損失を
    計算し学習
    https://blog.research.google/2020/03/introducing-
    dreamer-scalable.html

    View full-size slide

  13. ● Actor-Critic
    Dreamerでは、行動を学習する際に2つのモジュールを用いる。
    Actorある状態の下でどう行動するのか(方策)
    𝑎𝑡
    ~𝜋𝜃
    𝑎𝑡
    𝑠𝑡
    Critic エージェントの到達した状態の良さを評価(状態価値関数)
    𝑣𝜓
    𝑠𝑡
    ≈ 𝐸𝑝𝜓,𝜋𝜃
    𝑅𝑡
    Criticは正確に状態価値を予測できるように学習し、Actorはその状態価値を最大化す
    る行動を出力するように学習する
    *ここで𝑅𝑡
    はTD(𝜆)法を使用(詳しくはゼロつく4)
    Dreamer 価値関数、方策を学習

    View full-size slide

  14. Dreamer 価値関数、方策を学習
    ● アクターネットワークを効率的に学習して、成功アクションを予測します。
    モデルの状態を連続して予測し、最終的に得られる報酬を逆方向に伝播する
    ことにより、これを達成します。
    Point
    Actorは確率モデル
    であったため、再
    パラメータ化トリ
    ックを用いて勾配
    を通している
    https://blog.research.google/2020/03/introducing-
    dreamer-scalable.html

    View full-size slide

  15. DreamerV2(説明は省略)
    ● Dreamerの改良版
    ● 潜在変数の分布をカテゴ
    リカル分布に変更(多様
    な表現が可能)
    ● KLバランシング(学習の
    安定化)
    https://arxiv.org/pdf/2010.02193.pdf

    View full-size slide

  16. 概要(DeamerV3)
    ● 固定されたハイパーパラメータを使用しながら、幅広いドメインで学習する、一
    般的でスケーラブルな強化学習アルゴリズムDreamerV3を提案。
    ● 様々なテクニック(KLバランシング+free bits, Symlog予測、)を用いることで、異
    なるドメインにまたがって学習できるようになった
    ● 人間のデータやカリキュラムを用いたずに、ゼロからマインクラフトのダイヤモ
    ンドを収集する最初のアルゴリズム

    View full-size slide

  17. DreamerV3
    学習するプロセス、モデルはほとんど同じ
    変更点
    ● DreamerV2を様々なドメインに適用するためのテクニックを導入
    世界モデル学習時
    ・Symlog予測
    ・Free-bit
    critic学習時
    ・報酬の離散化
    Actor学習時
    ・収益の正規化
    ● モデルの大規模化

    View full-size slide

  18. 様々なドメインに適用するためのテクニック1
    世界モデル学習時
    Symlog予測
    報酬や状態価値はドメインごとにスケールが異
    なる
    ⇒ハイパーパラメータを調整する必要がある
    損失を計算する際に、以下の関数で変換した値
    を予測するようにする
    ⇒大きな報酬を切り捨てたりする必要がない
    大きな正負の値を圧縮している

    View full-size slide

  19. 様々なドメインに適用するためのテクニック2
    世界モデル学習時
    従来の世界モデルでは、環境の視覚的な複雑さに応じて、表現損失(representation
    loss)をスケーリングする必要がある。
    ジレンマ
    複雑な3D環境では、不要な情報が含まれているため、単純化したい
    2Dでは、細かいディテールが重要であるため、表現を単純化させたくない
    Free-bit
    潜在変数が獲得する情報量の最小値について、制約を設ける
    KLダイバージェンスのそれぞれの項について、1以上であれば1を返すようにクリッ
    ピングする

    View full-size slide

  20. 様々なドメインに適用するためのテクニック3
    Criticの学習時
    報酬を離散化
    従来は、評価器(Critic)ばらつきが大きい収益の期待値を予測しなければいけなか
    った⇒学習が遅い
    アプローチ
    連続値をtwo-hotベクトルを用いて、離散化
    回帰問題ではなく、分類問題に変換

    View full-size slide

  21. 様々なドメインに適用するためのテクニック3
    ● Ex)バケットB=[-2, -1, 0, 1, 2]で報酬がX=1.3とする。
    𝐾 = ෍
    𝑗=1
    𝐵
    𝛿 𝑏𝑗
    < 𝑥 = 1 + 1 + 1 + 1 + 0 = 4
    Τ
    𝑏𝑘+1
    − 𝑥 𝑏𝑘+1
    − 𝑏𝑘
    = Τ
    2 − 1.3 2 − 1 = 0.7
    Τ
    𝑏𝑘
    − 𝑥 𝑏𝑘+1
    − 𝑏𝑘
    = Τ
    1 − 1.3 2 − 1 = 0.3
    𝑡𝑤𝑜ℎ𝑜𝑡 𝑥 = [0, 0, 0,0.7, 0.3]に変換
    ⇒softターゲットの分類問題に!

    View full-size slide

  22. 様々なドメインに適用するためのテクニック4
    Actorの学習時
    十分探索しながら、収益を最大化するように行動を選択するように学習
    環境中の報酬の規模と頻度に大きく依存
    単純に分散で正規化すると報酬がスパース時、0に近い報酬(ノイズ)を過大評価され
    てしまう
    大きな報酬をスケールダウンし、小さな報酬をスケールダウンさせない方法を提案
    𝜆収益の正規化
    ● 収益を5~95%分位数Sの幅で正規化する
    𝑆 = 𝑃𝑒𝑟 𝑅𝑡
    𝜆, 95 − 𝑃𝑒𝑟 𝑅𝑡
    𝜆, 5

    View full-size slide

  23. Results
    ● DreamerV3の汎用性を評価するために、150以上のタスクからなる多様なド
    メインに渡って評価
    ● 8M~200Mのパラメータまでの5つのモデルサイズを訓練し、スケーリングを
    評価
    ● Mincraftにおけるダイヤモンドの収集に挑戦
    多様なドメイン
    連続アクション⇔離散アクション 高次元(視覚)入力⇔低次元入力
    疎な報酬⇔密な報酬 スケールが大きい報酬⇔スケールが小さい報酬
    2D世界⇔3D世界

    View full-size slide

  24. Results
    多様なドメイン領域において、同じハイパーパラメータを用いて、モデルフリ
    ーおよびモデルベースのアルゴリズムを凌駕する

    View full-size slide

  25. Results
    モデルサイズを大きくすると
    性能とデータ効率の両方向上
    する
    *縦軸:精度、横軸:モデルのパラメータ数

    View full-size slide

  26. Results
    Maincraft ダイヤモンド収集タスク
    従来は、
    expert dataの模倣学習とハイパーパラメータの調整
    今回は、
    固定のパラメータ,expertdataなし
    40個のシードの環境で100Mステップで学習
    環境の設定
    MineRLと同様に12のマイルストーン(木材、鉄のピッケル、ダイヤモンドを獲得)に報酬を
    与えるような疎な報酬構造で検証
    各アイテムの報酬は1エピソードにつき1回
    *失われたハートには-0.01 回復したハートには+0.01の小さな報酬をあたえる
    エピソード終了はプレイヤー死亡もしくは36000ステップで終了

    View full-size slide

  27. Results
    結果
    ・40シードの環境で24回は一つの
    ダイヤモンドを獲得
    ・ダイヤモンドを獲得したシード
    環境での、最初にダイヤを見つけ
    るまでのステップの中央値は、
    74Mプレイ時間42日

    View full-size slide

  28. Results
    世界モデルが5frame入力され、45frameを予測した結果

    View full-size slide

  29. Abulation Study
    KLバランシング
    部分的に学習を加速させる
    Free-bit
    単純な環境でのoverfittingを避ける
    *targrtKLはより複雑な方法 今回用い
    ていない

    View full-size slide

  30. Abulation Study
    離散分類問題への帰着の優位性
    Cont regression vs DreamerV3
    Montezuma, PinPad Fiveなどで効果がある
    別の手法 DreamerV3の方が優位
    Slow target
    Reward norm
    Sqrt transform

    View full-size slide

  31. Abulation Study
    𝝀収益の正規化の優位性
    Dreamer vs Advantage std
    Return std
    PinPad FiveやCartPole Swing
    Sparseにおいて優れている

    View full-size slide

  32. Conclusion
    ● 固定パラメータで幅広いドメインで学習できるDreamerV3を提案
    ● 7つのベンチマークでSOTA
    ● スケーリングによって、精度およびデータ効率が向上することを示し

    ● パラメータ固定、expert dataを用いずに、100Mstepでの学習で
    Minecraftのダイヤ収集をすることに初めて成功
    ● 本研究では、別々のエージェントを訓練しているが、ワールドモデル
    はタスク間で移行できる可能性がある。今後、モデルを大規模化する
    ことで複数のタスクを解決するエージョンを訓練できる方向性を示し

    View full-size slide

  33. Appendix RNNとSSMとRSSMの違い
    ● □→□は決定論的な遷移 〇→〇確率的な遷移
    ℎ𝑡
    = 𝑓 ℎ𝑡−1
    , 𝑎𝑡−1
    𝑜𝑡
    ~𝑝(𝑜𝑡
    |, 𝑠𝑡
    )
    𝑟𝑡
    ~𝑝 𝑟𝑡
    𝑠𝑡
    複数の未来をとらえるのが難
    しい
    𝑠𝑡
    ~𝑝 𝑠𝑡
    |𝑠𝑡−1
    , 𝑎𝑡−1
    𝑜𝑡
    ~𝑝(𝑜𝑡
    |, 𝑠𝑡
    )
    𝑟𝑡
    ~𝑝 𝑟𝑡
    𝑠𝑡
    複数の時間ステップに渡って情
    報を記憶することが難しくなる
    ℎ𝑡
    = 𝑓(ℎ𝑡−1
    , 𝑎𝑡−1
    , 𝑠𝑡−1
    )
    𝑠𝑡
    ~𝑝 𝑠𝑡
    |ℎ𝑡
    𝑜𝑡
    ′~𝑝(𝑜𝑡
    |ℎ𝑡
    , 𝑠𝑡
    )
    𝑟𝑡
    ′~𝑝 𝑟𝑡
    ℎ𝑡
    , 𝑠𝑡

    View full-size slide

  34. Appendix Model size

    View full-size slide

  35. Appendix DreamerV2
    ● 潜分布に在変数の分布をカテゴリカルに変更(多様な表現が可能)
    潜在変数分布に単峰正規分布という強い仮定を置くのではなく、
    より自在な分布を表現できるカテゴリ分布を用いることで系の
    確率的な遷移をより表現しやすくなる

    View full-size slide

  36. KL Balancing
    ● 世界モデルのLossにおいて、KL項はencoderと遷移モデルのを近づける正則
    化の役割をする

    View full-size slide