[論文サーベイ] Survey on World Models and Reinforcement Learning

Slide 1

Slide 1 text

Survey on World Models and Reinforcement Learning Learning Latent Dynamics for Planning from Pixels, Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha (Google) [arXiv’18] Dream to Control: Learning Behaviors by Latent Imagination, Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba (Google) [ICLR’20] DayDreamer: World Models for Physical Robot Learning, Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel (University of California, Berkeley) [CoRL’22] Mastering Diverse Domains through World Models, Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap (DeepMind) [arXiv’23] Mastering Atari with Discrete World Models, Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba (Google) [ICLR’21] 1/27

Slide 2

Slide 2 text

研究発展の流れ Dreamer Dreamer v2 PlaNet DayDreamer Dreamer v3 2/27

Slide 3

Slide 3 text

背景と基礎知識 (1/3) ❏ モデルフリーとモデルベース ❏ 環境モデルの有無で，強化学習手法は以下の二つに分類 ❏ モデルフリー強化学習 ❏ 環境モデルを持たず．環境から得たサンプルを使って方策を学習 ❏ ex)Q学習，SARSA，DQN，DDPG，R2D2など ❏ モデルベース強化学習 ❏ 環境から得た経験で環境モデル自体を学習して方策改善に利用 ❏ ex)AlphaGo，AlphaZero,Dyna,PILCO,MPC,R-maxなどモデルフリー強化学習モデルベース強化学習 3/27

Slide 4

Slide 4 text

背景と基礎知識 (2/3) ❏ 世界モデル(World model)[NIPS’18] ❏ 外界からの刺激を元に，世界の構造を学習したモデル． ❏ 世界の大きさは膨大であり，得られる情報も膨大． ❏ 脳内では，外界からの情報を空間的(VAE)・時間的(RNN)な表現に圧縮する． ❏ 世界モデルによる予測 ❏ バットを振ってボールに当てる ❏ ボールが飛んでくる視覚情報が脳に到達する時間は，バットの振り方を決める時間よりも短い． ❏ 世界モデルによって無意識に予測を行い．それにしたがって筋肉を動かす ❏ 錯視 ❏ 世界モデルの「予測」に基づき錯視が見える． 4/27

Slide 5

Slide 5 text

背景と基礎知識 (3/3) ❏ 世界モデルにおける課題 ❏ 世界は膨大なので，すべてをモデル化することは困難． ❏ 「世界に対して何をしたらどうなるのか」を予測するモデルを学習 ❏ 世界モデルと強化学習 ❏ 未知の環境を学習する世界モデルを利用して方策を最適化する(モデルベース強化学習) ❏ 世界モデルを用いると，高いサンプル効率やタスク転移が可能 ❏ 世界モデル+強化学習で考えること ❏ 強化学習のためにどのように世界モデルを設計・学習するか？ ❏ 世界モデルを用いてどのように方策を学習するか？ ❏ 実際には，この2つは独立ではない． ❏ エージェントのタスク次第で最適な世界モデルは変わる 5/27

Slide 6

Slide 6 text

Deep Planning Network(PlaNet) ❏ 潜在空間上でのプランニング ❏ 状態表現(ダイナミクス)のモデル学習のためのデータ収集を潜在空間上でのプランニングを用いてオンライン学習で行った． ❏ 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し，D4PGとほぼ同等のスコアを達成 ❏ 再帰的な状態空間モデル ❏ 状態表現の不確実性を考慮しつつ，長い系列情報を失うことなく良い表現を獲得するためのモデルを提案 ❏ 複数ステップ先の予測モデル ❏ 通常のダイナミクスは1ステップ先の予測のみを考慮するが，任意ステップ先の予測 (overshooting)を考慮した状態表現学習を行う． ❏ ダイナミクスモデルの学習とデータ収集を交互に行う． ❏ プランニングの学習にはCross Entropy Method(CEM)を使用 6/27

Slide 7

Slide 7 text

再帰的な状態空間モデル ❏ プランニングのための良い状態表現の要素として以下の2つを主張 ❏ 不確実性を考慮している ❏ 完全観測でない限り，エージェントの状態は常に不確実性を含む． ❏ 決定論的なモデルでは不十分 ❏ 長期の系列情報を保持している ❏ 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい ❏ これらを包括したRecurrent state-space model(RSSM)を提案 7/27

Slide 8

Slide 8 text

再帰的な状態空間モデル ❏ 丸：確率変数，四角：決定的変数，実線：生成，破線：推論 ❏ Deterministic model:確定的RNNによって過去の情報を考慮するモデル ❏ 確定的なのでモデルの予測ミスがプランニングに大きく影響 ❏ Stochastic model:確率的潜在変数がマルコフ性を満たすとして1ステップ分で遷移を考えるモデル ❏ 複数のタイムステップに渡って，情報を保持することが難しい． ❏ Recurrent state-space model:上記二つを組み合わせた手法 8/27

Slide 9

Slide 9 text

Overshooting ❏ 世界モデルは完全ではないので，長期の予測が失敗する可能性がある． ❏ 遷移モデルで数ステップ前から予測した状態を用いて学習する(latent overshooting) ❏ 数ステップ前からの状態予測と，1ステップ前からの状態(とこれまでの観測)からの推論が同じになるように制約をかける． 9/27

Slide 10

Slide 10 text

実験 ❏ DeepMind control suiteの4つのタスクで実験 ❏ 結果はモデル間(RNN,SSM,RSSM)の比較と，overshootingの有無での比較を行っている． ❏ 2つのモデルフリーの手法(A3C,D4PG)との比較も行っている． 10/27

Slide 11

Slide 11 text

実験結果 ❏ PlaNetによる予測(最初の5ステップから50ステップ予測) ❏ 下が予測結果 ❏ 高いサンプル効率で，モデルフリーのA3Cよりもよく，D4PGと同等の性能． 11/27

Slide 12

Slide 12 text

実験結果 ❏ Overshootingの有無 ❏ すべてのタスクにおいてOvershootingの差はあまりみられない． 12/27

Slide 13

Slide 13 text

まとめ ❏ Deep Planning Network(PlaNet)の提案 ❏ 画像から環境モデルを学習 ❏ 決定的および確率的遷移要素の両方を組み合わせる ❏ 潜在空間の中でマルチステップ学習を実行 ❏ 潜在空間でのプランニングを行うことで高い性能を実現 13/27

Slide 14

Slide 14 text

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？従来：世界モデルを用いたモデルベース強化学習において，モデルフリー強化学習と比較するとパフォーマンスがよくなかった．特に，Atariのようなノイズの大きい環境を苦手としていた．本研究：Atari環境でトップにあったモデルフリー強化学習Rainbow を超えるパフォーマンスを示した． Atariベンチマークである55のタスクで4つの強力なモデルフリーアルゴリズムと比較し，パフォーマンスが優れていることを示した．改良1:VAEの潜在変数分布に正規分布でなく OneHotCategoricalDistributionを仮定（カテゴリカル分布）．改良2:KLバランシング Dreamerの改良版としてDreamerv2を提案画像入力から学習した世界モデルのみで学習． Dreamerv2はworld modelでモデルを構築し,Actor Criticをベースに行動を行うアルゴリズム． Atariにおいてモデルフリーを大幅に上回る結果を出した．　　　　　 Mastering Atari with Discrete World Models （ICLR 2021）Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba https://arxiv.org/pdf/2010.02193.pdf 2023/04/18 論文を表す画像被引用数：284 14/27

Slide 15

Slide 15 text

Dreamerv2のコンポーネント ❏ エンコーダが各画像を確率的な表現に変換 ❏ それを世界モデルの再帰的な状態に組み込む ❏ 表現が確率的なため，必要な情報のみを抽出するようになり，未知画像に対してロバスト ❏ World modelは，過去の経験から得られるTステップまでの列 ❏ 画像の列：xt,行動の列：at,報酬の列：rt,割引率：γtから学習される 15/27

Slide 16

Slide 16 text

コンポーネント詳細 ❏ Image encoder,RSSM,3つのpredictor(Image,Reward,Discount)からなる． ❏ Representation modelのxtは，Image encoderから出力された潜在変数 ❏ xtハットは，decoderによって復元された予測画像 ❏ rtハットは．予測された報酬 ❏ γtハットは，予測された割引率 ❏ ztは事後状態を表し，ztハットは事前状態を表す 16/27

Slide 17

Slide 17 text

Dreamerv2の学習 ❏ 確率分布 ❏ Image predictor:ガウス分布 ❏ Discount predictor:ベルヌーイ分布 ❏ Representation model:カテゴリカル分布 ❏ Transition predictor:カテゴリカル分布 ❏ Representation modelおよびTransition predictorから出力されるzt，ztハットは，32個の隠れ変数に対し，32個のカテゴリーがある． ❏ 潜在変数にガウス分布を仮定するなら多少粗くても自由な分布を表現できるカテゴリカル分布のほうがよい． 17/27

Slide 18

Slide 18 text

Dreamerv2の学習 ❏ Dreamerではガウス分布を使用していたが，Dreamerv2ではカテゴリカル分布を使用している． ❏ カテゴリカル分布を用いるため，straight-through gradient[Bengio+ 13]を使用して学習 ❏ 誤差関数 ❏ すべてのコンポーネントは同時に最適化される． 18/27

Slide 19

Slide 19 text

KLバランシング ❏ representation modelが事後状態の近似，transition predictorが時間的な事前状態である． ❏ ELBOではKL lossが2つの役割を果たす． ❏ representationに対する事前状態の学習 ❏ 事前状態に対するrepresentationの正則化 ❏ transitionの学習は簡単ではないため，学習が不十分なときは事前状態に対して正則化してほしくない ❏ 事前状態に対する学習率をα=0.8,事後状態の近似に対する学習率を1-αにする． ❏ これにより正確な事前状態の学習を促す 19/27

Slide 20

Slide 20 text

方策の学習(Actor-Critic) ❏ Imagination MDP ❏ Dreamerv2の潜在空間の行動を学習するために，imagination MDPを次のように定義 ❏ 初期分布はDreamerv2の学習中に出会ったものを使う． ❏ transition,reward,discountは系列で出力． ❏ Actor-Criticの学習はrepresentationのパラメータ固定 20/27

Slide 21

Slide 21 text

実験 ❏ 4つの強力なモデルフリーアルゴリズムと比較 ❏ IQN,Rainbow,C51,DQN ❏ Atariの55タスクで評価 ❏ 1GPU,1環境，環境とのインタラクションは200Mまでの制限 ❏ 1episodeあたり108,000stepの制限 ❏ モデルフリーアルゴリズムが200Mの中，Dreamerv2は468Bもコンパクトな状態から学習(1万倍) 21/27

Slide 22

Slide 22 text

評価手法の提案 ❏ Gamer Median ❏ ランダムポリシーとプロゲーマーで正規化されて，複数シードで平均を取り，すべてのタスクの中央値． ❏ しかし，半分のゲームスコアが0でも値が変化しないためロバストではない． ❏ Gamer Mean ❏ すべてのタスクを考慮しているが，ゲーマーが苦手(RLが得意)なゲームで高い正規化されたスコアが出せるので，平均で人間超えは容易 ❏ Record Mean ❏ プロゲーマーではなく人間の世界記録で正規化すると改善するが，RLが得意なゲームが支配的になっている． ❏ Chipped Record Mean ❏ 人間の世界記録でクリップすることで，1を超えないようにする． 22/27

Slide 23

Slide 23 text

実験結果 ❏ shedulesはActor lossの係数をアニーリングしたら結果がよくなった． ❏ AtariのタスクのひとつであるVideo pingballでは，Dreamerv2が全敗 ❏ ボールが1pixelしかないため，Dreamerv2で再構成できなかったと考察 ❏ イメージデコーダで画像を復元したとき，どれだけ環境を再現できているか比較． 23/27

Slide 24

Slide 24 text

各要素の検証(Ablation Study) ❏ カテゴリカル変数(v2)vsガウス変数(v1) ❏ カテゴリカルが42ゲームで勝利，8負け，5引き分け ❏ なぜなのかはハッキリわかっていない ❏ KLバランシングなし ❏ 44ゲームで勝利，6負け，5引き分け ❏ Dreamerv2の事前状態を先に正確に学習することは大切 ❏ 世界モデル以外の確率モデルにも有効だと考えられる ❏ Image gradient stop ❏ 3勝利，51負け，1引き分け ❏ reward gradient stop ❏ 15勝利，22負け，18引き分け ❏ reinforce gradient stop ❏ 18勝利，24負け，13引き分け 24/27

Slide 25

Slide 25 text

まとめ ❏ 潜在変数をガウス分布ではなく，カテゴリカル分布を使用することで，性能向上 ❏ KLバランシングを提案 ❏ Atariのベンチマーク方法を提案 25/27

Slide 26

Slide 26 text

どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・世界モデルの成果はAtariなどのゲームタスクに限られていたが，本研究で実ロボットを用いたタスクをDreamerで直接学習した．・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価主要なモデルフリーRLアルゴリズムと比較実験を行い，Dreamerの有効性を示した．・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学習し，actor critic algorithmを用いて，学習された世界モデルから予測された軌道を元に行動を学習する．世界モデルを用いることで効率的に学習でき新しいタスクや外乱に対しても対応できる． Dreamerが実世界の4つのタスクにおいて学習できることを示した． 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり，前進する事を可能にした． https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning （CoRL 2022）Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像被引用数：11 26/27

Slide 27

Slide 27 text

DayDreamer ❏ Dreamerv2の実ロボットへの応用 ❏ ロボットが環境と相互作用して収集したデータから世界モデルを学習 ❏ ロボットは方策を世界モデル上のみで学習する． ❏ 世界モデルを用いることで，効率的に学習でき，新しいタスクや摂動(棒でつつくなど)に対しても対応できる． 27/27