Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文サーベイ] Survey on World Models and Reinforcement Learning

tt1717
October 25, 2023

[論文サーベイ] Survey on World Models and Reinforcement Learning

PDFファイルをダウンロードすると,スライド内のリンクを見ることができます.
1.Learning Latent Dynamics for Planning from Pixels,
Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha (Google) [arXiv’18]
2.Mastering Atari with Discrete World Models,
Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba (Google) [ICLR’21]
3.DayDreamer: World Models for Physical Robot Learning,
Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel (University of California, Berkeley) [CoRL’22]

tt1717

October 25, 2023
Tweet

More Decks by tt1717

Other Decks in Research

Transcript

  1. Survey on World Models and Reinforcement Learning Learning Latent Dynamics

    for Planning from Pixels, Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha (Google) [arXiv’18] Dream to Control: Learning Behaviors by Latent Imagination, Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba (Google) [ICLR’20] DayDreamer: World Models for Physical Robot Learning, Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel (University of California, Berkeley) [CoRL’22] Mastering Diverse Domains through World Models, Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap (DeepMind) [arXiv’23] Mastering Atari with Discrete World Models, Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba (Google) [ICLR’21] 1/27
  2. 背景と基礎知識 (1/3) ❏ モデルフリーとモデルベース ❏ 環境モデルの有無で,強化学習手法は以下の二つに分類 ❏ モデルフリー強化学習 ❏ 環境モデルを持たず.環境から得たサンプルを使って方策を学習

    ❏ ex)Q学習,SARSA,DQN,DDPG,R2D2など ❏ モデルベース強化学習 ❏ 環境から得た経験で環境モデル自体を学習して方策改善に利用 ❏ ex)AlphaGo,AlphaZero,Dyna,PILCO,MPC,R-maxなど モデルフリー強化学習 モデルベース強化学習 3/27
  3. 背景と基礎知識 (2/3) ❏ 世界モデル(World model)[NIPS’18] ❏ 外界からの刺激を元に,世界の構造を学習したモデル. ❏ 世界の大きさは膨大であり,得られる情報も膨大. ❏

    脳内では,外界からの情報を空間的(VAE)・時間的(RNN)な表現に圧縮する. ❏ 世界モデルによる予測 ❏ バットを振ってボールに当てる ❏ ボールが飛んでくる視覚情報が脳に到達する時間は,バットの振り方を決め る時間よりも短い. ❏ 世界モデルによって無意識に予測を行い.それにしたがって筋肉を動かす ❏ 錯視 ❏ 世界モデルの「予測」に基づき錯視が見える. 4/27
  4. 背景と基礎知識 (3/3) ❏ 世界モデルにおける課題 ❏ 世界は膨大なので,すべてをモデル化することは困難. ❏ 「世界に対して何をしたらどうなるのか」を予測するモデルを学習 ❏ 世界モデルと強化学習

    ❏ 未知の環境を学習する世界モデルを利用して方策を最適化する(モデ ルベース強化学習) ❏ 世界モデルを用いると,高いサンプル効率やタスク転移が可能 ❏ 世界モデル+強化学習で考えること ❏ 強化学習のためにどのように世界モデルを設計・学習するか? ❏ 世界モデルを用いてどのように方策を学習するか? ❏ 実際には,この2つは独立ではない. ❏ エージェントのタスク次第で最適な世界モデルは変わる 5/27
  5. Deep Planning Network(PlaNet) ❏ 潜在空間上でのプランニング ❏ 状態表現(ダイナミクス)のモデル学習のためのデータ収集を潜在空間上でのプランニングを 用いてオンライン学習で行った. ❏ 約50倍のサンプル効率でモデルフリーの手法であるA3Cを圧倒し,D4PGとほぼ同等のスコ

    アを達成 ❏ 再帰的な状態空間モデル ❏ 状態表現の不確実性を考慮しつつ,長い系列情報を失うことなく良い表現を獲得するための モデルを提案 ❏ 複数ステップ先の予測モデル ❏ 通常のダイナミクスは1ステップ先の予測のみを考慮するが,任意ステップ先の予測 (overshooting)を考慮した状態表現学習を行う. ❏ ダイナミクスモデルの学習とデータ収集を交互に行う. ❏ プランニングの学習にはCross Entropy Method(CEM)を使用 6/27
  6. 再帰的な状態空間モデル ❏ プランニングのための良い状態表現の要素として以下の2つを主張 ❏ 不確実性を考慮している ❏ 完全観測でない限り,エージェントの状態は常に不確実性を含む. ❏ 決定論的なモデルでは不十分 ❏

    長期の系列情報を保持している ❏ 状態表現は過去の観測系列をなるべくうまく圧縮した表現であってほしい ❏ これらを包括したRecurrent state-space model(RSSM)を提案 7/27
  7. 再帰的な状態空間モデル ❏ 丸:確率変数,四角:決定的変数,実線:生成,破線:推論 ❏ Deterministic model:確定的RNNによって過去の情報を考慮するモデル ❏ 確定的なのでモデルの予測ミスがプランニングに大きく影響 ❏ Stochastic

    model:確率的潜在変数がマルコフ性を満たすとして1ステップ分で遷移を考えるモデル ❏ 複数のタイムステップに渡って,情報を保持することが難しい. ❏ Recurrent state-space model:上記二つを組み合わせた手法 8/27
  8. まとめ ❏ Deep Planning Network(PlaNet)の提案 ❏ 画像から環境モデルを学習 ❏ 決定的および確率的遷移要素の両方を組み合わせる ❏

    潜在空間の中でマルチステップ学習を実行 ❏ 潜在空間でのプランニングを行うことで高い性能を実現 13/27
  9. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 従来:世界モデルを用いたモデルベース強化学習において,モデル フリー強化学習と比較するとパフォーマンスがよくなかった. 特に,Atariのようなノイズの大きい環境を苦手としていた. 本研究:Atari環境でトップにあったモデルフリー強化学習Rainbow を超えるパフォーマンスを示した. Atariベンチマークである55のタスクで4つの強力なモデルフリーア

    ルゴリズムと比較し,パフォーマンスが優れていることを示した. 改良1:VAEの潜在変数分布に正規分布でなく OneHotCategoricalDistributionを仮定 (カテゴリカル分布). 改良2:KLバランシング Dreamerの改良版としてDreamerv2を提案 画像入力から学習した世界モデルのみで学習. Dreamerv2はworld modelでモデルを構築し,Actor Criticをベース に行動を行うアルゴリズム. Atariにおいてモデルフリーを大幅に上回る結果を出した.       Mastering Atari with Discrete World Models (ICLR 2021)Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba https://arxiv.org/pdf/2010.02193.pdf 2023/04/18 論文を表す画像 被引用数:284 14/27
  10. Dreamerv2の学習 ❏ 確率分布 ❏ Image predictor:ガウス分布 ❏ Discount predictor:ベルヌーイ分布 ❏

    Representation model:カテゴリカル分布 ❏ Transition predictor:カテゴリカル分布 ❏ Representation modelおよびTransition predictorから出力されるzt,ztハットは,32個 の隠れ変数に対し,32個のカテゴリーがある. ❏ 潜在変数にガウス分布を仮定するなら多少粗くても自由な分布を表現できるカテゴリカル分 布のほうがよい. 17/27
  11. KLバランシング ❏ representation modelが事後状態の近似,transition predictorが時間的な事前状態である. ❏ ELBOではKL lossが2つの役割を果たす. ❏ representationに対する事前状態の学習

    ❏ 事前状態に対するrepresentationの正則化 ❏ transitionの学習は簡単ではないため,学習が不十分なときは事前状態に対して正則化してほしくない ❏ 事前状態に対する学習率をα=0.8,事後状態の近似に対する学習率を1-αにする. ❏ これにより正確な事前状態の学習を促す 19/27
  12. 実験 ❏ 4つの強力なモデルフリーアルゴリズムと比較 ❏ IQN,Rainbow,C51,DQN ❏ Atariの55タスクで評価 ❏ 1GPU,1環境,環境とのインタラクションは200Mまでの制限 ❏

    1episodeあたり108,000stepの制限 ❏ モデルフリーアルゴリズムが200Mの中,Dreamerv2は468Bもコンパクトな状態から学習(1万倍) 21/27
  13. 評価手法の提案 ❏ Gamer Median ❏ ランダムポリシーとプロゲーマーで正規化されて,複数シードで平均を取り,すべてのタスクの 中央値. ❏ しかし,半分のゲームスコアが0でも値が変化しないためロバストではない. ❏

    Gamer Mean ❏ すべてのタスクを考慮しているが,ゲーマーが苦手(RLが得意)なゲームで高い正規化されたスコ アが出せるので,平均で人間超えは容易 ❏ Record Mean ❏ プロゲーマーではなく人間の世界記録で正規化すると改善するが,RLが得意なゲームが支配的に なっている. ❏ Chipped Record Mean ❏ 人間の世界記録でクリップすることで,1を超えないようにする. 22/27
  14. 各要素の検証(Ablation Study) ❏ カテゴリカル変数(v2)vsガウス変数(v1) ❏ カテゴリカルが42ゲームで勝利,8負け,5引き分け ❏ なぜなのかはハッキリわかっていない ❏ KLバランシングなし

    ❏ 44ゲームで勝利,6負け,5引き分け ❏ Dreamerv2の事前状態を先に正確に学習することは大切 ❏ 世界モデル以外の確率モデルにも有効だと考えられる ❏ Image gradient stop ❏ 3勝利,51負け,1引き分け ❏ reward gradient stop ❏ 15勝利,22負け,18引き分け ❏ reinforce gradient stop ❏ 18勝利,24負け,13引き分け 24/27
  15. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? ・世界モデルの成果はAtariなどのゲームタスクに限られていたが, 本研究で実ロボットを用いたタスクをDreamerで直接学習した. ・モデルベースRLを用いて低時間(〜10h)で実機のみでの学習が可能 ・4種類のタスク環境で一貫したハイパーパラメータを使用 4種類のタスク環境で性能評価 主要なモデルフリーRLアルゴリズムと比較実験を行い,Dreamerの

    有効性を示した. ・DreamerV2 過去の環境とのインタラクションの経験データから世界モデルを学 習し,actor critic algorithmを用いて,学習された世界モデルから 予測された軌道を元に行動を学習する. 世界モデルを用いることで効率的に学習でき新しいタスクや外乱に 対しても対応できる. Dreamerが実世界の4つのタスクにおいて学習できることを示した. 4足歩行ロボットが1時間程度で仰向け状態から立ち上がり,前進す る事を可能にした. https://www.youtube.com/watch?v=A6Rg0qRwTYs DayDreamer: World Models for Physical Robot Learning (CoRL 2022)Philipp Wu* Alejandro Escontrela* Danijar Hafner* Ken Goldberg Pieter Abbeel https://arxiv.org/pdf/2206.14176.pdf 2023/02/18 論文を表す画像 被引用数:11 26/27