深層強化学習の最前線

 深層強化学習の最前線

055758d599e50c0f39ea490936382d73?s=128

じんべえざめ

December 19, 2018
Tweet

Transcript

  1. 2.

    自己紹介 1 ⚫ 公立はこだて未来大学院システム情報科学研究科 三上研究室 M1 髙橋将文 ⚫ 研究分野: 人工生命

    ・動機の創発,形態と制御の共進化 ⚫ 趣味 ・深層強化学習,水族館・抹茶めぐり ⚫ 好きなDLライブラリ ・PyTorch @jinbeizame007
  2. 3.
  3. 7.

    ここまでの用語まとめ 5 ⚫ 状態 (State) - エージェントが環境から得た情報 ⚫ 行動 (Action)

    - エージェントが環境でとる行動 ⚫ 報酬 (Reward) - エージェントが環境で得た利益 ⚫ 方策 (Policy) - 状態から行動を返す関数 ⚫ 強化学習 (Reinforcement Learning) - エージェントが得られる報酬の和を最大化する方策を獲得することが目的
  4. 11.

    軌道(Trajectory) とは 9 ⚫ 試行錯誤で得た状態, 行動, 報酬のシーケンス - = {0

    , 0 , 1 , 1 , 1 , 2 , 2 , 2 , … } ⚫ 次状態と報酬は、決定論的または確率論的に決まる - +1 , +1 = , , +1 , +1 ~ (∙ | , ) 状態0 状態1 状態2 状態3 ・・・ 報酬1 報酬2 報酬3 行動0 行動1 行動2 行動3
  5. 12.

    軌道(Trajectory) とは 10 ⚫ 試行錯誤で得た状態, 行動, 報酬のシーケンス - = {0

    , 0 , 1 , 1 , 1 , 2 , 2 , 2 , … } ⚫ 次状態と報酬は、決定論的または確率論的に決まる - +1 , +1 = , , +1 , +1 ~ (∙ | , ) 0 ・・・ 1 2 3 1 2 3 0 1 2 3
  6. 13.

    収益(Return) とは 11 ⚫ 今後の軌道上で得られる報酬の割引和 - 軌道に終わりが無い場合、割引せずに和を求めると無限に発散してしまう… - 割引率(0.99, 0.95,

    etc.) を使って遠い未来の報酬ほど値を小さくする ⚫ = σ= ∞ + ・・・ +1 +2 +3 γ+1 γ2+2 γ3+3 +1 +2 +3 + + + ・・・ 収益 +
  7. 14.

    価値関数(Value Function) とは 12 ⚫ 状態価値関数(Value Function) - 状態に対する収益の期待値 -

    = + = σ = ∞ ++ ⚫ 行動価値関数(Action-Value Function, Q Function) - 状態と行動の対に対する収益の期待値 - , = + = [σ = ∞ ++ ] -1 +1 -1
  8. 16.

    価値ベースと方策ベース 14 ⚫ 価値ベース (Value-Based methods) - 行動価値関数を用いて、間接的に方策を表現 = ′

    , ′ - 一般的に学習速度は速いが、行動空間が連続だと扱うことが出来ない ⚫ 方策ベース (Policy-Based methods) - 方策を直接最適化 ~ | - 一般的に学習速度は遅いが、行動空間が連続でも扱うことが出来る
  9. 17.

    Q学習 15 ⚫ 価値ベースの手法の1つ ⚫ ベルマン最適方程式を用いて行動価値関数を最適化 - , ← ,

    + , − + + × ′ + , ′ ・・・ + + + + + + , + 予測値 疑似的 な正解 + × ′ + , +
  10. 18.

    方策勾配法 16 ⚫ 方策ベースの手法の1つ ⚫ 収益の期待値 = ~ を最大化するように方策を更新する ⚫

    選択した行動が良かった場合には選択確率を上げ、悪かった場合は下げる 選択した行動が 良かった 選択した行動が 悪かった = .
  11. 19.

    方策勾配法 17 ⚫ 方策ベースの手法の1つ ⚫ 期待収益 ()を最大化するように方策を更新する = ~ ≈

    ~ , ← + 収益の期待値 期待収益を最大化する ように方策を更新 期待収益の勾配 行動 の選択確率 行動 を選択する際の 収益の予測値
  12. 21.
  13. 22.

    汎化とは 19 ⚫ 本講演での汎化の定義 - 「様々な異なる対象に共通する性質や、 共通して適用できる法則などを見出すこと。」 ⚫ 強化学習における汎化 -

    状態表現の汎化 - 行動・方策の汎化 - 報酬の汎化 - 環境の汎化 - etc. ⚫ このような汎化を追求することでより汎用的なAIの実現が可能に...?
  14. 24.

    状態表現の汎化とは 20 ⚫ エージェントが観測した情報に事前知識を加えることで、 環境内で共通する性質や法則を考慮した状態表現を可能にすること - 状態表現 ← エージェントの観測情報 +

    事前知識 ⚫ 事前知識 - 未観測部分の予測情報 (地図など) - 環境のダイナミクス (物理法則など) - etc. エージェントが 観測した情報 事前知識
  15. 25.

    状態表現の汎化: 目次 21 ⚫ Neural scene representation and rendering [Eslami+

    2018] - 未観測部分の予測情報を含めた、環境全体を表す状態表現を獲得 ⚫ World Models [Ha+ 2018] - 次状態の潜在変数を予測するモデルを用いることで、 環境のダイナミクスを考慮した状態表現を獲得 - 学習した予測モデルを用いてシミュレーションが可能
  16. 26.

    状態表現の汎化: 目次 22 ⚫ Neural scene representation and rendering [Eslami+

    2018] - 未観測部分の予測情報を含めた、環境全体を表す状態表現を獲得 ⚫ World Models [Ha+ 2018] - 次状態の潜在変数を予測するモデルを用いることで、 環境のダイナミクスを考慮した状態表現を獲得 - 学習した予測モデルを用いてシミュレーションが可能
  17. 27.

    AutoEncoder (AE) 23 ⚫ 入力データの圧縮・復元方法を学習することで、 データの潜在変数の表現を獲得 ⚫ 潜在変数: データの背後にある本質的な情報 -

    例)データ: 人の写真 → 潜在変数: 性別, 年齢, 身長, 服装 • • • • • • • • • • • • z0 z1
  18. 28.

    AutoEncoder (AE) 24 ⚫ 入力データの圧縮・復元方法を学習することで、 データの潜在変数の表現を獲得 - エンコーダー: 圧縮するネットワーク -

    デコーダー: 復元するネットワーク • • • • • • • • • • • • z0 z1 エンコーダー デコーダー
  19. 30.

    Conditional VAE (Kingma ver.) 26 ⚫ VAEの入力に任意の情報を付与することで、条件付けを行ったモデル ⚫ 任意の情報: 圧縮・復元の際の条件となる情報

    - 例)画像を生成する際に、猫という情報(one-hotベクトル)を付与 ⚫ 条件付けを踏まえた圧縮・復元が可能に • • • • • • μ Σ • • • • • • • • • z0 zn 条件付け(猫) → 条件付け(猫) →
  20. 31.

    Conditional VAE (Sohn ver.) 27 ⚫ 条件付けのみから潜在変数を推論するPrior付きのモデル - Priorはエンコーダーを真似るように学習する 条件付け(猫)

    → • • • • • • μ Σ • • • • • • • • • z0 zn 条件付け(猫) → 条件付け(猫) → Prior z0 zn • • • μ Σ • • •
  21. 32.
  22. 35.

    Generative Query Networks (GQN) 31 ⚫ シーン表現と生成したい画像の視点で条件付けしたConditional VAE r 表現

    ネットワーク 生成 ネットワーク z 推論 ネットワーク r r 条件付け
  23. 39.

    状態表現の汎化: 目次 35 ⚫ Neural scene representation and rendering [Eslami+

    2018] - 未観測部分の予測情報を含めた、環境全体を表す状態表現を獲得 ⚫ World Models [Ha+ 2018] - 次状態の潜在変数を予測するモデルを用いることで、 環境の遷移の予測を考慮した状態表現を獲得 - 学習した予測モデルを用いてシミュレーションが可能
  24. 42.

    モデルの概要 38 ⚫ VAE: 状態を復元可能な潜在変数zを学習 ⚫ MDN-RNN: 次状態の潜在変数を予測 ⚫ Controller:

    潜在変数zとMDN-RNNの隠れ状態hから行動を出力 VAE MDN-RNN Controller ht 行動 行動 状態 状態 Zt+1 Zt Zt
  25. 43.

    Mixture Density Network (MDN) 39 ⚫ 混合密度ネットワーク ⚫ 平均, 分散,

    重みを複数出力し、混合ガウス分布を生成する • • • • • • • • • μ Σ w
  26. 44.

    MDN-RNN 40 ⚫ Mixture Density Network + Recurrent Neural Network

    ⚫ 状態の潜在変数 と行動 , 隠れ状態 から、次状態の潜在変数+ を予測 MDN RNN ’ − − MDN RNN + ′ MDN RNN + ′ + − + : RNNの隠れ状態 : 潜在表現 : 行動 + +
  27. 45.

    Controller 41 ⚫ 状態の潜在変数 と隠れ状態 から、行動 を出力 ⚫ Covariance-Matrix Adaptation

    Evolution Strategy(CMA-ES)により最適化 - 平均ベクトルと共分散行列をパラメータに持つ正規分布から 重みをサンプリングし,得られたサンプルを基にパラメータを更新 - パラメータの数が数千以下の場合に上手くいく Controller
  28. 50.

    行動・方策の汎化: 目次 45 ⚫ Meta Learning Shared Hierarchies [Frans+ 2018]

    - タスク依存のマスターポリシーと、各タスクで共有のメタポリシーという 階層構造にすることで、タスクに依存しない汎用的なポリシーを学習 ⚫ Diversity is All You Need [Eysenbach+ 2018] - 状態からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得 ⚫ Variational Option Discovery Algorithms [Achiam+ 2018] - 状態の軌道からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得
  29. 51.

    行動・方策の汎化: 目次 46 ⚫ Meta Learning Shared Hierarchies [Frans+ 2018]

    - タスク依存のマスターポリシーと、各タスクで共有のメタポリシーという 階層構造にすることで、タスクに依存しない汎用的なポリシーを学習 ⚫ Diversity is All You Need [Eysenbach+ 2018] - 状態からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得 ⚫ Variational Option Discovery Algorithms [Achiam+ 2018] - 状態の軌道からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得
  30. 53.
  31. 55.

    各ポリシーの更新 50 ⚫ 各ポリシーの更新の際は、互いの方策, 行動, 報酬は環境の一部とみなす ⚫ 青) 状態, 行動,

    報酬, 方策とみなす 赤) 環境の一部とみなす master-policyの更新時 sub-policyの更新時
  32. 58.

    実験: 転移学習 53 ⚫ 学習環境 - 目標地点は右上 - 左側の赤い円に入ると、押し出される -

    報酬は、目標地点に到達したときのみ1 それ以外は0(非常にスパース) ⚫ 学習方法 - 先ほどのタスクで学習したsub-policyを 固定して用い、master-policyを学習 ⚫ 結果 - PPOでは全く学習が進まなかったが、 MLSHでは学習出来た
  33. 60.

    行動・方策の汎化: 目次 55 ⚫ Meta Learning Shared Hierarchies [Frans+ 2018]

    - タスク依存のマスターポリシーと、各タスクで共有のメタポリシーという 階層構造にすることで、タスクに依存しない汎用的なポリシーを学習 ⚫ Diversity is All You Need [Eysenbach+ 2018] - 状態からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得 ⚫ Variational Option Discovery Algorithms [Achiam+ 2018] - 状態の軌道からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得
  34. 62.

    Diversity is All You Need 57 ⚫ 方策 - 状態とスキルに基づいて行動を選択

    - 識別器がスキルを識別できるように、 多様な状態に遷移するように学習 ⚫ スキル識別器 - 状態からスキルを識別 - 識別率を上げるように学習 方策 ( | , ) 環境 (+ | , ) スキル識別器 (|+ ) スキルの分布 () + (一様分布) 固定 学習
  35. 63.

    Diversity is All You Need 58 ⚫ 方策 - 報酬

    = log(識別率) – log(スキルの確率) - = + − - Soft Actor-Criticを用いて更新 ⚫ スキル識別器 - 目的関数 = 識別率 - + 方策 ( | , ) 環境 (+ | , ) スキル識別器 (|+ ) スキルの分布 () + 固定 学習
  36. 66.

    行動・方策の汎化: 目次 61 ⚫ Meta Learning Shared Hierarchies [Frans+ 2018]

    - タスク依存のマスターポリシーと、各タスクで共有のメタポリシーという 階層構造にすることで、タスクに依存しない汎用的なポリシーを学習 ⚫ Diversity is All You Need [Eysenbach+ 2018] - 状態からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得 ⚫ Variational Option Discovery Algorithms [Achiam+ 2018] - 状態の軌道からスキルを予測した際の識別率を最大化することにより、 多様なスキルを獲得
  37. 68.

    スキル識別器 63 ⚫ 軌道を入力とした 双方向LSTMを用いる - 軌道の始めと終わりの 重要度を同程度とする ⚫ 軌道はk個ずつの

    グループで入力 ・・・ 平均 LSTM LSTM 全結合 LSTM LSTM 全結合 LSTM LSTM 全結合 スキル(確率) ~ ~ ~ 軌道
  38. 69.
  39. 70.
  40. 71.
  41. 77.

    報酬の汎化: 目次 71 ⚫ Large-Scale Study of Curiosity-Driven Learning [Burda+

    2018] - 環境の遷移に基づく内発的報酬のみで学習可能かどうかを検証 ⚫ Random Network Distillation [Burda+ 2018] - ランダム初期化されたネットワークを蒸留する際の誤差を好奇心とする ⚫ その他の内発的報酬まとめ
  42. 78.

    報酬の汎化: 目次 72 ⚫ Large-Scale Study of Curiosity-Driven Learning [Burda+

    2018] - 環境の遷移の予測に基づく内発的報酬のみで学習可能かどうかを検証 ⚫ Random Network Distillation [Burda+ 2018] - ランダム初期化されたネットワークを蒸留する際の誤差を好奇心とする ⚫ その他の内発的報酬まとめ
  43. 81.

    特徴表現 75 ⚫ 適切な特徴表現とは? - Compact: 特徴量が低次元かつ無駄な情報が含まれていない - Sufficient: 特徴量に全ての重要な情報が含まれている

    - Stable: 特徴量が学習の進行とともに変化しない (定常) ⚫ 本論文で取り扱う特徴表現 - 生のピクセル + - VAEのエンコーダー + - ランダムネットワーク ෠ + - Intrinsic Curiosity Module
  44. 82.

    Intrinsic Curiosity Module (ICM) 76 ⚫ 特徴表現には、 と+ から を識別出来るように学習した関数を用いる。

    = + − + , Inverse Model + , + ( ) (+ ) と+ から を識別 出来るようにを学習 + を予測出来る ようにを学習
  45. 83.

    実験の設定 77 ⚫ タスク - 8種類のAtariのゲーム ・Montezuma Revenge, Pong, Breakout,

    Sea Quest, Beam Rider, … - スーパーマリオブラザーズ ⚫ 報酬 - 内発的報酬のみ (各タスクの独自の報酬は用いない) ⚫ 手法 - PPO
  46. 85.
  47. 86.

    報酬の汎化: 目次 80 ⚫ Large-Scale Study of Curiosity-Driven Learning [Burda+

    2018] - 環境の遷移に基づく内発的報酬のみで学習可能かどうかを検証 ⚫ Random Network Distillation [Burda+ 2018] - ランダム初期化されたネットワークを蒸留する際の誤差を好奇心とする ⚫ その他の内発的報酬まとめ
  48. 88.

    予測誤差が生じる原因 82 ⚫ 学習した経験が少ないデータ - 探索報酬として使用できる ⚫ 遷移のランダム性 - Noisy-TV

    Problemの原因 - +1 ~ , ⚫ 予測に必要な情報やモデルの表現力の不足 - 例) のみで+1 を予測する、ユニット数が少なすぎる ⚫ 最適化プロセスが失敗している
  49. 89.

    予測誤差の原因 83 ⚫ 学習した経験が少ないデータ - 探索報酬として使用できる ⚫ 遷移のランダム性 - Noisy-TV

    Problemの原因 - +1 ~ , ⚫ 予測に必要な情報やモデルの表現力の不足 - 例) のみで+1 を予測する、ユニット数が少なすぎる ⚫ 最適化プロセスが失敗している 不必要 必要
  50. 90.

    Random Network Distillation (RND) 84 ⚫ ランダムに初期化されたネットワークとの誤差を探索報酬とする ⚫ : ランダムに初期化して固定

    ⚫ ෠ : を真似るように学習 (蒸留) ランダム ネットワーク 学習する ネットワーク + + (+ ) ෠ (+ ) (+ ) − ෠ (+ ) 探索報酬
  51. 91.

    Random Network Distillation (RND) 85 (+ ) + ෠ (

    ) (+ ) + ෠ (+ ) 遷移の予測に基づく誤差 RND 予測が状態遷移の確率性に 影響を受ける 予測が状態遷移の確率性に 影響を受けない = (+ ) − ෠ ( , ) = (+ ) − ෠ (+ ) ① ② ③ ② ① ③
  52. 92.

    予測誤差の原因 86 ⚫ 学習した経験が少ないデータ - 探索報酬として使用できる ⚫ 目的関数の確率性 - Noisy-TV

    Problemの原因 - +1 ~ , ⚫ 予測に必要な情報やモデルの表現力の不足 - 例) のみで+1 を予測、ユニット数が少ない ⚫ 最適化プロセスが失敗している 必要 目的関数を決定論的にする ことで取り除く 蒸留の際に同じモデルを 使うことで取り除く
  53. 94.

    報酬の汎化: 目次 88 ⚫ Large-Scale Study of Curiosity-Driven Learning [Burda+

    2018] - 環境の遷移に基づく内発的報酬のみで学習可能かどうかを検証 ⚫ Random Network Distillation [Burda+ 2018] - ランダム初期化されたネットワークを蒸留する際の誤差を好奇心とする ⚫ その他の内発的報酬まとめ
  54. 95.

    その他の内発的報酬まとめ 89 ⚫ Deep Curiosity Search: Intra-Life Exploration Can Improve

    Performance on Challenging Deep Reinforcement Learning Problems - ゲーム画面をグリッドで分割し、エピソード内で新しいグリッドに 遷移するたびに報酬を与える ⚫ Episodic Curiosity through Reachability - 2つの状態が互いにkステップ以内で到達できる可能性をNNで学習し、 そのNNの出力×-1を内発的報酬とする ⚫ Curiosity-driven reinforcement learning with homeostatic regulation - 「状態, 行動, 次行動から予測した次状態の誤差×-1」を内発的報酬に追加 - 新規性の高い場所の中でも、特に次に取る行動から 次状態を予測出来るようなよく慣れた場所を優先的に探索
  55. 98.

    環境の汎化: 目次 91 ⚫ Learning Dexterous In-Hand Manipulation [OpenAI+ 2018]

    - 環境に多様なノイズを加え、適応可能な環境の範囲を拡大することで 実世界での高次元で複雑な制御を可能に ⚫ Emergence of Locomotion Behaviours in Rich Environments [Heess+ 2017] - 複雑で多様な環境を用いることで、単純な報酬から多様で頑健な行動を創発 ⚫ Emergent of Complexity via Multi-Agent Competition [Bansal+ 2018] - シンプルな環境でも、競争的なself-playでの学習によって 複雑で多様な行動を創発
  56. 99.

    環境の汎化: 目次 92 ⚫ Learning Dexterous In-Hand Manipulation [OpenAI+ 2018]

    - 環境に多様なノイズを加え、適応可能な環境の範囲を拡大することで 実世界での高次元で複雑な制御を可能に ⚫ Emergence of Locomotion Behaviours in Rich Environments [Heess+ 2017] - 複雑で多様な環境を用いることで、単純な報酬から多様で頑健な行動を創発 ⚫ Emergent of Complexity via Multi-Agent Competition [Bansal+ 2018] - シンプルな環境でも、マルチエージェントによる競合を起こすことで 複雑で多様な行動を創発
  57. 102.

    Domain Randomization 95 ⚫ 物理パラメータ - 大きさ, 質量, 摩擦係数, 重力,

    アクチュエータに加わる力, … ⚫ 観測誤差 - 指先の位置, オブジェクトの位置, オブジェクトの向き, … ⚫ トラッキング誤差 - モーションキャプチャのマーカーをマスクする ⚫ 制御誤差 & 遅延 - 行動の値に数%の加算・乗算, 一定の確率で行動が遅延する ⚫ 環境ステップの開始のタイミングをランダム化 ⚫ オブジェクトにランダムな強さ・向きの力を加える
  58. 106.

    環境の汎化: 目次 99 ⚫ Learning Dexterous In-Hand Manipulation [OpenAI+ 2018]

    - 環境の物理パラメータにノイズを加えることで実世界の複雑性を表現し、 実世界での高次元な行動の制御を可能に ⚫ Emergence of Locomotion Behaviours in Rich Environments [Heess+ 2017] - 複雑で多様な環境を用いることで、単純な報酬から多様で頑健な行動を創発 ⚫ Emergent of Complexity via Multi-Agent Competition [Bansal+ 2018] - シンプルな環境でも、マルチエージェントによる競合を起こすことで 複雑で多様な行動を創発
  59. 113.

    環境の汎化: 目次 ⚫ Learning Dexterous In-Hand Manipulation [OpenAI+ 2018] -

    環境の物理パラメータにノイズを加えることで実世界の複雑性を表現し、 実世界での高次元な行動の制御を可能に ⚫ Emergence of Locomotion Behaviours in Rich Environments [Heess+ 2017] - 複雑で多様な環境を用いることで、単純な報酬から多様で頑健な行動を創発 ⚫ Emergent of Complexity via Multi-Agent Competition [Bansal+ 2018] - シンプルな環境でも、マルチエージェントによる競合を起こすことで 複雑で多様な行動を創発 106
  60. 115.

    タスク ⚫ Run to Goal - 相手より早く正面のゴールに到達する ⚫ You Shall

    Not Pass - 片方はゴールに到達しようとし、片方は阻止する ⚫ Sumo - 相手をステージの外に出すか、ステージ上に倒す ⚫ Kick and Defend - シューター: ボールをゴールに入れる - キーパー: ボールをゴールに入れない 108
  61. 117.

    カリキュラムの導入 ⚫ 競争のための報酬のみでは、報酬がスパースになってしまう… ⚫ 競争のために必要な基本動作を学ぶためのカリキュラムを導入する ⚫ 基本動作を獲得するための報酬 と、競争のための報酬を用いる - :

    アニーリング係数(時間の経過とともに減少) = + − ⚫ 基本動作のための報酬は、タスクによって変更する - 例)ゴールまでの距離, 移動距離, -1×ボールとゴールの距離, … 110
  62. 121.

    まとめ ⚫ 状態表現の汎化 - エージェントが観測する情報に事前知識を加えることで、 環境内で共通する性質や法則を考慮した状態表現を可能にすること ⚫ 行動・方策の汎化 - 事前知識として環境やタスクに依存しないメタ的な一連の動作(スキル)

    を学習することで、より一般的な動作を獲得すること ⚫ 報酬の汎化 - 環境やタスクに依存しない内発的報酬を用いることで、 外発的報酬での問題を緩和すること ⚫ 環境の汎化 - より複雑で一般的な環境で学習することで、 多様で頑健な方策を獲得すること 113
  63. 122.

    所感 ⚫ 内発的報酬(好奇心) とWorld Modelsを組み合わせることで、 自律的に世界を理解するエージェントを開発出来るのではないか ⚫ 環境の遷移は考慮しつつ、注意機構を応用することで Noisy-TV Problemを克服できないか

    ⚫ 状態・状態の軌道の多様性の最大化を行うだけでは、 行動空間が高次元の場合に多くのスキルが有用ではないものになってしまう →人間ではありえないめちゃくちゃな姿勢・行動など →多様性以外の何らかの方向性も考慮しつつ探索する必要がある ⚫ ロボットハンドだけでなく、姿勢ごと変化してしまうようなさらに 高難度の環境でのSim2Realを可能にする必要がある ⚫ どのような環境でどのようなタスクを学習するべきかを提案・検討する 研究がまだまだ少ない。マルチタスクの定義もかなり曖昧。 114
  64. 124.

    参考文献 (1) ⚫ David Silver, et al. (2017). Mastering Chess

    and Shogi by Self-Play with a General Reinforcement Learning Algorithm. https://arxiv.org/abs/1712.01815 ⚫ Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, Martin Riedmiller (2018). Maximum a Posteriori Policy Optimisation. https://arxiv.org/abs/1806.06920 ⚫ Barret Zoph, Quoc V. Le (2017). Neural Architecture Search with Reinforcement Learning. https://arxiv.org/abs/1611.01578 ⚫ S. M. Ali Eslami, et al. (2018). Neural scene representation and rendering. http://science.sciencemag.org/content/360/6394/1204.full?ijkey=kGcNflzOLiIKQ&keytype =ref&siteid=sci ⚫ Diederik P Kingma, Max Welling (2013). Auto-Encoding Variational Bayes. https://arxiv.org/abs/1312.6114 ⚫ Kingma, Diederik P., et al. (2014). Semi-supervised learning with deep generative models. https://arxiv.org/abs/1406.5298 ⚫ Kihyuk Sohn, Honglak Lee, Xinchen Yan (2015). Learning Structured Output Representation using Deep Conditional Generative Models. https://papers.nips.cc/paper/5775-learning- structured-output-representation-using-deep-conditional-generative-models 115
  65. 125.

    参考文献 (2) ⚫ David Ha, Jürgen Schmidhuber (2017). World Models.

    https://arxiv.org/abs/1803.10122 ⚫ Kevin Frans, Jonathan Ho, Xi Chen, Pieter Abbeel, John Schulman (2017). Meta Learning Shared Hierarchies. https://arxiv.org/abs/1710.09767 ⚫ Benjamin Eysenbach, Abhishek Gupta, Julian Ibarz, Sergey Levine (2018). Diversity is All You Need: Learning Skills without a Reward Function. https://arxiv.org/abs/1802.06070 ⚫ Joshua Achiam, Harrison Edwards, Dario Amodei, Pieter Abbeel (2018). Variational Option Discovery Algorithms. https://arxiv.org/abs/1807.10299 ⚫ Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, Alexei A. Efros (2018). Large-Scale Study of Curiosity-Driven Learning. https://arxiv.org/abs/1808.04355 ⚫ Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, Trevor Darrell (2017). Curiosity-driven Exploration by Self-supervised Prediction. https://arxiv.org/abs/1705.05363 ⚫ Yuri Burda, Harrison Edwards, Amos Storkey, Oleg Klimov (2018). Exploration by Random Network Distillation (2018). https://arxiv.org/abs/1810.12894 ⚫ Christopher Stanton, Jeff Clune (2018) Deep Curiosity Search: Intra-Life Exploration Can Improve Performance on Challenging Deep Reinforcement Learning Problems. https://arxiv.org/abs/1806.00553v2 116
  66. 126.

    参考文献 (3) ⚫ Nikolay Savinov, Anton Raichuk, Raphaël Marinier, Damien

    Vincent, Marc Pollefeys, Timothy Lillicrap, Sylvain Gelly (2018). Episodic Curiosity through Reachability. https://arxiv.org/abs/1810.02274 ⚫ Ildefons Magrans de Abril, Ryota Kanai (2018). Curiosity-driven reinforcement learning with homeostatic regulation. https://arxiv.org/abs/1801.07440 ⚫ Marcin Andrychowicz, Bowen Baker, Maciek Chociej, Rafal Jozefowicz, Bob McGrew, Jakub Pachocki, Arthur Petron, Matthias Plappert, Glenn Powell, Alex Ray, Jonas Schneider, Szymon Sidor, Josh Tobin, Peter Welinder, Lilian Weng, Wojciech Zaremba (2018). Learning Dexterous In-Hand Manipulation. https://arxiv.org/abs/1808.00177 ⚫ Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver (2017). Emergence of Locomotion Behaviours in Rich Environments. https://arxiv.org/abs/1707.02286 ⚫ Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, Igor Mordatch (2018). Emergent Complexity via Multi-Agent Competition. https://arxiv.org/abs/1710.03748 117