Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ML輪講] Hindsight Experience Replay

[ML輪講] Hindsight Experience Replay

Reading paper of Hindsight Experience Replay at Keio Machine Learning Seminor

Takuma Seno

April 26, 2018
Tweet

More Decks by Takuma Seno

Other Decks in Technology

Transcript

  1. Hindsight Experience Replay Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas

    Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba, NIPS 2017 妹尾卓磨 今井研究室 慶應義塾大学 Keio Machine Learning Seminor 1
  2. エピソードを経験 (2) 手法はoff-policyのアルゴリズムならなんでも使える 今回はロボットを動かすので Deep Deterministic Policy Gradients (DDPG)を使用 Continuous

    control with deep reinforcement learning [Timothy+ 15] Policy Network (θ π) Action-Value Network (θ Q) s t s t a t Q t 状態 行動 行動価値 a t 行動 Actor Critic 15
  3. エピソードを経験 (3) Universal Function Value Approximator (UFVA) でネットワークを構成 状態とゴールを入力として価値を推定する •

    状態だけじゃなくてゴールについても 汎化することができる • 特徴抽出を促すことができる 今回はDDPGのActorとCriticに使用 Universal Function Value Approximator [Schaul+ 16] 16
  4. HERを用いた後続の研究 OpenAIはこれ以降ロボットの学習に強化学習を用いる研究を盛んにしている • Sim-to-Real Transfer of Robotic Control with Dynamics Randomization

    [Xue+ 17] シミュレーションの環境にノイズを加えることで汎化性能を向上させて実環境に耐える方 策を学習する • Overcoming Exploration in Reinforcement Learning with Demonstrations [Ashvin+ 17] 人のデモンストレーションを使用して学習するかどうかをCriticの評価で決定することで デモンストレーション以上の方策を学習する • Asymmetric Actor Critic for Image-Based Robot Learning [Lerrel+ 17] Actorの入力は限られているが,Criticには全情報を与えることで効率的に実環境でも使 用できる方策を学習する 32
  5. 総評 • 失敗エピソードでもゴールを自分で設定することで学習を促す ことができた • 最近UVFAを使った論文が増えてきているので,UVFAに時代 が追いついてきた ◦ マルチタスク ◦

    ゴールの汎化による未知タスクへのアプローチ • 人間による報酬ハンドエンジニアリングを超えてくるあたりがま さに深層強化学習の真骨頂という感じ 33