[ML輪講] Hindsight Experience Replay

Hindsight Experience Replay Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas
Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba, NIPS 2017 妹尾卓磨　今井研究室　慶應義塾大学 Keio Machine Learning Seminor 1

自己紹介妹尾卓磨今井研究室所属修士１年アルバイト Wantedly G社研究深層強化学習内発的動機
2

ロボットにおける強化学習の課題報酬関数の設計が困難 • 手設計の限界 • ドメイン知識の要求 • 最適な挙動が未知なケース 3

理想的な報酬設定エピソードの最後にタスクを完了できたかどうかで0, 1を与える 4

実際の問題探索空間が広すぎて報酬を得ることができない ⇨報酬が得られないと学習ができない何しても報酬もらえないんですけど（怒） 5

既存のアプローチ (1) 探索の効率化例:カウントベースによる探索 Unifying Count-Based Exploration and Intrinsic Motivation
[Bellmare+ 16] 6

既存のアプローチ (2) 報酬関数の作り込み（reward shaping）タスクがうまく行くように促す例:ゴールに近いほど小さい負の報酬を与える 7

既存のアプローチの課題探索の効率化探索空間が広すぎる場合は現実的ではない報酬関数の作り込みドメイン知識が要求される得られた方策が最適ではない場合がある 8

提案手法失敗エピソードもタスクの目的とは異なるサブゴールとして経験を保存して学習する深層強化学習手法 Hindsight Experience Replay (HER) を提案報酬がスパースな環境でなかなかタスクが達成できなくても別のゴールを設定して学習を進ませることが可能
9

コンセプト: ホッケーの例人がホッケーをプレイしている時の学習 10

コンセプト: ゴールから外した時 (RL) もし普通の強化学習だったらゴン！！これは失敗なんですねあんまり学習が進まない 11

コンセプト: ゴールから外した時 (Human) もし人間ならゴン！！ちくしょう！ゴールが右にあれば入ってた！右の方へ打つ方法を学習ここがゴールだったとして学習
12

Hindsight Experience Replay 13

エピソードを経験 (1) エピソードを経験 14

エピソードを経験 (2) 手法はoff-policyのアルゴリズムならなんでも使える今回はロボットを動かすので Deep Deterministic Policy Gradients (DDPG)を使用 Continuous
control with deep reinforcement learning [Timothy+ 15] Policy Network (θ π) Action-Value Network (θ Q) s t s t a t Q t 状態行動行動価値 a t 行動 Actor Critic 15

エピソードを経験 (3) Universal Function Value Approximator (UFVA) でネットワークを構成状態とゴールを入力として価値を推定する •
状態だけじゃなくてゴールについても汎化することができる • 特徴抽出を促すことができる今回はDDPGのActorとCriticに使用 Universal Function Value Approximator [Schaul+ 16] 16

経験を保存 (1) : Experience Replay (ER) 経験を保存普通のER HER 17

経験を保存 (2) : 普通のExperience Replay 本来のゴールgとgにおける報酬をメモリーに保存する Replay Memory 18

経験を保存 (3) : Hindsight Experience Replay ゴールを選択する方法Gにしたがってg’を決定して経験を保存する Gの例: エピソードの最終状態s T
をg’とする (final) Replay Memory 19

経験をサンプリングして学習サンプリングした経験から学習 20

実験 MuJoCoエンジンを使ったロボットシミュレータでタスクを学習 7自由度のロボットを用いて3タスクで性能を評価 Pusing Sliding Pick-and-place 21

実験詳細観測グリップの絶対位置，物体と対象物の相対位置，指の間隔 Criticには追加でグリップと指の速度と物体の相対速度と相対角速度ゴール動かしたい目的の場所（物体の位置はエピソードごとにランダム）報酬物体を閾値以下まで動かせれば1，そうでなければ0 22

実験の様子 23

結果 HERのゴールをエピソードの最終状態として学習全てのタスクにおいてベースラインを超える性能 24

実験2: 毎回ゴールが同じ場合の評価ゴールが毎回同じ場合（簡単になった）でも評価 HERを用いることで改善できた 25

実験1と実験2の比較ゴールが毎回変わる実験1の方が性能が高かったゴールが多様な方が学習が性能が上がりやすい (ゴール間の汎化かな) 実験1 実験2 26

実験3: reward shaping での学習 reward shapingを行って学習ができるかどうか評価動かした時に物体に近づくほど大きな報酬が発生するように設定次のステップでの位置定数 HERを用いても学習ができなくなった
27

reward shapingして学習ができなくなった理由報酬関数によって最適化されるものと目指してるものが違う直感的に設計した報酬がタスクの最適化と合致しているとは限らない報酬関数が探索を抑制してしまうちょっとでも物体を動かすと負の報酬を受け取ってしまい，物体を動かさないのが最適方策となってしまっている 28

実験4: Gの戦略を色々変えてみる新たに3つのGの戦略を加えて評価 future ランダムに同一エピソードで今後訪れるk個の状態をゴールにする episode ランダムに同一エピソードで訪れるk個の状態をゴールにする random ランダムに学習中に訪れたk個の状態をゴールにする 29

実験4: 結果 futureにすると大きく性能が向上した反対にrandomは性能が大きく低下したまた，k=8を越えると本来のゴールの割合が減るので性能が低下した 30

実験5: 実ロボットへデプロイシミュレータ上のfuture, k=4で学習した方策を実ロボットへデプロイそのままだと2/5の成功率 Gaussianのノイズを入力に加えて学習することで成功率を5/5まで上昇できた物体位置検出はは訓練済み CNNを使用 31

HERを用いた後続の研究 OpenAIはこれ以降ロボットの学習に強化学習を用いる研究を盛んにしている • Sim-to-Real Transfer of Robotic Control with Dynamics　Randomization
[Xue+ 17] シミュレーションの環境にノイズを加えることで汎化性能を向上させて実環境に耐える方策を学習する • Overcoming Exploration in Reinforcement Learning with Demonstrations [Ashvin+ 17] 人のデモンストレーションを使用して学習するかどうかをCriticの評価で決定することでデモンストレーション以上の方策を学習する • Asymmetric Actor Critic for Image-Based Robot Learning [Lerrel+ 17] Actorの入力は限られているが，Criticには全情報を与えることで効率的に実環境でも使用できる方策を学習する 32

総評 • 失敗エピソードでもゴールを自分で設定することで学習を促すことができた • 最近UVFAを使った論文が増えてきているので，UVFAに時代が追いついてきた ◦ マルチタスク ◦
ゴールの汎化による未知タスクへのアプローチ • 人間による報酬ハンドエンジニアリングを超えてくるあたりがまさに深層強化学習の真骨頂という感じ 33

[ML輪講] Hindsight Experience Replay

[ML輪講] Hindsight Experience Replay

Takuma Seno

More Decks by Takuma Seno

Other Decks in Technology

Featured

Transcript

Hindsight Experience Replay Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas

自己紹介妹尾卓磨今井研究室所属修士１年アルバイト Wantedly G社研究深層強化学習内発的動機

ロボットにおける強化学習の課題報酬関数の設計が困難 • 手設計の限界 • ドメイン知識の要求 • 最適な挙動が未知なケース 3

理想的な報酬設定エピソードの最後にタスクを完了できたかどうかで0, 1を与える 4

実際の問題探索空間が広すぎて報酬を得ることができない ⇨報酬が得られないと学習ができない何しても報酬もらえないんですけど（怒） 5

既存のアプローチ (1) 探索の効率化例:カウントベースによる探索 Unifying Count-Based Exploration and Intrinsic Motivation

既存のアプローチ (2) 報酬関数の作り込み（reward shaping）タスクがうまく行くように促す例:ゴールに近いほど小さい負の報酬を与える 7

既存のアプローチの課題探索の効率化探索空間が広すぎる場合は現実的ではない報酬関数の作り込みドメイン知識が要求される得られた方策が最適ではない場合がある 8

コンセプト: ホッケーの例人がホッケーをプレイしている時の学習 10

コンセプト: ゴールから外した時 (RL) もし普通の強化学習だったらゴン！！これは失敗なんですねあんまり学習が進まない 11

コンセプト: ゴールから外した時 (Human) もし人間ならゴン！！ちくしょう！ゴールが右にあれば入ってた！右の方へ打つ方法を学習ここがゴールだったとして学習

Hindsight Experience Replay 13

エピソードを経験 (1) エピソードを経験 14

エピソードを経験 (2) 手法はoff-policyのアルゴリズムならなんでも使える今回はロボットを動かすので Deep Deterministic Policy Gradients (DDPG)を使用 Continuous

エピソードを経験 (3) Universal Function Value Approximator (UFVA) でネットワークを構成状態とゴールを入力として価値を推定する •

経験を保存 (1) : Experience Replay (ER) 経験を保存普通のER HER 17

経験を保存 (2) : 普通のExperience Replay 本来のゴールgとgにおける報酬をメモリーに保存する Replay Memory 18

経験を保存 (3) : Hindsight Experience Replay ゴールを選択する方法Gにしたがってg’を決定して経験を保存する Gの例: エピソードの最終状態s T

経験をサンプリングして学習サンプリングした経験から学習 20

実験 MuJoCoエンジンを使ったロボットシミュレータでタスクを学習 7自由度のロボットを用いて3タスクで性能を評価 Pusing Sliding Pick-and-place 21

実験の様子 23

結果 HERのゴールをエピソードの最終状態として学習全てのタスクにおいてベースラインを超える性能 24

実験2: 毎回ゴールが同じ場合の評価ゴールが毎回同じ場合（簡単になった）でも評価 HERを用いることで改善できた 25

実験1と実験2の比較ゴールが毎回変わる実験1の方が性能が高かったゴールが多様な方が学習が性能が上がりやすい (ゴール間の汎化かな) 実験1 実験2 26

実験3: reward shaping での学習 reward shapingを行って学習ができるかどうか評価動かした時に物体に近づくほど大きな報酬が発生するように設定次のステップでの位置定数 HERを用いても学習ができなくなった

実験4: 結果 futureにすると大きく性能が向上した反対にrandomは性能が大きく低下したまた，k=8を越えると本来のゴールの割合が減るので性能が低下した 30

HERを用いた後続の研究 OpenAIはこれ以降ロボットの学習に強化学習を用いる研究を盛んにしている • Sim-to-Real Transfer of Robotic Control with Dynamics　Randomization

総評 • 失敗エピソードでもゴールを自分で設定することで学習を促すことができた • 最近UVFAを使った論文が増えてきているので，UVFAに時代が追いついてきた ◦ マルチタスク ◦