Hybrid Reward Architecture for Reinforcement Learning

C108d59e6e6cd9a58e4d73ab9f922d81?s=47 Yuko Ishizaki
November 08, 2018
29

Hybrid Reward Architecture for Reinforcement Learning

C108d59e6e6cd9a58e4d73ab9f922d81?s=128

Yuko Ishizaki

November 08, 2018
Tweet

Transcript

  1. 2.

    Hybrid Reward Architecture for Reinforcement Learning NIPS 2017 Accepted Paper

    http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for- reinforcement-learning.pdf パックマンを攻略した論文 2017年6月にarXive.orgに掲載 MicrosoftのチームMaluuba ミズ.パックマンでフルスコアの99万9990点を記録した
  2. 4.

    強化学習 エージェント:プレーヤー 状態:エージェントの置かれている状態 = { 1, 2, 3, … }

    行動:エージェントが行う行動 = { 1, 2, 3, … } 報酬:環境から得られる報酬 = , , +1 状態遷移確率:ある状態 である行動 を起こて、ある状態+1 になる確率 +1 | , 方針:エージェントがとある状態でどんな行動を行うか : × → [0, 1]
  3. 5.

    強化学習の目的 各ステップごとに状態と行動と報酬を観測し、 累積報酬 を最大にする方針∗を見つけること : = ෍ =0 ∞ +

    ∈ [0,1]は時間割引率 1秒後の報酬+100の方が10秒後の報酬+100よりも高い報酬とみなす
  4. 7.

    行動価値関数 ある状態である行動を行うことの価値を表す関数 → 価値とは報酬をもとにした、仮想的な値 , = | = , =

    , という状態でという行動をとった場合の価値は、方針で得られる 累積報酬の期待値で表される。
  5. 9.

    Q-Learning 最適行動価値関数を見つけるために行動価値関数を更新 , ← , + + max ′ ′,

    ′ − , ( ∈ 0,1 ∶ 学習率) ある行動価値が一つ前の行動価値に伝播していく
  6. 10.

    DQN (Deep Q-Network) , を、とあるパラメータθを使った近似関数 , ; θ で表現 →

    パラメータθをディープラーニングで求める 損失関数 = [( + max ′ ′, ′; −1 − , ; )2]
  7. 11.

    HRA ( Hybrid Reward Architecture for RL ) DQNは複雑なゲームだと、学習が遅くて安定しない →

    近似関数をもっと簡単にできないか? 報酬関数が分けられるときは分けて、それぞれ行動価値関数を学 習させれば、学習が容易にならないか? (, , ′) = ෍ =1 (, , ′)
  8. 12.

    イメージ エージェント 報酬1 報酬2 +10 +10 +0 +0 +0 +0

    +0 +0 +10 +0 +0 +0 +0 +0 +0 +10 +0 +0 +0 +0 +0 +0 +0 +0 (, , ′) 1 (, , ′) 2 (, , ′) = +
  9. 13.

    行動価値関数 (HRAバージョン) , = ෍ =0 ∞ (+ , +

    , ++1 ) | = , = , = ෍ =0 ∞ ෍ =1 + , + , ++1 | = , = , = ෍ =1 ෍ =0 ∞ + , + , ++1 | = , = , = ෍ =1 , ∶= ,
  10. 14.

    近似関数の損失関数 (HRAバージョン) DQN損失関数 = [( + max ′ ′, ′;

    −1 − , ; )2] HRA損失関数 = [෍ =1 ( , , ′ + max ′ ′, ′; −1 − , ; )2]
  11. 15.

    ネットワークのイメージ = [෍ =1 ( , , ′ + max

    ′ ′, ′; −1 − , ; )2] は1つで、各 重みを結合したもの → 多数決+重みによって最終的な行動を が決める
  12. 16.

    問題固有の知識を活用 • 無関係な特徴量を削除する → 報酬1に対応する 1 , にとって、報酬2の情報は不要 • 最終状態を認識させる

    → 報酬1に対応する 1 , は、報酬1を得たら終了 • 擬似報酬を利用する → 報酬が得られる可能性のある場所に擬似的な報酬を設定する
  13. 17.

    実験1 フルーツゲーム ルール • エージェントは10×10のマスを移動して フルーツを食べる • 10箇所にフルーツが置かれる可能性があり 実際におかれているのは5箇所 •

    1ゲームごとにフルーツの場所は変わる • エージェントの開始位置はランダム • フルーツを5個食べ終えたら終了、 もしくは300ステップを超えたら終了。
  14. 18.

    パターン HRAではフルーツがおかれる可能性のある場所ごとに , , ′ と , 設定する。フルーツに1ポイントの報酬。 比較対象のDQNではただ単にフルーツに1ポイントの報酬 問題固有の知識を導入

    • HRA+1 各 に対応するフルーツの位置だけ • HRA+2 各 に対応するフルーツが食べられない状態では学習しない • HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬 • DQN+1 HAR+1と同じネットワークを利用
  15. 20.

    実験2 パックマン • ペレットを食べるとポイントがもらえる • ゴーストに触れると死ぬ • スペシャルパワーペレットを食べると ゴーストが青くなってゴーストを食べれ てポイントがもらえる

    • 全てのペレットを食べると次のレベルに いける • レベルごとにフルーツが2個食べれる。 フルーツは7種類あってポイントがそれ ぞれ違う • 4種類のエリアがある
  16. 22.

    HRA表現 行動:ネットワークのoutput layer (headごと)のnodes → パックマンの上下左右で4つ 報酬:それぞれ , , ′

    と , 設定する • ペレット → ゲーム内でのポイント • ゴースト → -1000ポイント • 青ゴースト → ゲーム内でのポイント • フルーツ → ゲーム内でのポイント
  17. 23.

    工夫 • 各 , を合算するとき、正規化する • エリア内の特定の場所へ移動するための擬似報酬を設定する • 探索用の ,

    を2つ追加 → 1つめは一様分布のランダムな値[0,20] → 2つめはとaが今までにないパターンの場合にボーナスを与える
  18. 24.