Hybrid Reward Architecture for Reinforcement Learning

機械学習論文輪読会 Hybrid Reward Architecture for Reinforcement Learning Ishizaki Yuko
2018/1/8

Hybrid Reward Architecture for Reinforcement Learning NIPS 2017 Accepted Paper
http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for- reinforcement-learning.pdf パックマンを攻略した論文 2017年6月にarXive.orgに掲載 MicrosoftのチームMaluuba ミズ.パックマンでフルスコアの99万9990点を記録した

Topic 1. 強化学習とは 2. DQNとは 3. HRAとは 4. 実験１フルーツゲーム
5. 実験２パックマン

強化学習エージェント：プレーヤー状態：エージェントの置かれている状態 = { 1, 2, 3, … }
行動：エージェントが行う行動 = { 1, 2, 3, … } 報酬：環境から得られる報酬 = , , +1 状態遷移確率：ある状態である行動を起こて、ある状態+1 になる確率 +1 | , 方針：エージェントがとある状態でどんな行動を行うか : × → [0, 1]

強化学習の目的各ステップごとに状態と行動と報酬を観測し、累積報酬を最大にする方針∗を見つけること : = ෍ =0 ∞ +
∈ [0,1]は時間割引率 1秒後の報酬+100の方が10秒後の報酬+100よりも高い報酬とみなす

マルコフ決定過程 , , , , モデル化したものをマルコフ決定過程(MDP)という次の状態（の確率）が現在の状態のみで決まる : × →
[0, 1] → 過去は関係ない → 状態は全て把握できている

行動価値関数ある状態である行動を行うことの価値を表す関数 → 価値とは報酬をもとにした、仮想的な値 , = | = , =
, という状態でという行動をとった場合の価値は、方針で得られる累積報酬の期待値で表される。

最適行動価値関数強化学習の目的は累積報酬が最大になる方針∗を見つけること → ∗では報酬が最大になるように行動する → 価値関数の値が最大になるように行動する ∗ , ≔ max
, ∗ , ≔ + max ′ ∗(′, ′)

Q-Learning 最適行動価値関数を見つけるために行動価値関数を更新 , ← , + + max ′ ′,
′ − , ( ∈ 0,1 ∶ 学習率) ある行動価値が一つ前の行動価値に伝播していく

DQN (Deep Q-Network) , を、とあるパラメータθを使った近似関数 , ; θ で表現 →
パラメータθをディープラーニングで求める損失関数 = [( + max ′ ′, ′; −1 − , ; )2]

HRA ( Hybrid Reward Architecture for RL ) DQNは複雑なゲームだと、学習が遅くて安定しない →
近似関数をもっと簡単にできないか？報酬関数が分けられるときは分けて、それぞれ行動価値関数を学習させれば、学習が容易にならないか？ (, , ′) = ෍ =1 (, , ′)

イメージエージェント報酬１報酬２ +10 +10 +0 +0 +0 +0
+0 +0 +10 +0 +0 +0 +0 +0 +0 +10 +0 +0 +0 +0 +0 +0 +0 +0 (, , ′) 1 (, , ′) 2 (, , ′) = +

行動価値関数 (HRAバージョン) , = ෍ =0 ∞ (+ , +
, ++1 ) | = , = , = ෍ =0 ∞ ෍ =1 + , + , ++1 | = , = , = ෍ =1 ෍ =0 ∞ + , + , ++1 | = , = , = ෍ =1 , ∶= ,

近似関数の損失関数 (HRAバージョン) DQN損失関数 = [( + max ′ ′, ′;
−1 − , ; )2] HRA損失関数 = [෍ =1 ( , , ′ + max ′ ′, ′; −1 − , ; )2]

ネットワークのイメージ = [෍ =1 ( , , ′ + max
′ ′, ′; −1 − , ; )2] は1つで、各重みを結合したもの → 多数決＋重みによって最終的な行動をが決める

問題固有の知識を活用 • 無関係な特徴量を削除する → 報酬１に対応する 1 , にとって、報酬２の情報は不要 • 最終状態を認識させる
→ 報酬１に対応する 1 , は、報酬１を得たら終了 • 擬似報酬を利用する → 報酬が得られる可能性のある場所に擬似的な報酬を設定する

実験１フルーツゲームルール • エージェントは10×10のマスを移動してフルーツを食べる • 10箇所にフルーツが置かれる可能性があり実際におかれているのは5箇所 •
１ゲームごとにフルーツの場所は変わる • エージェントの開始位置はランダム • フルーツを５個食べ終えたら終了、もしくは300ステップを超えたら終了。

パターン HRAではフルーツがおかれる可能性のある場所ごとに , , ′ と , 設定する。フルーツに１ポイントの報酬。比較対象のDQNではただ単にフルーツに１ポイントの報酬問題固有の知識を導入
• HRA+1 各に対応するフルーツの位置だけ • HRA+2 各に対応するフルーツが食べられない状態では学習しない • HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬 • DQN+1 HAR+1と同じネットワークを利用

フルーツゲームの結果 HRAの場合、問題固有の知識を有効に活用することができる

実験２パックマン • ペレットを食べるとポイントがもらえる • ゴーストに触れると死ぬ • スペシャルパワーペレットを食べるとゴーストが青くなってゴーストを食べれてポイントがもらえる
• 全てのペレットを食べると次のレベルにいける • レベルごとにフルーツが２個食べれる。フルーツは７種類あってポイントがそれぞれ違う • ４種類のエリアがある

HRA表現状態 : ネットワークのinput部分 • エリアを160×160で表現 • ゴースト4体それぞれの位置 • 青ゴースト4体それぞれの位置
• パックマンの位置 • フルーツの位置 • ペレットの位置

HRA表現行動：ネットワークのoutput layer (headごと)のnodes → パックマンの上下左右で４つ報酬：それぞれ , , ′
と , 設定する • ペレット → ゲーム内でのポイント • ゴースト → -1000ポイント • 青ゴースト → ゲーム内でのポイント • フルーツ → ゲーム内でのポイント

工夫 • 各 , を合算するとき、正規化する • エリア内の特定の場所へ移動するための擬似報酬を設定する • 探索用の ,
を２つ追加 → １つめは一様分布のランダムな値[0,20] → ２つめはとaが今までにないパターンの場合にボーナスを与える

結果

報酬を分割することで、問題固有の知識を活用でき、学習を容易にすることが可能結論

Hybrid Reward Architecture for Reinforcement Le...

Hybrid Reward Architecture for Reinforcement Learning

Yuko Ishizaki

More Decks by Yuko Ishizaki

Featured

Transcript

機械学習論文輪読会 Hybrid Reward Architecture for Reinforcement Learning Ishizaki Yuko

Hybrid Reward Architecture for Reinforcement Learning NIPS 2017 Accepted Paper

Topic 1. 強化学習とは 2. DQNとは 3. HRAとは 4. 実験１フルーツゲーム

強化学習エージェント：プレーヤー状態：エージェントの置かれている状態 = { 1, 2, 3, … }

強化学習の目的各ステップごとに状態と行動と報酬を観測し、累積報酬を最大にする方針∗を見つけること : = ෍ =0 ∞ +

マルコフ決定過程 , , , , モデル化したものをマルコフ決定過程(MDP)という次の状態（の確率）が現在の状態のみで決まる : × →

行動価値関数ある状態である行動を行うことの価値を表す関数 → 価値とは報酬をもとにした、仮想的な値 , = | = , =

最適行動価値関数強化学習の目的は累積報酬が最大になる方針∗を見つけること → ∗では報酬が最大になるように行動する → 価値関数の値が最大になるように行動する ∗ , ≔ max

Q-Learning 最適行動価値関数を見つけるために行動価値関数を更新 , ← , + + max ′ ′,

DQN (Deep Q-Network) , を、とあるパラメータθを使った近似関数 , ; θ で表現 →

HRA ( Hybrid Reward Architecture for RL ) DQNは複雑なゲームだと、学習が遅くて安定しない →

イメージエージェント報酬１報酬２ +10 +10 +0 +0 +0 +0

行動価値関数 (HRAバージョン) , = ෍ =0 ∞ (+ , +

近似関数の損失関数 (HRAバージョン) DQN損失関数 = [( + max ′ ′, ′;

ネットワークのイメージ = [෍ =1 ( , , ′ + max

問題固有の知識を活用 • 無関係な特徴量を削除する → 報酬１に対応する 1 , にとって、報酬２の情報は不要 • 最終状態を認識させる

実験１フルーツゲームルール • エージェントは10×10のマスを移動してフルーツを食べる • 10箇所にフルーツが置かれる可能性があり実際におかれているのは5箇所 •

パターン HRAではフルーツがおかれる可能性のある場所ごとに , , ′ と , 設定する。フルーツに１ポイントの報酬。比較対象のDQNではただ単にフルーツに１ポイントの報酬問題固有の知識を導入

フルーツゲームの結果 HRAの場合、問題固有の知識を有効に活用することができる

実験２パックマン • ペレットを食べるとポイントがもらえる • ゴーストに触れると死ぬ • スペシャルパワーペレットを食べるとゴーストが青くなってゴーストを食べれてポイントがもらえる

HRA表現状態 : ネットワークのinput部分 • エリアを160×160で表現 • ゴースト4体それぞれの位置 • 青ゴースト4体それぞれの位置

HRA表現行動：ネットワークのoutput layer (headごと)のnodes → パックマンの上下左右で４つ報酬：それぞれ , , ′

工夫 • 各 , を合算するとき、正規化する • エリア内の特定の場所へ移動するための擬似報酬を設定する • 探索用の ,

結果

報酬を分割することで、問題固有の知識を活用でき、学習を容易にすることが可能結論