Pro Yearly is on sale from $80 to $50! »

強化学習における平均分散アプローチ

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=47 MasaKat0
June 21, 2020

 強化学習における平均分散アプローチ

リスク考慮型強化学習の一つである強化学習における平均分散アプローチについて紹介しました.初学者が時間がないなか慌てて作った上に,本人があまり理解していないので間違いが多いですが,雰囲気こういう論文や手法があるんだと知って頂ければ

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

June 21, 2020
Tweet

Transcript

  1. 平均分散アプローチに基づく強化学習 加藤真⼤ 6⽉20⽇

  2. ⽬次 1. 平均分散アプローチ 2. Actor Critic Algorithms for Risk-Sensitive MDPs

    3. Policy Gradients with Variance Related Risk Criteria 4. A Block Coordinate Ascent Algorithm for Mean-Variance Optimization 2
  3. 平均分散アプローチ 3

  4. RLの定式化 n マルコフ決定過程: , , !, ""! # , ,

    • :状態の集合. • :⾏動の集合. • ! :初期の状態の分布. • ""! # :⾏動がとられたときに状態から状態′の遷移を特定する遷移カーネル. • , : × → ℝ:$%& でバウンドされる報酬関数. • 0 < ≤ 1:割引率. n エージェントは(⋅∣ )に従って⾏動を選択する. n エージェントが得る報酬'() ≔ ', ' . 報酬が確率変数であるか,決定的な値であるかは,論⽂ごとに異なって設定される. n 確率(⋅∣ ', ')に従って,次の期'() に遷移する. 4
  5. RLの定式化 n ある期からその後に得られる報酬:' ≔ ∑*+! , *('(*, '+*). • <

    1の場合: ' は発散しない. • = 1の場合: ' が発散するために,⽅策がproperであることを仮定する. つまり,任意の⽅策に対して,ある状態に確率1で到達し,その後の報酬は0. → 動的意思決定問題が何かしらの形で収束する. • 任意の ∈ 0,1 に対して,! を総報酬とする. = 1の場合:! = ∑'+! - (', ')と表記. • ≔ .",0,1 ! . n 価値関数1() ≔ [' ∣ ' = ],⾏動関数1 , ≔ [' ∣ ' = , ' = ]. 5
  6. 平均分散最適化:Total Reward Perspective n MDPにおけるTotal rewardのもとでの平均分散最適化では関数 ! を分散制約のもとで 最⼤化する.つまり, max

    2 ! . . V ! ≤ . ここで, ! はリターン! の分散,のリスクパラメータ,はモデルのパラメータ. • リスク考慮型強化学習の⼀種. • ポートフォリオの最適化などに使える. n 平均分散最適化はNP困難: • Sobel (1982)は実験的に平均分散最適化はDPを使って解くことが困難であることを指摘. • Mannor and Tsitsikilisは有限期間に対して,平均分散最適化はNP困難だと⽰した. 6
  7. 既存研究における定式化の差異 n Prashanth and Ghavamzadeh,Actor-Critic Algorithms for Risk-Sensitive MDPs, NeurIPS

    2013. アクター・クリティック法を⽤いて求解. • 割引率: < 1 • 無制約鞍点問題に変換.解く問題は max 3 min 2 ) , ≔ − ! + V ! − . • 確率的勾配降下法の⼀種としてSPSAとSFのどちらかの⼿法を⽤いることを提案. ↑ double sampling問題を避けるため. 7
  8. 既存研究における定式化(続き) n Tamer and Castro, Policy Gradients with Variance Related

    Risk Criteria, NeurIPS 2012 • 割引率は = 1. • 鞍点問題ではなく以下の罰則つき無制約問題を解く: max 2 4 , ≔ ! − (V ! − ) ここで, ≔ max 0, 4は罰則関数. • この最適化問題では∇24()を計算するときに ! ∇2 ! が必要になる. これはdouble sampling issueを引き起こす. → two-time scale algorithm. 8
  9. 既存研究における定式化(続き) n Xie, Liu, Xu, Ghavamzadeh, Chow, and Lyu, A

    Block Coordinate Algorithm for Mean- Variance Optimazation. NeurIPS 2018 制約付き問題を無制約問題に変換し,さらにFenchel双対で変換し,座標降下法で最適化. • 割引率は = 1. • 鞍点問題ではなくTamerと同様に以下の罰則つき無制約問題を解く: max 2 4 , ≔ ! − (V ! − ) ここで, ≔ max 0, 4は罰則関数. • この最適化問題では∇24()を計算するときに ! ∇2 ! が必要になる. これはdouble sampling issueを引き起こす. → Fenchel双対4 = max 5 2 − 4 を考える.つまり,以下を解く. max 2,5 6 , ≔ 2 ! + 1 2 − 4 − ! 4 . 9
  10. 平均分散最適化:Per-Step Reward Perspective n Bisi et al. (2019)が提案した報酬-ボラティリティの評価⽅法. • 各ステップ(期)ごとの報酬の分散を制御する.

    ↔ 各経路ごとの分散の制御(Total Reward Perspective). • < 1のもとでは,期待総割引報酬(expected total discounted reward)は = 1 1 − [ ",# 1 , (, ) . ここで,1(, )はnormalized discounted state-action distributionと呼ばれ, 1 , ≔ 1 − [ '+! , ' Pr ' = , ' = !, , . で表される. 10
  11. 平均分散最適化:Per-Step Reward Perspective n 以下を定義する. • 各期ごとに得られる報酬' , • 報酬が得られる確率:

    = = ∑",# 1 , 1 , = . • Bisi et al. (2019)はV()がV(!)よりも正確にリスクを表現できていると主張した. さらに,V ! ≤ 7(9) );< # も⽰した.V()を抑えるとV(!)も抑えられることを意味する. 11
  12. 既存研究における定式化(続き) n Bisi, Sabbioni, Vittori, Papini, and Restelli, Risk-Averse Trust

    Region Optimization for Reward-Volatility Reduction, AAAI 2020. n Trust Region Volatility Optimization (TRVO). n ⽬的関数は, 3 ≔ − V = − − 4 . 各期の報酬を= , ≔ , − , − 1 − 4 と考えて通常のMDPを解くこと と同じような問題になる. n 問題を解く上で困難な点. 1. 報酬が⾏動を決める確率に依存する. 2. ⽅策勾配の評価:Triple sampling problem. 12
  13. 既存研究における定式化(続き) n Zhang, Liu, and Whiteson, Mean-Variance Policy Iteration for

    Risk-Averse Reinforcement Learning, arXiv 2020. n Block Cyclic Coordinate Descent (BCCA). • Fenchel双対を適⽤して⽬的関数を以下のように書き換える. 3 ≔ − 4 + 4 = − 4 + max 5 2 − 4 したがって,以下の問題を解く. max 1,5 [ ",# 1 , ( , − , 4 + 2 , ) − 4 13
  14. Actor Critic Algorithms for Risk-Sensitive MDPs 14

  15. アクター・クリティック法 n SARSAより直接的に⽅策反復法を実装するアプローチ. • ⽅策であるアクターと,⽅策評価を⾏うクリティックの⼆つのモジュールからなる. 1. クリティックが報酬などの観測から⽅策改善のための信号を計算し, 2. それをアクターに与えて⽅策を更新することを繰り返す. 15

  16. RLの定式化 n マルコフ決定過程: , , , , ! • =

    {1,2, . . , }:状態の集合. • = {1,2, . . , }:⾏動の集合. • , : × → ℝ:報酬関数.期待値は , = , . • ⋅ , ):⾏動がとられたときに状態から次の状態への遷移を特定する遷移カーネル. • ! :初期の状態の分布. • (⋅ |):⾏動の確率. パラメータで表される時,クラスを ⋅ ; , ∈ , ∈ Θ ⊆ ℝ>$ とする. • 0 < < 1:割引率. 16
  17. RLの定式化 • に対する定常分布を.(),(, )に対する定常分布を? , = . とする. • ある状態が訪問される確率:<

    . ! = 1 − ∑'+! , ' Pr(' = ∣ ! = !; ). • ある状態-⾏動対(, )が訪問される確率:< . , ! = < . ! (|). n 状態から始まる割引報酬. = ∑'+! , '(', ') | ! = , . n 状態-⾏動対 , から始まる割引報酬. , = ∑'+! , '(', ') | ! = , ! = , . n 価値関数を. = . ,⾏動関数. , = . , とする. n 状態から始まる系列の分散をΛ. = . 4 − . 4 = . − . 4. ここで,. = . 4 . n 解きたい問題は, max 2 2 ! s. t. Λ. ! ≤ . 17
  18. 鞍点問題 n 最適化問題max 3 min 2 , ≔ −2 !

    + Λ2 ! − の求解. • ゴール:鞍点(∗, ∗)の発⾒.ここで, , ∗ ≥ ∗, ∗ ≥ ∗, , ∀, ∀ > 0. n パラメータとに対して最適パラメータの⼀階条件を求めると, ∇2 , = −∇22 ! + ∇2Λ2 ! , and ∇3 , = Λ2 ! − . • ここで,∇2Λ2 ! = ∇2 ! − 22 ! . 18
  19. 勾配の計算 n 補題1: Assuming for all (, ), ; is

    continuously differentiable in , we have 1 − ∇2 ! = [ A,# < 2 , ! ∇log ; 2(, ) . 1 − 4 ∇2 ! = [ A,# w < 2 , ! ∇log ; 2 , +2 [ B,#,B! w < 2 , ! = ∣ , , 2 = where . , ≔ [. , 4], w < 2 , ! = z < 2 ! ( ∣ ) and z < 2 ! = 1 − 4 ∑'+! , 4' Pr ' = ! = !; . 19
  20. 勾配の推定における困難さ n ∇2) , の計算に伴う問題点: 1. ⼆つのサンプリング分布< 2 , !

    とw < 2 , ! が必要. 2. ∇2 ! に現れる∇2 = により2 = をMDPの全ての状態で評価する必要がある. 20
  21. 割引報酬のもとでの求解 n 以下の⼆つのどちらかの⽅法を⽤いて制約付き最適化問題を解く. • Simultaneous Perturbation Stochastic Approximation (SPSA) •

    Smoothed Functional (SF) n これらの⼿法は,パラメータと( = + Δによってパラメトライズされた⼆つの⽅策 に基づく⼆つのシミュレートされた経路を⽤いる. • ここで,Δは確率変数による摂動であり,SPSAの場合にはラデマッハ変数が,SFにおい ては標準正規分布が⽤いられる. 21
  22. SPSAとSFに基づく勾配推定 n SPSAにおいては価値関数の勾配は以下のように与えられる: 2 % 2 ! ≈ 2(CD !

    − 2 ! Δ(*) n SFにおいては価値関数の勾配は以下のように与えられる: 2 % 2 ! ≈ Δ * 2(CD ! − 2 ! 22
  23. Actor-Criticアルゴリズム 23 n ⼆つの異なる⽅策のもとで関数を学習する. n パラメータの更新にはアクター・クリティック法を⽤いる. 1. The first trajectory:⾏動を

    ∼ (⋅ |'; ')としてサンプルし,報酬(', ')を観測する. そして次の状態 '() に遷移する. 2. The second trajectory:⾏動を( ∼ (⋅ |' (; ' ()としてサンプルし,報酬(' (, ' ()を観 測する.そして次の状態'() ( に遷移する. 3. Critic Update: ⼆つの⽅策に基づいて,TD誤差' と' (,価値関数の⼆乗' と' (をそれ ぞれ更新する. 4. Actor Update: 勾配∇2 ! と∇2 ! をSPSAもしくはSFを⽤いて推定して,パラ メータを更新する.
  24. Policy Gradients with Variance Related Risk Criteria 24

  25. RLの定式化 • 状態の集合: ≔ 1, … , . • ⾏動の集合:

    ≔ 1, … , . • 遷移確率:?(|) for ∈ , , ∈ . • パラメータで表される⾏動をとる確率2 • 系列*, … , E , *, … , E , *, … , E を* E,* E,* Eとする.* E = ∑F+) E F とする. • 2 = ∑? 2 ? とする. • 状態∗に到達すると以降は報酬が0. ≔ min{ > 0|E = ∗}とする. • 総報酬を ≔ ∑E+! G;) E とする. • 価値関数 ≔ 2[|! = ]. • 経路ごとの分散 ≔ 2(|! = ). 25
  26. 制約付き最適化問題 n 以下のような経路ごとの分散を制約した最適化問題を解きたい: max 2 (∗) , s. t. ∗

    ≤ . 26
  27. ベルマン⽅程式と勾配 n = 1:とある終着点∗でアルゴリズムが停⽌. n 報酬に対して,以下のベルマン⽅程式が成り⽴つ: = + [ 5HA∗

    Pr(|) , for = 1, … , . n 経路ごとの分散()に対しても同様の⽅程式が成り⽴つ. n を遷移確率の⾏列.=を終着点∗に対応する列を0とした⾏列.つまり, , ∗ = 0. n 補題3.2: We have ∇ = − = ;)∇=, and ∇ = − = ;) ∇ + ∇= V , where ∇ = ∇=4 + 2= ∘ ∇ − 2= ∘ ∇= + =∇ . 27
  28. 勾配法による求解 n 罰則法:最適化問題 max , s. t. () ≤ 0,

    を無制約問題 max − に変換する.ここで,()は罰則関数 = max 0, 4, > 0. n 同様に,今回の問題は 3 = ∗ − Var ∗ − . となる.勾配法の回⽬のステップサイズをE とすると,勾配は E() = E + E ∇ ∗ − = x∗ − ∇ ∗ で与えられる. 28
  29. 勾配計算に伴う問題 n 状態空間が⼤きかったり,モデルが未知のときは勾配 ∇ = − = ;)∇= and ∇

    = − = ;) ∇ + ∇= の不偏推定量を得るためにはMDPのシミュレータが必要. n シミュレーションに基づく最適化 MDPをシミュレートが可能な時,∇と∇の不偏推定量は単⼀のtrajectoryから構築可能. ↑ likelihood ratio法(Baxter & Bartlett, 2001; Marbach & Tsitsiklis, 1998)と呼ばれる. ただし,∇の不偏推定量を得ることはできない. → two time-scale algorithmの提案. • とを先に推定する. • 次に,を更新する.の更新のスケールはとより遅くする. 29
  30. 勾配の推定に関する補題 n 補題4.2: We have ∇ = ! G;)∇ log

    ! G;) ∣ ! = . and ∇ = ! G;) 4∇ log ! G;) ∣ ! = − 2 ∇(), where the expectation is over trajectories. ここで,∇ log ! G;) = ∑E+! G;) ∇ log 2 E E . n 観測値! G;), ! G;), ! G;)と補題4.2を所与とすると,∇ ∗ の不偏推定量 • ∇ ∗ ≔ ! G;)∇ log ! G;) , を得る. ここで,との不偏推定量は • ∇(∗) ≔ ! G;)∇ log ! G;) and • ∇ = ! G;) 4∇ log ! G;) − 2 ∗ • ∇(∗) 30
  31. アルゴリズム n 各エピソード = 0,1,2, …ごとにパラメータを以下のように更新する. • z E() =

    z E + E E − z E . • ‘ E() = ‘ E + E E 4 − z E 4 − ‘ E . • E() = E + E E − = ‘ E − E 4 − 2z E ∇ log E . n 以下の定理によって収束が保証される. 31
  32. アルゴリズムの説明 n パラメータの更新 E() = E + E E −

    = ‘ E − E 4 − 2z E ∇ log E は, 価値関数などがわかっている真の更新式 E() = E + E ∇ ∗ − = ∗ − ∇ ∗ に基づく.ここで,∇と∇の不偏推定量は • ∇(∗) ≔ ! G;)∇ log ! G;) and • ∇ = ! G;) 4∇ log ! G;) − 2 ∗ • ∇(∗) 32
  33. A Block Coordinate Ascent Algorithm for Mean-Variance Optimization 33

  34. RLの定式化 n マルコフ決定過程: , , !, ""! # , ,

    • :状態の集合. • :⾏動の集合. • ! :初期の状態の分布. • ""! # :⾏動がとられたときに状態から状態′の遷移を特定する遷移カーネル. • , : × → ℝ:$%& でバウンドされる報酬関数. • 0 < < 1:割引率. n エージェントは2(⋅∣ )に従って⾏動を選択する. n ある期からその後に得られる報酬: ≔ ∑E+! G (E, E). • ≔ 1' . 34
  35. 制約付き最適化問題 n 以下のような経路ごとの分散を制約した最適化問題を解きたい: max 2 () , s. t. 1'

    ≤ . n 罰則法により 3 = 1' − 1' − = 1' − − 4 − . と変換する.ここで, ≔ 1' 4 . 35
  36. 座標降下法 n 座標降下法:座標降下法,および,ブロック座標降下法は,最適化問題を座標の⽅向と 座標の超平⾯に沿って変数を更新することで解く. n ⽬的関数: ℝI → ℝを各座標軸に沿って最適化する. •

    ベクトル* をi番⽬の要素が1,その他の要素が0である単位ベクトルとする. • 座標降下法の探索⽅向は±), … , ±I の中から選ばれる. n 探索法の選び⽅: • ⼀様ランダムに選ぶ⽅法. • 座標軸を巡回的に選ぶ⽅法. • 勾配∇の要素の絶対値が最⼤である座標軸を選ぶ⽅法. n 各反復で,座標(変数)を複数選ぶ座標降下法をブロック座標降下法と呼ぶ. 36
  37. 最適化が困難である理由 n 普通の確率勾配法を3 を最⼤化するためになぜ⽤いることができないのか. n パラメータに対して勾配∇23 ' を計算するとき, 2 ,

    2 , 2 , が必要. • 2 と2 :⽅策2 によって⽣み出されたtrajectoryによって,不偏推定量を得る ことができる(Tamer et al. (2012), Lemma 4). • 2 ()の計算:各状態-⾏動のペア(, )に対して,少なくとも⼆つの次の状態′をサ ンプルさせることを可能にするような,⽣成モデルへのアクセスが必要不可⽋. n Tamer et al. (2012)とPrashanth and Ghavamzadeh (2013)は更新するステップを多段階 に分ける⼿法を提案. • ⾮漸近的な解析ができない, • ステップサイズのスケジューリングが難しい,などの問題点がある. 37
  38. n 補題1:⼆次関数 = !に対して,Fenchel双対を = ! = max "∈ℝ 2

    − ! として定義す る. n とりあえず% ≔ + & !% ! − を考えると,% = '! ( % + & )%" − が得られる. ここで,や > 0が定数なので, % を最⼤化することは% を最⼤化することと同値. n 補題1より, = + & !% に対して, % = max " 2 + 1 2 − ! − . したがって,max ( % = max (," 7 % (, ).ここで, 7 % , = 2 + & !% − ! − . Fenchel双対による再定式化 38
  39. 平均分散⽅策降下 n max 2,5 • 3(, )( • 3 ,

    = 2 + ) 43 − 4 − )をとに関する座標降下法で解く. • ' 2と' 5をブロック勾配とし, w ' 2と w ' 5をその不偏推定量とする. • それぞれ以下のように定義される. ' 5 = w ' 5 = 2 ' + 1 − 2', w ' 5 = 2' + 1 − 2', ' 2 = w ' 2 = 2'()∇2 ' − ∇2 ' , w ' 2 = 2'() ' − ' 4 ' ' . n ブロック座標更新を '() = ' + ' 5 w ' 5と'() = ' + ' 2 w ' 2 とする. n それぞれのイテレーションごとに' 2と' 5の不偏推定量を得るために,' 2を計算する前に を更新する必要がある. 39
  40. 40

  41. 参考資料 n Prashanth and Ghavamzadeh,Actor-Critic Algorithms for Risk-Sensitive MDPs, NeurIPS

    2013. n Tamer and Castro, Policy Gradients with Variance Related Risk Criteria, NeurIPS 2012. n Xie, Liu, Xu, Ghavamzadeh, Chow, and Lyu, A Block Coordinate Algorithm for Mean- Variance Optimazation. NeurIPS 2018 n Bisi, Sabbioni, Vittori, Papini, and Restelli, Risk-Averse Trust Region Optimization for Reward-Volatility Reduction, AAAI 2020. n Zhang, Liu, and Whiteson, Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning, arXiv 2020. n 森村哲郎「強化学習」 n 強化学習の学習アルゴリズムの分類 https://note.com/npaka/n/n5a6bc4825555 41