解説:Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional Important Sampling

解説:Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional Important Sampling

ICML2020の論文の解説.

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

July 26, 2020
Tweet

Transcript

  1. Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional

    Important Sampling Yao Liu, Pierre-Luc Bacon, and Emma Brunskill https://proceedings.icml.cc/static/paper_files/icml/2020/924-Paper.pdf ICML 2020 読:加藤真⼤ 6⽉20⽇
  2. 概要 n オフ⽅策での⽅策推定には重要度サンプリング(IS)が⽤いられるが,long-horizonな強化 学習のタスクでは⾼い分散に苦しむ. → マルコフ決定過程の性質をうまく使ったISの開発が⾏われてきた. • 条件付きモンテカルロの観点から,主要なアプローチの分散を計算. n 有限MDPにおいて,⼯夫されたISの分散削減効果はない場合があることが分かった.

    • どのような状況で分散が削減されるかについて,その条件を検討. • Per-decision ISとstationary ISと呼ばれるものと,通常のISと⽐較. n 有限期間において,⼯夫を加えたISが分散を削減する条件を確認. n 推定量の分散ごとにhorizon の⻑さに対する依存を調べる. 2
  3. 導⼊① n オフ⽅策(Sutton & Barto, 2018)の⽅策評価は,異なる⽅策によって⽣成されたサンプル の分布から,与えられたターゲット⽅策の期待リターンを推定する問題. n マルコフ意思決定過程では,この問題は重要度サンプリング(IS)(Rubinstein, 1981)に

    よって早くから対処されてきた(Precup et al., 2000; Peshkin & Shelton, 2002). But ナイーブなIS推定量は⾼い分散に苦しむ. n Per-decision IS(PDIS)推定量は,時系列の性質をうまく使ってこの問題を緩和する. 3
  4. 導⼊② n ISもPDISも,基礎となる問題がマルコフ構造であることを前提としていない. n 最近では,マルコフ構造を活⽤する新しいクラスの推定量(Hallak & Mannor, 2017; Liu et

    al., 2018; Gelada & Bellemare, 2019)が提案されている. • これらのアプローチでは,特定の⽅策について,対応するマルコフ連鎖によって⽣成さ れる定常状態-⾏動分布上で重要度サンプリング(SIS)を実⾏することを提案. • Trajectoryに沿った尤度⽐の積を避けることで,定常分布に基づく⽐は結果として得られ る推定量の分散を⼤幅に減少させ,それによってオフ⽅策評価を悩ませている「Curse of Horizon」(Liu et al., 2018)を克服することができるという仮説が⽴てられている. n しかし,IS、PDIS、SISの精度についての正式な分析は⾏われていなかった. 先⾏研究の実験結果では,SIS推定量が最も精度が⾼く、次いでPDIS、IS推定量と続くこ とが⽰唆されている. 4
  5. 導⼊③ n 3つの推定量がすべて条件付き期待値のインスタンスであることに注意して,分散が削減 されると⾔う結果が⾃然であることを説明する. • とが = = であるような定義された確率変数である場合,の条件付き モンテカルロ推定量は

    である. • 全分散の法則https://en.wikipedia.org/wiki/Law_of_total_variance Var = Var( ∣ ) + Var . により,条件付きモンテカルロ推定量 の分散はの分散よりも⼤きくならない. But XとYが確率変数の系列で,[∑!"# $ !]を推定したい時,拡張条件付きモンテカルロ推定 量 ∑!"# $ [! ∣ !]は,共分散の和の存在のため分散が削減されるとは限らない. 5
  6. 問題設定 n マルコフ決定過程(MDP) 割引はあってもなくても良い(割引がない場合の有限期間のMDPを考える). n MDPはタプル , , , #,

    , , で表される. • ⊂ ℝ%:状態空間. • :⾏動空間. • ∣ , :遷移確率. ⊂ , ∈ , ∈ . • ! , : ×× ↦ [0,1]:報酬関数. • ∈ [0,1]:割引因⼦. 簡単化のため,に関連づけられる確率密度を(& ∣ , )と表記する. n (! ∣ !)と(! ∣ !):ターゲット⽅策と⾏動⽅策に紐づく確率. n 仮定:' ( < ∞. 6
  7. ⽬的 n ターゲット⽅策の価値: ' ≔ ' K !"# $ !)#!

    . • #:$ = !, !, ! !"# $ :ステップまでのtrajectory. • どの⽅策に基づくサンプル/期待値であるかはとの添字で表す. 7
  8. 分布⽐の表記 n 1ステップ尤度⽐とステップ尤度⽐: ! = (! ∣ !) (! ∣

    !) , #:$ = N !"# $ ! n ⾏動⽅策のもとでのステップ状態分布と定常分布: ! ( , = Pr ! = , ! = # ∼ #, + ∼ + + ,,#:$ ( , = ∑!"# $ !! ((, ) ∑!"# $ ! , , ( = lim $→/ ,,#:$ ( . • 表記の簡単化のため, = 1のときは,,#:$ ( のを落として, (とする. • 周辺状態分布を( = ∫ 0 ( , とする.同様に'を定義する. n でとのKL距離を表す.つまり, = 12 ∥ である. 8
  9. 重要度重み付けの種類 n 通常のIS(IS): Y 34 = #:$ K !"# $

    !)#! . n Per-decision importance sampling(PDIS) Y 5634 = K !"# $ !)# !#:!. n Stationary importance sampling(SIS) Y 434 = K !"# $ !)#! ! '(!, !) ! ((!, !) . 9
  10. 重要度重み付けの性質とSISの種類 n すべての推定量は不偏. n この論⽂のSISの定義は,定常分布ではなく,時間に依存する状態分布の重要度の⽐に基 づいている. ! ( , =

    Pr ! = , ! = # ∼ #, + ∼ + + • 定常分布に基づくSIS:Liu et al., 2018とHallak and Mannor, 2017. • 時間に依存する状態分布に基づくSIS:Xie et al., 2019とこの論⽂. なぜ?→有限horizonと無限horizonを同時に扱えるようにする. n 漸近的性質は%! "(8!,0!) %! #(8!,0!) は定常分布の⽐と同じになる. 10
  11. 仮定 n 仮定1:Harris ergodic. ⽅策のもとで{!, !}のマルコフ連鎖はHarris ergodicであるとする.つまり,マルコフ連 鎖はaperiodic,-irreducible,そしてpositive Harris recurrentであるとする.

    • 詳細はMeyn & Tweedie, 2012 第9章参照 http://probability.ca/MT/BOOK.pdf n 仮定2:Drift property. 以下の不等式が成⽴するような有界な関数: × ↦ [1, ∞),定数 ∈ (0,1), < ∞,そし て ⊂ ×が存在する: 8$,0$∣8,0 &, & ≤ , + 1 , ∈ . 11
  12. 分散が不安定化する理由の直観 n 分布⽐の乗法的性質により分散の問題が⽣じている. → 積#:$ = ∏!"# $ ! に使われている要素を減らせば良いのでは.

    n この直観はミスリーディング. • 通常のISと⽐較して分散が⼩さくならないような期間の短いMDPを構築できる. 以下にその反例を⽰す. → この事象の原因は,拡張条件付きモンテカルロ法を⽤いて論⽂の第4章で説明される. n 分散が⼩さくならない背景には,各期の共分散項の存在がある. ↔それでも漸近的( → ∞)にはSISが通常のISよりも⼩さい分散を達成する. 12
  13. 反例 n 詳細は省くが,Example 1a ~ Example 1 cまでの例を⽰す. • どの推定量が⼀番良いかについて整合性がない.

    13
  14. 条件付き重要度重み付け n IS推定量の不偏性: #:$ K !"# $ !)#! = '

    K !"# $ !)#! = '. ここで,$ を総報酬∑!"# $ !)#! とする. n $ をそれで条件づけると#:$ と$ が独⽴になるような統計量であるとする.すると, #:$$ = #:$$ $, $ = $ #:$ $, $ = $ #:$ $ , Var $ #:$ $ = Var $#:$ − Var $#:$ $, $ = Var $#:$ − $ ;Var #:$ $, $ . 分散の計算には全分散の法則を⽤いた. n 分散に関して,第⼆項は⾮負であるので, $ #:$ $ ≤ $#:$ . 14
  15. 拡張条件付き重要度重み付け n 全期間で固定された統計量$ ではなくstageに依存する統計量で条件づける. → 拡張条件付きモンテカルロ法と呼ばれる推定量を得ることができる. n ! は! を与えると#:$

    と独⽴になるとする.このとき ' = $#:$ = K !"# $ !)#[[!#:! ∣ !, !]] = K !"# $ !)#! #:! ! . • この形式の推定量を拡張条件付き重要度重み付け推定量と呼ぶことにする. • この推定量はPDIS推定量とSIS推定量を包含している. 15
  16. PDISとSISの導出 n この枠組みでPDIS推定量を構築する.! を履歴#:! とする. ' = K !"# $

    !)#! #:! ∣ #:! = K !"# $ !)#!#:! . • ここで,マルチンゲールの性質から #:! #:! = #:! が成り⽴つ. n 同様に,! = (!, !)として,SISを導出する. ' = K !"# $ !)# ![#:! ∣ !, !] = K !"# $ !)#! ! ' !, ! ! ( !, ! . • [#:! ∣ !, !]と%! " 8!,0! %! # 8!,0! の関係を⽰すために以下の補題が必要となる. n 補題1: #:! !, ! = %! " 8!,0! %! #(8!,0!) . 16
  17. 補題1の証明 17

  18. : の条件付き期待値 n 条件付き重み[#:! ∣ !, !]の不偏推定量が使えるとする. • 条件付き重み付け推定量も不偏推定量となる. n

    しかし,全体分散の法則はもはや分散削減を⽰唆していない. • なぜなら,いま分散は Var K !"# $ !! = K !"# $ Var !! + K <=! Cov <<, !! . となっているからである.ここで,! = [!)##:! ∣ !] 18
  19. 有限Horizon分析 反例によると,⾊々なIS推定量の分散削減効果に⼀貫性はない. n どのような状況でVar Y 5634 ≤ Var(Y 34),Var Y

    434 ≤ Var(Y 5634)となるかを調べる. • まず,以下の有⽤な補題を⽰す. n 補題2: ! と! を確率変数とする.このとき, Var K ! ! − Var K ! ! ! ≥ 2 K !>< !< − K !>< ! ! < ∣ < • 各stage毎の分散削減効果は,共分散∑!>< !< と∑!>< ! ! < ∣ < の差に依 存する.これよりPDISとSISの分散削減効果を導くことができる. 19
  20. PDISの分散削減 n 定理1(PDISの分散削減): 任意の1 ≤ ≤ ≤ と初期状態に対して,?:<()と! ?:<()が正の相関を持っている. Var

    Y 5634 ≤ Var(Y 34). • この定理は,尤度⽐と重要度で重み付けれたリターンの間に正の相関がある場合,PDIS 推定量の分散の減少を保証する. • 尤度⽐が⼤きいtrajectoryに対して,重要度重み付けリターン(リターンの不偏な推定量 である)が正の相関を持つ場合,ランダム変数?:<()と! ?:< は正の相関を持つ? 20
  21. SISの分散削減 n 定理2(SISの分散削減): 任意の固定された1 ≤ ≤ ≤ に対して, Cov #:!!,

    ?:<< ≥ Cov ! ' , ! ( , !, < ' , < ( , < ならば,Var Y 434 ≤ Var Y 5634 . • この定理は,SIS推定量とPDIS推定量の間の分散の相対的な順序が,時間ステップ間の 共分散項の順序に依存することを暗⽰する. • が⾮常に⼤きい場合,右の共分散はゼロに⾮常に近く,左の共分散が正であれば(これ は多くのMDPで成⽴する)では,SIS推定量の分散はPDIS推定量よりも⼩さくなる. 21
  22. 漸近解析 n 第3節では,⼀般的なケースでは分散削減が保証されないことを確認した. n 以下では,ある条件の下で,horizon → ∞という極限において,PDISとSISの分散削減 がうまく機能することを⽰す. • これらの新しい結果に照らすと,⾮常に⻑いhorizonでは,これらの推定量は通常のIS推

    定量と⽐較して有利になると予想される. • これは,前節で導かれた⼗分条件によっても⽰唆されている観察である. n 以下の議論では, のオーダーに着⽬して分散のバウンドを考える. • まず,通常のIS推定量の分散はに関して指数関数的であることを⽰す. • PDIS推定量については,分散が少なくともに関して指数関数的,または最⼤でも多項 式になる条件を提⽰する. 22
  23. 重要度重み付けの漸近分布 まず,以下の漸近的性質を⽰す. n 定理3: 仮定1のもとで,log '(0∣8) ((0∣8) が(, )の連続関数であるならば, lim@

    #:$ #/$ = )B, lim sup $ Y 34 # $ < )B . . n 系1: 定理3と同じ条件のもとで, #:$ → 0 . ., #:$ K !"# $ !)#! → 0 . . • 推定量は不偏かつゼロに概収束する.定理3は指数的に⼩さい項exp(−)で収束するこ とも⽰すことができる.つまり,多くの場合,ほとんどの場合で報酬はゼロであり,' の推定は困難である. 23
  24. 対数尤度⽐とマルチンゲール IS推定量の分散がhorizonの⻑さに対し指数的であることも⽰す.以下の仮定を置く. n 仮定3: log ! < ∞. IS推定量の分散を特徴づける前に,対数尤度⽐がマルチンゲールであることを⽰す. n

    補題3: 仮定1-3のもとで,以下を満たすような関数 w : × → ℝが存在する: 1. ∀ , ,定数に対して w , < # , . 2. 任意の > 0に対して,log #:$ + − w #, # + w $C#, $C# は,系列 !, ! !"# $ に対 して平均ゼロのマルチンゲール.マルチンゲール階差は2# / で抑えられる. 24
  25. IS推定量の分散 最初に,IS推定量の分散の上下界を⽰す. n 定理4: 仮定1-3のもとで,以下が成り⽴つような? > 0が存在する.すべての > ? に対し,

    Var Y 34 ≥ ' ; 4 exp ; 8# ; / − ' ; が成り⽴つ,ここで,は仮定2で定義されている.# は補題3で定義されている定数. = %#[12( ∥ )].任意のに対して0∼( ' s % ( % ≤ E ;であるならば,Var Y 34 ≤ ;;$ − ' ;. • 下界はhorizonとKL距離に対して指数的に増加する. 25
  26. PDIS推定量の性質① 次に,PDIS推定量の分散の上下界,期待報酬,MDPのその他の性質を⽰す. n 定理5(PDIS推定量の分散): 仮定1-3のもとで,∃? > 0,. . ∀ >

    ? , Var Y 5634 ≥ K !"$& $ ;!); ' ! ; 4 exp ; 8# ; / − ' ;. ここで,# とは定理4の定数であり,は適当な定数である.上界に対して, 1. 任意のに対して0∼( ' % ( % ≤ E ;なら,Var Y 5634 ≤ ∑!"# $ E ;! ;!); − ' ;. 2. F = sup8,0 '(0∣8) ( < ∞とする.このとき,Var Y 5634 ≤ ∑!"# $ E ;!;!);( ! ; − ' ; . 26
  27. PDIS推定量の性質② 定理5から,PDIS推定量が悪くても指数オーダーに,場合によっては多項式オーダーにな る条件を導くことができる. n 系2: 定理5が成⽴するとする.以下が成⽴するならVar Y 5634 = Ω

    exp . 1. ≥ exp )B% #GB' % H ( ; 2. 以下が成り⽴つような > 0が存在する: ' ! = Ω exp − ; 16# ; / + log − /2 . • この系は,が⼗分1に近く,期待報酬が指数的に減衰する時に, Y 5634 の分散は指数オー ダーであることを⽰している. • 系2の⼆つ⽬の条件は,!(, )が時間に依存せず,%" , > 0なら満たされる. 27
  28. PDIS推定量の性質③ n 系3: E = sup8,0 '(0∣8) ((0∣8) とする.E ≤

    1もしくはElim $ $ #/$ < 1なら,Var Y 5634 = ; . • この系は,と'[!]が⼗分速く減少する時,PDISの分散が多項式オーダーになることを ⽰している. • これは指数的な通常のISを⼤きく改善することが⾒込まれることを意味している. 28
  29. SIS推定量の性質① 次に,SIS推定量の性質を⽰す. n 定理6(SISの分散): Var Y 434 ≤ K !"#

    $ !)# ! ' !, ! ! ( !, ! ; − 1` . • この定理においては, ; に近づくが, %! " 8!,0! %! # 8!,0! ; はまだに依存している • 直観的には,定常分布の⽐が有界であるという仮定でこの定理が成り⽴つ. なぜなら, → ∞で, ! ( !, ! と! ' !, ! が(と'に近づくからである. 29
  30. SIS推定量の性質② 以上のアイデアを証明するために以下の定義と系を導⼊する. n 定義1(漸近的同程度連続): 任意の > 0に対して,すべての > と #,

    ; ≤ に対して, ! # − ! ; ≤ が成り⽴つような, > 0が存在する時,関数系列!: ℝ% ↦ ℝは漸近的同程度連続である. l 系4: ! ((!)と! '(!)が漸近的同程度連続,%" 8 %#(8) ≤ 8 ,そして,' ((0∣8) ≤ E なら. Var Y 434 = ; . • 定常分布の⽐とone stepの分布の⽐が有界ならSISが ; であることを⽰している. 30
  31. SIS推定量の性質③ 次に,定常分布の⽐%! " 8!,0! %! # 8!,0! を! !, !

    で近似することを考える. n ! !, ! を使うSIS推定量を以下に定義する. Y I434 = K !"# $ !)#! , ! • この推定量は不偏ではないが,以下の系を⽰すことができる. n 系5:系4と同じ条件で,( ! !, ! − %! " 8!,0! %! # 8!,0! ; ≤ J が成り⽴つような! のもと で,Y I434 のMSEは ; 1 + J . 31
  32. 関連研究① n このように重要度⽐を条件付き期待値に置き換えるという考え⽅は,Hesterberg, 1988 の論⽂の中で,条件付き重み付けという名前で、条件付きモンテカルロ法の⼀例として 紹介されている. • ここでは,Hesterberg, 1988の論⽂よりも⼀般的な条件付き独⽴性の仮定の下で,拡張 条件付きモンテカルロ法から⽣じる重要度サンプリング推定量のクラスを検討する.

    • また,PDIS推定量とSIS推定量で使われている「条件付き」形式については、Liu et al., 2018の付録Aで議論されており,著者らはRao-Blacklackwellizationのより厳格な概念と の潜在的な関連性を仮定している. 32
  33. 関連研究② n 拡張条件付きモンテカルロ法はBratley et al., 1987に始まる. n Glasserman, 1993は,拡張条件付きモンテカルロ法をより⼀般的にフィルター付きモン テカルロ法という名前で研究している.

    • 第5節の分散削減のための⼗分な条件は,Glasserman, 1993の定理3.8,Glynn & Iglehart, 1988の定理12,Ross, 1988の310ページの主な定理,Bratley et al., 1987の演習 2.6.3と密接に関連している. • 第6節の結果は、Glynn et al., 1996; Glynn & Olvera-Cravioto, 2019の証明技法の要素を 使⽤しているが,研究の⽂脈は異なる. • この論⽂の設定における重要度サンプリング⽐の積が重なる構造は,これらの先⾏研究 結果をこの論⽂の設定に直接適⽤することを不可能にしている. 33
  34. 関連研究③ n Voloshinら(2019)はSIS推定量が通常のIS推定量やPDIS推定量よりも精度の低い推定値を もたらす可能性があることを経験的に観察した. この論⽂の分析では,それぞれの推定量の精度が条件次第であることを⽰した. n Kallus & Uehara (2019b)による研究では,セミパラメトリック推論から「double」機械

    学習(Kallus & Uehara, 2019a; Chernozhukovら, 2016)のアイデアを活⽤して,SIS推 定量を⽤いた分散の制御の研究をしている. 34
  35. まとめ n この論⽂の分析は、SIS推定量は、PDIS推定量を改善する,と思われていた考えに新た な光を与えている. • 第3節で⽰されているように,短い(有限)horizonの設定では、SIS推定量がPDIS推定 量よりも理論的に悪く,両⽅とも通常のIS推定量よりも悪いMDPが存在しうる. • この現象をよりよく理解するために,この論⽂は拡張条件付きモンテカルロ法に対する PDIS推定量とSIS推定量の新たな関係を確⽴した.

    n 第6節の定理を通して,SIS推定量の既知の経験(実験)的成功と理論を整合させる. • いくつかの仮定の下で、PDIS椎定量とSIS推定量に関する直観が漸近的に保持され,そ れらの分散が,通常のIS推定量の指数関数的ではなく,多項式になりうる. • さらに,SIS推定量の分散がPDIS推定量の分散よりも証明的に低い条件が存在すること が,いくつかの系を通して⽰されている. 35
  36. 参考⽂献 • Yao Liu, Pierre-Luc Bacon, and Emma Brunskill, Understanding

    the Curse of Horizon in Off-Policy Evaluation via Conditional Important Sampling, ICML 2020. そのほかの論⽂は上の⽂献から探してください. 僕の感想:共分散の存在で分散が減るかどうかを議論している.当たり前といえば当たり 前すぎるので,誰もやろうとしていなかった分野をやった論⽂. 有限horizonと無限horizonとに状況を分けることで,推定量の優位性について.それぞれ で違う結果が得られていることは⾯⽩い. 誤植が多くてとても読みにくい. 36