Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Towards Assessing and Benchmarking Risk-Return ...

Haruka Kiyohara
December 01, 2023

Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE (日本語版)

ICLR2024採択論文の解説スライド
論文:https://arxiv.org/abs/2311.18207

パッケージ:https://github.com/hakuhodo-technologies/scope-rl
ドキュメンテーション:https://scope-rl.readthedocs.io/en/latest/
パッケージに関する論文:https://arxiv.org/abs/2311.18206

English version: https://speakerdeck.com/harukakiyohara_/towards-risk-return-assessment-of-ope

Haruka Kiyohara

December 01, 2023
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. オフ⽅策評価におけるリスクとリターン のトレードオフを評価する Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi,

    Kazuhide Nakata, Yuta Saito 清原 明加(Haruka Kiyohara) https://sites.google.com/view/harukakiyohara May 2024 Towards assessing risk-return tradeoff of OPE 1
  2. オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習

    – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 3
  3. オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習

    – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 4 特に、オフラインでの 方策評価について議論
  4. オフラインでの⽅策評価はなぜ重要なのか? オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。 May 2024 Towards assessing risk-return tradeoff of OPE

    6 オフ方策評価(Off-Policy Evaluation; OPE) データを使って、新たな方策の期待性能を 推定・評価し、方策選択に用いる (様々なハイパラ) (アルゴリズム) 良い⽅策が選べるかどうか? は重要!
  5. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •

    : 報酬 (reward) • : 時刻 • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 準備: 強化学習の問題設定 May 2024 Towards assessing risk-return tradeoff of OPE 9 ▼ 興味の対象
  6. オフ⽅策推定量の例 以降のスライドでは、以下の代表的な推定量からシンプルなものを紹介。 • Direct Method (DM) • (Per-Decision) Importance Sampling

    (PDIS) • Doubly Robust (DR) • (State-action) Marginal Importance Sampling (MIS) • (State-action) Marginal Doubly Robust (MDR) May 2024 Towards assessing risk-return tradeoff of OPE 11 注: DR と MDR の詳細については Appendix を参照
  7. Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。 利点: バリアンスが⼩さい。 ⽋点: ⼤きなバイアスが発⽣しうる( "

    𝑄が不正確な場合)。 May 2024 Towards assessing risk-return tradeoff of OPE 12 予測した状態行動価値 将来の時刻で得られる 累積報酬を予測 経験平均 (𝑛: データサイズ, 𝑖: インデックス)
  8. Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。 利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。

    ⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 Towards assessing risk-return tradeoff of OPE 13 重みづけ(= 各時刻での重みの総積)
  9. State-action Marginal IS (MIS) [Uehara+,20] バリアンス減少のため、MISは状態⾏動空間での周辺分布で重みづける。 利点: % 𝜌 が正確であれば不偏性を満たし、

    PDISよりバリアンスを減少する。 ⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 14 周辺分布上での重みづけ(重みを推定する必要あり) 状態⾏動の観測確率
  10. オフ⽅策評価のまとめ • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて 新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が

    バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。 そこで以降では、 実応用でより良い方策選択を行うために、推定量の性能をどう検証するか? について議論 May 2024 Towards assessing risk-return tradeoff of OPE 15
  11. オフ⽅策評価のまとめ • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて 新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が

    バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。 そこで以降では、 実応用でより良い方策選択を行うために、推定量の性能をどう検証するか? について議論 May 2024 Towards assessing risk-return tradeoff of OPE 16 今回は強化学習の設定を考えるが、 ⽂脈つきバンディットでも同様に考えられる!
  12. 既存の検証指標は全て “正確さ” に注⽬ May 2024 Towards assessing risk-return tradeoff of

    OPE 18 各指標の詳細はAppendixにて OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ” • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” • Regret – ⽅策の 選択 の “正確さ”
  13. 既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) –

    ⽅策の 評価(価値推定)の “正確さ” [Voloshin+,21] May 2024 Towards assessing risk-return tradeoff of OPE 19 推定結果 真の方策価値 ⼩さい⽅が良い
  14. 既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Rank correlation (RankCorr) – ⽅策の

    並べ替え の “正確さ” [Fu+,21] May 2024 Towards assessing risk-return tradeoff of OPE 20 1 2 3 4 5 6 7 推定した順位 真の順位 ⼤きい⽅が良い
  15. 既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Regret – ⽅策の 選択 の

    “正確さ” [Doroudi+,18] May 2024 Towards assessing risk-return tradeoff of OPE 21 真に最適な方策の価値 推定結果を基に選ばれた 方策の価値 ⼩さい⽅が良い
  16. 既存の検証指標は⼀つの⽅策を選ぶのには有益 既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 May 2024 Towards assessing risk-return tradeoff of OPE

    22 オフ方策評価(OPE)の結果を基に 直接最終的なデプロイ方策を選択する 低い MSE 高い RankCorr 低い Regret ベストに近い デプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証
  17. 既存の検証指標は⼀つの⽅策を選ぶのには有益 既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。 May 2024 Towards assessing risk-return tradeoff

    of OPE 23 オフ方策評価(OPE)の結果を基に 直接最終的なデプロイ方策を選択する 低い MSE 高い RankCorr 低い Regret ベストに近い デプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証
  18. 研究課題: 2段階⽅策選択でのOPEをどう評価する? 実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。 May 2024 Towards assessing risk-return tradeoff of

    OPE 24 ① ② ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果 も組み合わせて方策選択
  19. 実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。 既存の評価指標では上位 𝒌 個の⽅策選択のためのOPEの性能検証をし得る? May 2024 Towards assessing risk-return tradeoff

    of OPE 25 ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果 も組み合わせて方策選択 A/Bテスト時の安全性も考慮したい! 研究課題: 2段階⽅策選択でのOPEをどう評価する? ① ②
  20. 既存指標では⼤きく異なる推定量を区別できない (1/2) 既存の3つの性能検証指標はどれも推定量 X と Y を同様に評価。 既存の性能検証指標では、過小評価 vs. 過大評価

    を評価できない。 May 2024 Towards assessing risk-return tradeoff of OPE 26 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。
  21. 既存指標では⼤きく異なる推定量を区別できない (2/2) 既存の3つの性能検証指標はどれも推定量 W と Z を同様に評価。 既存の性能検証指標では、保守的 vs.ハイリスク を評価できない。

    May 2024 Towards assessing risk-return tradeoff of OPE 27 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。
  22. 既存の性能検証指標のまとめ • 既存の性能検証指標はOPEとそれに基づく⽅策選択の “正確さ” を検証する。 • しかし、既存の指標は実⽤上で上位 𝑘 個の⽅策を選ぶ場⾯では機能しない。 •

    性能の悪い⽅策をデプロイするリスクを評価できない。 • ⼤きく異なる2つの推定量 (過⼩評価 vs. 過⼤評価 / 保守的 vs. ハイリスク) を区別できない。 どうすれば上位 𝑘 個の方策を選ぶ際のオフ方策推定量の性能を検証できる? May 2024 Towards assessing risk-return tradeoff of OPE 28
  23. 提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of

    OPE 31 オフ⽅策評価の結果選ばれた 上位 𝑘 個の⽅策集合で⼀番良い⽅策の性能 選ばれた上位 𝑘 個の ⽅策の標準偏差
  24. 提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of

    OPE 32 リスクなしで達成できる性能からの増分のリターン A/Bテスト中に性能の悪い⽅策をデプロイするリスク
  25. SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE

    33 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ?
  26. SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE

    34 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ? A/B test
  27. SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE

    35 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0
  28. 上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE

    36 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75
  29. 上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE

    37 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75 SharpeRatio = 1.0 / 0.75 = 1.33..
  30. 上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE

    38 SharpeRatio = 1.33.. policy OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92..
  31. 上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE

    39 SharpeRatio = 1.33.. policy OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92.. 性能の悪い方策をデプロイするリスクが低い
  32. SharpeRatioはより情報量の多い性能検証を⾏う (1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは 過小評価 vs. 過大評価 を区別できるのか? May 2024

    Towards assessing risk-return tradeoff of OPE 41 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。
  33. SharpeRatioはより情報量の多い性能検証を⾏う(2/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは 保守的 vs. ハイリスクハイリターン を区別できるのか? May 2024 Towards

    assessing risk-return tradeoff of OPE 43 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。
  34. SharpeRatioはより情報量の多い性能検証を⾏う(1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatio は 効率的 な推定量を 前提条件 を加味して選べる! May 2024

    Towards assessing risk-return tradeoff of OPE 44 (ベースラインとなるデータ収集方策の性能のこと) ベースラインの性能が高い ベースラインの性能が低い 保守的な推定量は性能の悪い⽅策をデプロイしにくい ハイリスクはベースラインを改善しやすい
  35. gymの環境を使った実験 SharpeRatioと既存指標による性能検証結果は、場合によってはかなり異なる。 May 2024 Towards assessing risk-return tradeoff of OPE

    45 注: この実験では推定量の⽤いる重みを正規化している。 SharpeRatio は k=2,..,4 では PDIS k=6,..,11 では DM を高く評価 MSEとRegretは MIS を、RankCorrは DM を高く評価 また、RankCorrは PDIS を MDR より高く評価
  36. gymの環境を使った実験(考察) SharpeRatioは性能の悪い方策をデプロイするリスクをきちんと考慮できている! May 2024 Towards assessing risk-return tradeoff of OPE

    46 • MSEやRegretの選んだ MIS は小さな 𝑘 の時に非常に性能の悪い方策をデプロイ。 • RankCorrは比較的安全な DM を選べてはいたが, 𝑘 ≥ 5 で高リスクな PDIS を MDR より高評価。 • SharpeRatio はリターンをリスク(std)で割引評価することで、安全性を考慮して評価できる。
  37. まとめ • 実務でのオフ⽅策評価は、A/Bテストに使う上位 k 個の⽅策を選ぶ “スクリーニング”の機能を果たすことが多い • 提案したSharpeRatioは、A/Bテスト時のリスクとリターンのトレードオフ における効率性を基に性能検証する •

    SharpeRatio を使えばより安全な推定量を選んだり、ベースライン⽅策の性能 に合わせてより効率的な推定量を選んだりすることができる SharpeRatioは既存の指標よりも有益で情報量の多い性能検証を可能に! May 2024 Towards assessing risk-return tradeoff of OPE 47
  38. 論⽂情報 May 2024 Towards assessing risk-return tradeoff of OPE 50

    1. “Towards Assessing and Benchmarking the Risk-Return Tradeoff of Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18207 2. “SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18206
  39. ⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 May 2024 Towards assessing

    risk-return tradeoff of OPE 52 資産価値 資産価値 時点 時点 購⼊ 評価期⽇ 評価期⽇ 購⼊ 収益 収益 最終益は⼤きくはないが、堅実に⿊字に 最終益は⿊字だが、賭け事のように振れ幅が⼤きい
  40. ⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分)

    / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。 May 2024 Towards assessing risk-return tradeoff of OPE 53
  41. ⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分)

    / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。 本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 54 考え⽅を応⽤
  42. ⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分)

    / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) SharpeRatio = (A/B..による方策価値の増分) / (A/B..中の方策価値のばらつき) = ( A/B..で選ばれた方策の性能 – A/B..前の性能 ) / (A/B..での𝑘個の方策価値のstd) 本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 55
  43. 様々な環境でのSharpeRatioと既存指標の⽐較 May 2024 Towards assessing risk-return tradeoff of OPE 56

    7つの強化学習環境において、5つのオフ⽅策推定量の性能を、 10個のrandom seedを⽤いて評価し、その傾向を分析。 SharpeRatioと既存指標はある程度相関するが、必ずしも⼀致しない (既存指標ではリスクを考慮していないため)
  44. 実験の設定 • Gym-ClassicControl [Brockman+,16] の中でも MountainCar を使⽤。 • データ収集⽅策は DDQN

    [Hasselt+,16] により学習されたQ関数に基づくsoftmax⽅策。 • オフ⽅策評価する候補⽅策は CQL [Kumar+,20] と BCQ [Fujimoto+,19] に基づく ε-greedy ⽅策。 • オフ⽅策評価では FQE [Le+,19] を % 𝑄 の学習に、BestDICE [Yang+,20] を ' 𝜌 の学習に⽤いる。 • バリアンスを軽減するため、オフ⽅策推定量の重みは正規化する。[Kallus&Uehara,19] • DDQN, CQL, BCQ, FQE のアルゴリズム実装は d3rlpy [Seno&Imai,22] のものを使⽤。 May 2024 Towards assessing risk-return tradeoff of OPE 58 詳細は論文を参照
  45. 重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 59

    評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 評価⽅策 データ収集⽅策 action A action B 多い 少ない 少ない 多い
  46. 重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 60

    重みづけにより action Aを仮想的に増やす 評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 action A action B 評価⽅策 データ収集⽅策 多い 少ない 少ない 多い
  47. 重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 61

    しかし重みが大きいと バリアンスも大きくなってしまう 評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 ranking A 多い 少ない 評価⽅策 データ収集⽅策
  48. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 Towards assessing

    risk-return tradeoff of OPE 62 (再帰的な表記) 報酬予測の残差にのみ 重点サンプリングを適用 時刻 𝑡 以降の⽅策価値
  49. State-action Marginal DR (MDR) [Uehara+,20] MDRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。 利点: % 𝜌 か

    " 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。 ⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 64 残差に対して周辺分布上での重みづけを適用する
  50. 参考⽂献 (1/4) [Le+,19] Hoang M. Le, Cameron Voloshin, Yisong Yue.

    “Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 [Precup+,00] Doina Precup, Richard S. Sutton, Satinder Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16] Nan Jiang, Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16] Philip S. Thomas, Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 May 2024 Towards assessing risk-return tradeoff of OPE 68
  51. 参考⽂献 (2/4) [Uehara+,20] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax

    Weight and Q- Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 [Kallus&Uehara,19] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 [Brockman+,16] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 [Voloshin+,21] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 Towards assessing risk-return tradeoff of OPE 69
  52. 参考⽂献 (3/4) [Fu+,21] Justin Fu, Mohammad Norouzi, Ofir Nachum, George

    Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “SCOPE-RL: A Python Library for Offline Reinforcement Learning, Off-Policy Evaluation, and Policy Selection.” 2023. [Hasselt+,16] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 May 2024 Towards assessing risk-return tradeoff of OPE 70
  53. 参考⽂献 (4/4) [Kumar+,20] Aviral Kumar, Aurick Zhou, George Tucker, and

    Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Fujimoto+,19] Scott Fujimoto, David Meger, Doina Precup. “Off-Policy Deep Reinforcement Learning without Exploration.” ICML, 2019. https://arxiv.org/abs/1812.02900 [Yang+,20] Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans. “Off- Policy Evaluation via the Regularized Lagrangian.” NeurIPS, 2020. https://arxiv.org/abs/2007.03438 [Seno&Imai,22] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Sharpe,98] William Sharpe. “The Sharpe Ratio.” Streetwise – the Best of the Journal of Portfolio Management, 1998. May 2024 Towards assessing risk-return tradeoff of OPE 71