Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE （日本語版）

オフ⽅策評価におけるリスクとリターンのトレードオフを評価する Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi,
Kazuhide Nakata, Yuta Saito 清原明加（Haruka Kiyohara） https://sites.google.com/view/harukakiyohara May 2024 Towards assessing risk-return tradeoff of OPE 1

連続的な意思決定を最適化したい場⾯は数多く存在医療における連続的意思決定の例強化学習（Reinforcement Learning; RL）の問題として意思決定を最適化したい May 2024 Towards assessing risk-return
tradeoff of OPE 2 他にも応⽤事例は⾄る所に • ロボティクス • ⾃動運転 • 商品推薦 • 教育 • …

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習
– • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 3

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習
– • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 4 特に、オフラインでの方策評価について議論

オフラインでの⽅策評価はなぜ重要なのか？オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。 May 2024 Towards assessing risk-return tradeoff of OPE
5 (様々なハイパラ) (アルゴリズム)

オフラインでの⽅策評価はなぜ重要なのか？オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。 May 2024 Towards assessing risk-return tradeoff of OPE
6 オフ方策評価（Off-Policy Evaluation; OPE）データを使って、新たな方策の期待性能を推定・評価し、方策選択に用いる (様々なハイパラ) (アルゴリズム) 良い⽅策が選べるかどうか？は重要！

このスライドでお伝えすること • 強化学習におけるオフ⽅策評価 • オフ⽅策評価⼿法の性能検証をするための従来の指標の問題点 • 提案⼿法: SharpeRatio@k によるリスク・リターンのトレードオフ評価 •
事例の紹介: なぜ SharpeRatio@k を使うべきなのか？ May 2024 Towards assessing risk-return tradeoff of OPE 7

オフ⽅策評価 May 2024 Towards assessing risk-return tradeoff of OPE 8

⽅策評価においては、⾏動選択（意思決定）を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •
: 報酬 (reward) • : 時刻 • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 準備: 強化学習の問題設定 May 2024 Towards assessing risk-return tradeoff of OPE 9 ▼ 興味の対象

オフ⽅策評価で推定したいのは期待報酬ある⽅策 𝜋 をデプロイした際の、累積報酬の期待値（⽅策価値）を推定したい。 May 2024 Towards assessing risk-return tradeoff
of OPE 10 オフ方策推定量過去のデータ収集⽅策が集めた蓄積データ反実仮想と分布シフトの問題

オフ⽅策推定量の例以降のスライドでは、以下の代表的な推定量からシンプルなものを紹介。 • Direct Method (DM) • (Per-Decision) Importance Sampling
(PDIS) • Doubly Robust (DR) • (State-action) Marginal Importance Sampling (MIS) • (State-action) Marginal Doubly Robust (MDR) May 2024 Towards assessing risk-return tradeoff of OPE 11 注: DR と MDR の詳細については Appendix を参照

Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。利点: バリアンスが⼩さい。⽋点: ⼤きなバイアスが発⽣しうる（ "
𝑄が不正確な場合）。 May 2024 Towards assessing risk-return tradeoﬀ of OPE 12 予測した状態行動価値将来の時刻で得られる累積報酬を予測経験平均 (𝑛: データサイズ, 𝑖: インデックス)

Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。
⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 Towards assessing risk-return tradeoﬀ of OPE 13 重みづけ（= 各時刻での重みの総積）

State-action Marginal IS (MIS) [Uehara+,20] バリアンス減少のため、MISは状態⾏動空間での周辺分布で重みづける。利点: % 𝜌 が正確であれば不偏性を満たし、
PDISよりバリアンスを減少する。⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 14 周辺分布上での重みづけ（重みを推定する必要あり）状態⾏動の観測確率

オフ⽅策評価のまとめ • オフ⽅策評価（OPE）では、オフラインデータのみを⽤いて新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が
バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。そこで以降では、実応用でより良い方策選択を行うために、推定量の性能をどう検証するか？について議論 May 2024 Towards assessing risk-return tradeoff of OPE 15

オフ⽅策評価のまとめ • オフ⽅策評価（OPE）では、オフラインデータのみを⽤いて新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が
バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。そこで以降では、実応用でより良い方策選択を行うために、推定量の性能をどう検証するか？について議論 May 2024 Towards assessing risk-return tradeoff of OPE 16 今回は強化学習の設定を考えるが、⽂脈つきバンディットでも同様に考えられる！

既存の性能検証指標の問題点 May 2024 Towards assessing risk-return tradeoff of OPE 17

既存の検証指標は全て “正確さ” に注⽬ May 2024 Towards assessing risk-return tradeoff of
OPE 18 各指標の詳細はAppendixにて OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) – ⽅策の評価（価値推定）の “正確さ” • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” • Regret – ⽅策の選択の “正確さ”

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) –
⽅策の評価（価値推定）の “正確さ” [Voloshin+,21] May 2024 Towards assessing risk-return tradeoff of OPE 19 推定結果真の方策価値⼩さい⽅が良い

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Rank correlation (RankCorr) – ⽅策の
並べ替えの “正確さ” [Fu+,21] May 2024 Towards assessing risk-return tradeoff of OPE 20 1 2 3 4 5 6 7 推定した順位真の順位⼤きい⽅が良い

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Regret – ⽅策の選択の
“正確さ” [Doroudi+,18] May 2024 Towards assessing risk-return tradeoff of OPE 21 真に最適な方策の価値推定結果を基に選ばれた方策の価値⼩さい⽅が良い

既存の検証指標は⼀つの⽅策を選ぶのには有益既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 May 2024 Towards assessing risk-return tradeoff of OPE
22 オフ方策評価（OPE）の結果を基に直接最終的なデプロイ方策を選択する低い MSE 高い RankCorr 低い Regret ベストに近いデプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証

既存の検証指標は⼀つの⽅策を選ぶのには有益既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。 May 2024 Towards assessing risk-return tradeoff
of OPE 23 オフ方策評価（OPE）の結果を基に直接最終的なデプロイ方策を選択する低い MSE 高い RankCorr 低い Regret ベストに近いデプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証

研究課題: 2段階⽅策選択でのOPEをどう評価する? 実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。 May 2024 Towards assessing risk-return tradeoff of
OPE 24 ① ② ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果も組み合わせて方策選択

実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。既存の評価指標では上位 𝒌 個の⽅策選択のためのOPEの性能検証をし得る? May 2024 Towards assessing risk-return tradeoff
of OPE 25 ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果も組み合わせて方策選択 A/Bテスト時の安全性も考慮したい！研究課題: 2段階⽅策選択でのOPEをどう評価する? ① ②

既存指標では⼤きく異なる推定量を区別できない (1/2) 既存の3つの性能検証指標はどれも推定量 X と Y を同様に評価。既存の性能検証指標では、過小評価 vs. 過大評価
を評価できない。 May 2024 Towards assessing risk-return tradeoﬀ of OPE 26 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。

既存指標では⼤きく異なる推定量を区別できない (2/2) 既存の3つの性能検証指標はどれも推定量 W と Z を同様に評価。既存の性能検証指標では、保守的 vs.ハイリスクを評価できない。
May 2024 Towards assessing risk-return tradeoff of OPE 27 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。

既存の性能検証指標のまとめ • 既存の性能検証指標はOPEとそれに基づく⽅策選択の “正確さ” を検証する。 • しかし、既存の指標は実⽤上で上位 𝑘 個の⽅策を選ぶ場⾯では機能しない。 •
性能の悪い⽅策をデプロイするリスクを評価できない。 • ⼤きく異なる2つの推定量 (過⼩評価 vs. 過⼤評価 / 保守的 vs. ハイリスク) を区別できない。どうすれば上位 𝑘 個の方策を選ぶ際のオフ方策推定量の性能を検証できる? May 2024 Towards assessing risk-return tradeoff of OPE 28

提案: リスクとリターンのトレードオフに着⽬したオフ⽅策評価の性能検証指標 May 2024 Towards assessing risk-return tradeoﬀ of
OPE 29

上位 𝑘 個の⽅策選択において⼤事なことは何か? 既存の指標では測定できないこと: A/Bテスト時に性能の悪い⽅策をデプロイするリスクを考慮すること新しい指標が測定可能にすべきこと: リスク・リターンのトレードオフの観点で効率的な⽅策選択をしているか May 2024 Towards
assessing risk-return tradeoff of OPE 30 + A/Bテスト後 + A/Bテスト時リスクと安全性選ばれる⽅策の性能

提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of
OPE 31 オフ⽅策評価の結果選ばれた上位 𝑘 個の⽅策集合で⼀番良い⽅策の性能選ばれた上位 𝑘 個の⽅策の標準偏差

提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of
OPE 32 リスクなしで達成できる性能からの増分のリターン A/Bテスト中に性能の悪い⽅策をデプロイするリスク

SharpeRatioの計算例上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE
33 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ?

SharpeRatioの計算例上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE
34 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ? A/B test

SharpeRatioの計算例上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoﬀ of OPE
35 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0

上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE
36 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75

37 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75 SharpeRatio = 1.0 / 0.75 = 1.33..

38 SharpeRatio = 1.33.. policy OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92..

39 SharpeRatio = 1.33.. policy OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定された方策価値真の方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92.. 性能の悪い方策をデプロイするリスクが低い

事例の紹介 May 2024 Towards assessing risk-return tradeoff of OPE 40

SharpeRatioはより情報量の多い性能検証を⾏う (1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは過小評価 vs. 過大評価を区別できるのか？ May 2024
Towards assessing risk-return tradeoff of OPE 41 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。

SharpeRatioはより情報量の多い性能検証を⾏う (1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioはより安全な方策ポートフォリオを選ぶ推定量を特定できている。 May 2024 Towards assessing risk-return tradeoff
of OPE 42

SharpeRatioはより情報量の多い性能検証を⾏う(2/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは保守的 vs. ハイリスクハイリターンを区別できるのか？ May 2024 Towards
assessing risk-return tradeoff of OPE 43 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。

SharpeRatioはより情報量の多い性能検証を⾏う(1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatio は効率的な推定量を前提条件を加味して選べる！ May 2024
Towards assessing risk-return tradeoff of OPE 44 (ベースラインとなるデータ収集方策の性能のこと) ベースラインの性能が高いベースラインの性能が低い保守的な推定量は性能の悪い⽅策をデプロイしにくいハイリスクはベースラインを改善しやすい

gymの環境を使った実験 SharpeRatioと既存指標による性能検証結果は、場合によってはかなり異なる。 May 2024 Towards assessing risk-return tradeoff of OPE
45 注: この実験では推定量の⽤いる重みを正規化している。 SharpeRatio は k=2,..,4 では PDIS k=6,..,11 では DM を高く評価 MSEとRegretは MIS を、RankCorrは DM を高く評価また、RankCorrは PDIS を MDR より高く評価

gymの環境を使った実験（考察） SharpeRatioは性能の悪い方策をデプロイするリスクをきちんと考慮できている！ May 2024 Towards assessing risk-return tradeoff of OPE
46 • MSEやRegretの選んだ MIS は小さな 𝑘 の時に非常に性能の悪い方策をデプロイ。 • RankCorrは比較的安全な DM を選べてはいたが， 𝑘 ≥ 5 で高リスクな PDIS を MDR より高評価。 • SharpeRatio はリターンをリスク(std)で割引評価することで、安全性を考慮して評価できる。

まとめ • 実務でのオフ⽅策評価は、A/Bテストに使う上位 k 個の⽅策を選ぶ “スクリーニング”の機能を果たすことが多い • 提案したSharpeRatioは、A/Bテスト時のリスクとリターンのトレードオフにおける効率性を基に性能検証する •
SharpeRatio を使えばより安全な推定量を選んだり、ベースライン⽅策の性能に合わせてより効率的な推定量を選んだりすることができる SharpeRatioは既存の指標よりも有益で情報量の多い性能検証を可能に！ May 2024 Towards assessing risk-return tradeoff of OPE 47

SharpeRatio は SCOPE-RL にて実装を公開 SCOPE-RLを使えば、SharpeRatioによるOPEの性能検証を容易に実装可能。 May 2024 Towards assessing risk-return
tradeoff of OPE 48 Install now!! GitHub documentation

Thank you! contact: [email protected] May 2024 Towards assessing risk-return tradeoff
of OPE 49

論⽂情報 May 2024 Towards assessing risk-return tradeoff of OPE 50
1. “Towards Assessing and Benchmarking the Risk-Return Tradeoff of Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18207 2. “SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18206

Appendix May 2024 Towards assessing risk-return tradeoﬀ of OPE 51

⾦融分野における Sharpe ratio [Sharpe,98] との関係性⾦融では、リスクが少なく収益が上げられる投資が好まれる。 May 2024 Towards assessing
risk-return tradeoff of OPE 52 資産価値資産価値時点時点購⼊評価期⽇評価期⽇購⼊収益収益最終益は⼤きくはないが、堅実に⿊字に最終益は⿊字だが、賭け事のように振れ幅が⼤きい

⾦融分野における Sharpe ratio [Sharpe,98] との関係性⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分)
/ (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。 May 2024 Towards assessing risk-return tradeoff of OPE 53

/ (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 54 考え⽅を応⽤

/ (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) SharpeRatio = (A/B..による方策価値の増分) / (A/B..中の方策価値のばらつき) = ( A/B..で選ばれた方策の性能 – A/B..前の性能 ) / (A/B..での𝑘個の方策価値のstd) 本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 55

様々な環境でのSharpeRatioと既存指標の⽐較 May 2024 Towards assessing risk-return tradeoff of OPE 56
7つの強化学習環境において、5つのオフ⽅策推定量の性能を、 10個のrandom seedを⽤いて評価し、その傾向を分析。 SharpeRatioと既存指標はある程度相関するが、必ずしも⼀致しない (既存指標ではリスクを考慮していないため)

実験で使⽤した正規化した既存の性能検証指標 MSEとRegretに関しては、以下のように正規化することでスケールを揃える。 May 2024 Towards assessing risk-return tradeoff of OPE
57

実験の設定 • Gym-ClassicControl [Brockman+,16] の中でも MountainCar を使⽤。 • データ収集⽅策は DDQN
[Hasselt+,16] により学習されたQ関数に基づくsoftmax⽅策。 • オフ⽅策評価する候補⽅策は CQL [Kumar+,20] と BCQ [Fujimoto+,19] に基づく ε-greedy ⽅策。 • オフ⽅策評価では FQE [Le+,19] を % 𝑄 の学習に、BestDICE [Yang+,20] を ' 𝜌 の学習に⽤いる。 • バリアンスを軽減するため、オフ⽅策推定量の重みは正規化する。[Kallus&Uehara,19] • DDQN, CQL, BCQ, FQE のアルゴリズム実装は d3rlpy [Seno&Imai,22] のものを使⽤。 May 2024 Towards assessing risk-return tradeoff of OPE 58 詳細は論文を参照

重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 59
評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。評価⽅策データ収集⽅策 action A action B 多い少ない少ない多い

重みづけにより action Aを仮想的に増やす評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 action A action B 評価⽅策データ収集⽅策多い少ない少ない多い

しかし重みが大きいとバリアンスも大きくなってしまう評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 ranking A 多い少ない評価⽅策データ収集⽅策

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 Towards assessing
risk-return tradeoﬀ of OPE 62 (再帰的な表記) 報酬予測の残差にのみ重点サンプリングを適用時刻 𝑡 以降の⽅策価値

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。⽋点: 𝑡
が⼤きい時にはまだバリアンスが⼤きくなり得る。 May 2024 Towards assessing risk-return tradeoﬀ of OPE 63

State-action Marginal DR (MDR) [Uehara+,20] MDRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。利点: % 𝜌 か
" 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 64 残差に対して周辺分布上での重みづけを適用する

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。 May 2024 Towards assessing risk-return
tradeoff of OPE 65

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。 May 2024 Towards assessing risk-return tradeoﬀ
of OPE 66

References May 2024 Towards assessing risk-return tradeoff of OPE 67

参考⽂献 (1/4) [Le+,19] Hoang M. Le, Cameron Voloshin, Yisong Yue.
“Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 [Precup+,00] Doina Precup, Richard S. Sutton, Satinder Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16] Nan Jiang, Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16] Philip S. Thomas, Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 May 2024 Towards assessing risk-return tradeoff of OPE 68

参考⽂献 (2/4) [Uehara+,20] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax
Weight and Q- Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 [Kallus&Uehara,19] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 [Brockman+,16] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 [Voloshin+,21] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 Towards assessing risk-return tradeoff of OPE 69

参考⽂献 (3/4) [Fu+,21] Justin Fu, Mohammad Norouzi, Ofir Nachum, George
Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “SCOPE-RL: A Python Library for Offline Reinforcement Learning, Off-Policy Evaluation, and Policy Selection.” 2023. [Hasselt+,16] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 May 2024 Towards assessing risk-return tradeoff of OPE 70

参考⽂献 (4/4) [Kumar+,20] Aviral Kumar, Aurick Zhou, George Tucker, and
Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Fujimoto+,19] Scott Fujimoto, David Meger, Doina Precup. “Off-Policy Deep Reinforcement Learning without Exploration.” ICML, 2019. https://arxiv.org/abs/1812.02900 [Yang+,20] Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans. “Off- Policy Evaluation via the Regularized Lagrangian.” NeurIPS, 2020. https://arxiv.org/abs/2007.03438 [Seno&Imai,22] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Sharpe,98] William Sharpe. “The Sharpe Ratio.” Streetwise – the Best of the Journal of Portfolio Management, 1998. May 2024 Towards assessing risk-return tradeoﬀ of OPE 71

Towards Assessing and Benchmarking Risk-Return ...

Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE （日本語版）

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript