Slide 1

Slide 1 text

オフ⽅策評価におけるリスクとリターン のトレードオフを評価する Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito 清原 明加(Haruka Kiyohara) https://sites.google.com/view/harukakiyohara May 2024 Towards assessing risk-return tradeoff of OPE 1

Slide 2

Slide 2 text

連続的な意思決定を最適化したい場⾯は数多く存在 医療における連続的意思決定の例 強化学習(Reinforcement Learning; RL)の問題として意思決定を最適化したい May 2024 Towards assessing risk-return tradeoff of OPE 2 他にも応⽤事例は⾄る所に • ロボティクス • ⾃動運転 • 商品推薦 • 教育 • …

Slide 3

Slide 3 text

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習 – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 3

Slide 4

Slide 4 text

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習 – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 Towards assessing risk-return tradeoff of OPE 4 特に、オフラインでの 方策評価について議論

Slide 5

Slide 5 text

オフラインでの⽅策評価はなぜ重要なのか? オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。 May 2024 Towards assessing risk-return tradeoff of OPE 5 (様々なハイパラ) (アルゴリズム)

Slide 6

Slide 6 text

オフラインでの⽅策評価はなぜ重要なのか? オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。 May 2024 Towards assessing risk-return tradeoff of OPE 6 オフ方策評価(Off-Policy Evaluation; OPE) データを使って、新たな方策の期待性能を 推定・評価し、方策選択に用いる (様々なハイパラ) (アルゴリズム) 良い⽅策が選べるかどうか? は重要!

Slide 7

Slide 7 text

このスライドでお伝えすること • 強化学習におけるオフ⽅策評価 • オフ⽅策評価⼿法の性能検証をするための従来の指標の問題点 • 提案⼿法: SharpeRatio@k によるリスク・リターンのトレードオフ評価 • 事例の紹介: なぜ SharpeRatio@k を使うべきなのか? May 2024 Towards assessing risk-return tradeoff of OPE 7

Slide 8

Slide 8 text

オフ⽅策評価 May 2024 Towards assessing risk-return tradeoff of OPE 8

Slide 9

Slide 9 text

⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) • : 報酬 (reward) • : 時刻 • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 準備: 強化学習の問題設定 May 2024 Towards assessing risk-return tradeoff of OPE 9 ▼ 興味の対象

Slide 10

Slide 10 text

オフ⽅策評価で推定したいのは期待報酬 ある⽅策 𝜋 をデプロイした際の、累積報酬の期待値(⽅策価値)を推定したい。 May 2024 Towards assessing risk-return tradeoff of OPE 10 オフ方策推定量 過去のデータ収集⽅策 が集めた蓄積データ 反実仮想 と 分布シフト の問題

Slide 11

Slide 11 text

オフ⽅策推定量の例 以降のスライドでは、以下の代表的な推定量からシンプルなものを紹介。 • Direct Method (DM) • (Per-Decision) Importance Sampling (PDIS) • Doubly Robust (DR) • (State-action) Marginal Importance Sampling (MIS) • (State-action) Marginal Doubly Robust (MDR) May 2024 Towards assessing risk-return tradeoff of OPE 11 注: DR と MDR の詳細については Appendix を参照

Slide 12

Slide 12 text

Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。 利点: バリアンスが⼩さい。 ⽋点: ⼤きなバイアスが発⽣しうる( " 𝑄が不正確な場合)。 May 2024 Towards assessing risk-return tradeoff of OPE 12 予測した状態行動価値 将来の時刻で得られる 累積報酬を予測 経験平均 (𝑛: データサイズ, 𝑖: インデックス)

Slide 13

Slide 13 text

Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。 利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。 ⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 Towards assessing risk-return tradeoff of OPE 13 重みづけ(= 各時刻での重みの総積)

Slide 14

Slide 14 text

State-action Marginal IS (MIS) [Uehara+,20] バリアンス減少のため、MISは状態⾏動空間での周辺分布で重みづける。 利点: % 𝜌 が正確であれば不偏性を満たし、 PDISよりバリアンスを減少する。 ⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 14 周辺分布上での重みづけ(重みを推定する必要あり) 状態⾏動の観測確率

Slide 15

Slide 15 text

オフ⽅策評価のまとめ • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて 新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。 そこで以降では、 実応用でより良い方策選択を行うために、推定量の性能をどう検証するか? について議論 May 2024 Towards assessing risk-return tradeoff of OPE 15

Slide 16

Slide 16 text

オフ⽅策評価のまとめ • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて 新たな⽅策の期待性能の評価を⾏う。 • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏 の間の分布シフトや⾏動の部分観測が バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。 そこで以降では、 実応用でより良い方策選択を行うために、推定量の性能をどう検証するか? について議論 May 2024 Towards assessing risk-return tradeoff of OPE 16 今回は強化学習の設定を考えるが、 ⽂脈つきバンディットでも同様に考えられる!

Slide 17

Slide 17 text

既存の性能検証指標の問題点 May 2024 Towards assessing risk-return tradeoff of OPE 17

Slide 18

Slide 18 text

既存の検証指標は全て “正確さ” に注⽬ May 2024 Towards assessing risk-return tradeoff of OPE 18 各指標の詳細はAppendixにて OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ” • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” • Regret – ⽅策の 選択 の “正確さ”

Slide 19

Slide 19 text

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ” [Voloshin+,21] May 2024 Towards assessing risk-return tradeoff of OPE 19 推定結果 真の方策価値 ⼩さい⽅が良い

Slide 20

Slide 20 text

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” [Fu+,21] May 2024 Towards assessing risk-return tradeoff of OPE 20 1 2 3 4 5 6 7 推定した順位 真の順位 ⼤きい⽅が良い

Slide 21

Slide 21 text

既存の検証指標は全て “正確さ” に注⽬ OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。 • Regret – ⽅策の 選択 の “正確さ” [Doroudi+,18] May 2024 Towards assessing risk-return tradeoff of OPE 21 真に最適な方策の価値 推定結果を基に選ばれた 方策の価値 ⼩さい⽅が良い

Slide 22

Slide 22 text

既存の検証指標は⼀つの⽅策を選ぶのには有益 既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 May 2024 Towards assessing risk-return tradeoff of OPE 22 オフ方策評価(OPE)の結果を基に 直接最終的なデプロイ方策を選択する 低い MSE 高い RankCorr 低い Regret ベストに近い デプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証

Slide 23

Slide 23 text

既存の検証指標は⼀つの⽅策を選ぶのには有益 既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。 May 2024 Towards assessing risk-return tradeoff of OPE 23 オフ方策評価(OPE)の結果を基に 直接最終的なデプロイ方策を選択する 低い MSE 高い RankCorr 低い Regret ベストに近い デプロイ方策 ? ✔ ✔ オフ⽅策評価の性能検証

Slide 24

Slide 24 text

研究課題: 2段階⽅策選択でのOPEをどう評価する? 実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。 May 2024 Towards assessing risk-return tradeoff of OPE 24 ① ② ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果 も組み合わせて方策選択

Slide 25

Slide 25 text

実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。 既存の評価指標では上位 𝒌 個の⽅策選択のためのOPEの性能検証をし得る? May 2024 Towards assessing risk-return tradeoff of OPE 25 ① OPE は “スクリーニング” の手順として機能 ② 最終的には A/Bテストの結果 も組み合わせて方策選択 A/Bテスト時の安全性も考慮したい! 研究課題: 2段階⽅策選択でのOPEをどう評価する? ① ②

Slide 26

Slide 26 text

既存指標では⼤きく異なる推定量を区別できない (1/2) 既存の3つの性能検証指標はどれも推定量 X と Y を同様に評価。 既存の性能検証指標では、過小評価 vs. 過大評価 を評価できない。 May 2024 Towards assessing risk-return tradeoff of OPE 26 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。

Slide 27

Slide 27 text

既存指標では⼤きく異なる推定量を区別できない (2/2) 既存の3つの性能検証指標はどれも推定量 W と Z を同様に評価。 既存の性能検証指標では、保守的 vs.ハイリスク を評価できない。 May 2024 Towards assessing risk-return tradeoff of OPE 27 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。

Slide 28

Slide 28 text

既存の性能検証指標のまとめ • 既存の性能検証指標はOPEとそれに基づく⽅策選択の “正確さ” を検証する。 • しかし、既存の指標は実⽤上で上位 𝑘 個の⽅策を選ぶ場⾯では機能しない。 • 性能の悪い⽅策をデプロイするリスクを評価できない。 • ⼤きく異なる2つの推定量 (過⼩評価 vs. 過⼤評価 / 保守的 vs. ハイリスク) を区別できない。 どうすれば上位 𝑘 個の方策を選ぶ際のオフ方策推定量の性能を検証できる? May 2024 Towards assessing risk-return tradeoff of OPE 28

Slide 29

Slide 29 text

提案: リスクとリターンのトレードオフ に着⽬したオフ⽅策評価の性能検証指標 May 2024 Towards assessing risk-return tradeoff of OPE 29

Slide 30

Slide 30 text

上位 𝑘 個の⽅策選択において⼤事なことは何か? 既存の指標では測定できないこと: A/Bテスト時に性能の悪い⽅策をデプロイするリスクを考慮すること 新しい指標が測定可能にすべきこと: リスク・リターンのトレードオフの観点で効率的な⽅策選択をしているか May 2024 Towards assessing risk-return tradeoff of OPE 30 + A/Bテスト後 + A/Bテスト時 リスクと安全性 選ばれる⽅策の性能

Slide 31

Slide 31 text

提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of OPE 31 オフ⽅策評価の結果選ばれた 上位 𝑘 個の⽅策集合で⼀番良い⽅策の性能 選ばれた上位 𝑘 個の ⽅策の標準偏差

Slide 32

Slide 32 text

提案する性能検証指標: SharpeRatio@k ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。 May 2024 Towards assessing risk-return tradeoff of OPE 32 リスクなしで達成できる性能からの増分のリターン A/Bテスト中に性能の悪い⽅策をデプロイするリスク

Slide 33

Slide 33 text

SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE 33 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ?

Slide 34

Slide 34 text

SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE 34 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 ? 候補 2 1.2 ? 候補 3 1.0 ? 候補 4 0.8 ? 候補 5 0.5 ? A/B test

Slide 35

Slide 35 text

SharpeRatioの計算例 上位3個の⽅策選択を評価する場合を考える。 May 2024 Towards assessing risk-return tradeoff of OPE 35 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0

Slide 36

Slide 36 text

上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE 36 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75

Slide 37

Slide 37 text

上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE 37 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? 分⼦ = best@𝑘 - 𝐽(𝜋𝑏 ) = 2.0 ‒ 1.0 = 1.0 分⺟ = std@𝑘 = 1/𝑘 ∑#$% & 𝐽 𝜋𝑖 − mean@𝑘 2 = 0.75 SharpeRatio = 1.0 / 0.75 = 1.33..

Slide 38

Slide 38 text

上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE 38 SharpeRatio = 1.33.. policy OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92..

Slide 39

Slide 39 text

上位3個の⽅策選択を評価する場合を考える。 SharpeRatioの計算例 May 2024 Towards assessing risk-return tradeoff of OPE 39 SharpeRatio = 1.33.. policy OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 candidate 1 1.8 2.0 candidate 2 0.8 ? candidate 3 1.0 1.2 candidate 4 1.2 1.0 candidate 5 0.5 ? 方策 OPEで推定 された方策価値 真の 方策価値 behavior 𝜋𝑏 - 1.0 候補 1 1.8 2.0 候補 2 1.2 0.5 候補 3 1.0 1.2 候補 4 0.8 ? 候補 5 0.5 ? SharpeRatio = 1.92.. 性能の悪い方策をデプロイするリスクが低い

Slide 40

Slide 40 text

事例の紹介 May 2024 Towards assessing risk-return tradeoff of OPE 40

Slide 41

Slide 41 text

SharpeRatioはより情報量の多い性能検証を⾏う (1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは 過小評価 vs. 過大評価 を区別できるのか? May 2024 Towards assessing risk-return tradeoff of OPE 41 estimator X estimator Y MSE 11.3 11.3 RankCorr 0.413 0.413 Regret 0.0 0.0 例えば、上位3個の⽅策集合の構成は⼤きく異なる。

Slide 42

Slide 42 text

SharpeRatioはより情報量の多い性能検証を⾏う (1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioはより安全な方策ポートフォリオを選ぶ推定量を特定できている。 May 2024 Towards assessing risk-return tradeoff of OPE 42

Slide 43

Slide 43 text

SharpeRatioはより情報量の多い性能検証を⾏う(2/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatioは 保守的 vs. ハイリスクハイリターン を区別できるのか? May 2024 Towards assessing risk-return tradeoff of OPE 43 estimator W estimator Z MSE 60.1 58.6 RankCorr 0.079 0.023 Regret 9.0 9.0 推定量 Z はランダム選択であるのでよりリスクが⾼そう。

Slide 44

Slide 44 text

SharpeRatioはより情報量の多い性能検証を⾏う(1/2) 既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。 SharpeRatio は 効率的 な推定量を 前提条件 を加味して選べる! May 2024 Towards assessing risk-return tradeoff of OPE 44 (ベースラインとなるデータ収集方策の性能のこと) ベースラインの性能が高い ベースラインの性能が低い 保守的な推定量は性能の悪い⽅策をデプロイしにくい ハイリスクはベースラインを改善しやすい

Slide 45

Slide 45 text

gymの環境を使った実験 SharpeRatioと既存指標による性能検証結果は、場合によってはかなり異なる。 May 2024 Towards assessing risk-return tradeoff of OPE 45 注: この実験では推定量の⽤いる重みを正規化している。 SharpeRatio は k=2,..,4 では PDIS k=6,..,11 では DM を高く評価 MSEとRegretは MIS を、RankCorrは DM を高く評価 また、RankCorrは PDIS を MDR より高く評価

Slide 46

Slide 46 text

gymの環境を使った実験(考察) SharpeRatioは性能の悪い方策をデプロイするリスクをきちんと考慮できている! May 2024 Towards assessing risk-return tradeoff of OPE 46 • MSEやRegretの選んだ MIS は小さな 𝑘 の時に非常に性能の悪い方策をデプロイ。 • RankCorrは比較的安全な DM を選べてはいたが, 𝑘 ≥ 5 で高リスクな PDIS を MDR より高評価。 • SharpeRatio はリターンをリスク(std)で割引評価することで、安全性を考慮して評価できる。

Slide 47

Slide 47 text

まとめ • 実務でのオフ⽅策評価は、A/Bテストに使う上位 k 個の⽅策を選ぶ “スクリーニング”の機能を果たすことが多い • 提案したSharpeRatioは、A/Bテスト時のリスクとリターンのトレードオフ における効率性を基に性能検証する • SharpeRatio を使えばより安全な推定量を選んだり、ベースライン⽅策の性能 に合わせてより効率的な推定量を選んだりすることができる SharpeRatioは既存の指標よりも有益で情報量の多い性能検証を可能に! May 2024 Towards assessing risk-return tradeoff of OPE 47

Slide 48

Slide 48 text

SharpeRatio は SCOPE-RL にて実装を公開 SCOPE-RLを使えば、SharpeRatioによるOPEの性能検証を容易に実装可能。 May 2024 Towards assessing risk-return tradeoff of OPE 48 Install now!! GitHub documentation

Slide 49

Slide 49 text

Thank you! contact: [email protected] May 2024 Towards assessing risk-return tradeoff of OPE 49

Slide 50

Slide 50 text

論⽂情報 May 2024 Towards assessing risk-return tradeoff of OPE 50 1. “Towards Assessing and Benchmarking the Risk-Return Tradeoff of Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18207 2. “SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation.” arXiv preprint, 2023. https://arxiv.org/abs/2311.18206

Slide 51

Slide 51 text

Appendix May 2024 Towards assessing risk-return tradeoff of OPE 51

Slide 52

Slide 52 text

⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 May 2024 Towards assessing risk-return tradeoff of OPE 52 資産価値 資産価値 時点 時点 購⼊ 評価期⽇ 評価期⽇ 購⼊ 収益 収益 最終益は⼤きくはないが、堅実に⿊字に 最終益は⿊字だが、賭け事のように振れ幅が⼤きい

Slide 53

Slide 53 text

⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。 May 2024 Towards assessing risk-return tradeoff of OPE 53

Slide 54

Slide 54 text

⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。 本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 54 考え⽅を応⽤

Slide 55

Slide 55 text

⾦融分野における Sharpe ratio [Sharpe,98] との関係性 ⾦融では、リスクが少なく収益が上げられる投資が好まれる。 Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき) = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd) SharpeRatio = (A/B..による方策価値の増分) / (A/B..中の方策価値のばらつき) = ( A/B..で選ばれた方策の性能 – A/B..前の性能 ) / (A/B..での𝑘個の方策価値のstd) 本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。 May 2024 Towards assessing risk-return tradeoff of OPE 55

Slide 56

Slide 56 text

様々な環境でのSharpeRatioと既存指標の⽐較 May 2024 Towards assessing risk-return tradeoff of OPE 56 7つの強化学習環境において、5つのオフ⽅策推定量の性能を、 10個のrandom seedを⽤いて評価し、その傾向を分析。 SharpeRatioと既存指標はある程度相関するが、必ずしも⼀致しない (既存指標ではリスクを考慮していないため)

Slide 57

Slide 57 text

実験で使⽤した正規化した既存の性能検証指標 MSEとRegretに関しては、以下のように正規化することでスケールを揃える。 May 2024 Towards assessing risk-return tradeoff of OPE 57

Slide 58

Slide 58 text

実験の設定 • Gym-ClassicControl [Brockman+,16] の中でも MountainCar を使⽤。 • データ収集⽅策は DDQN [Hasselt+,16] により学習されたQ関数に基づくsoftmax⽅策。 • オフ⽅策評価する候補⽅策は CQL [Kumar+,20] と BCQ [Fujimoto+,19] に基づく ε-greedy ⽅策。 • オフ⽅策評価では FQE [Le+,19] を % 𝑄 の学習に、BestDICE [Yang+,20] を ' 𝜌 の学習に⽤いる。 • バリアンスを軽減するため、オフ⽅策推定量の重みは正規化する。[Kallus&Uehara,19] • DDQN, CQL, BCQ, FQE のアルゴリズム実装は d3rlpy [Seno&Imai,22] のものを使⽤。 May 2024 Towards assessing risk-return tradeoff of OPE 58 詳細は論文を参照

Slide 59

Slide 59 text

重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 59 評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 評価⽅策 データ収集⽅策 action A action B 多い 少ない 少ない 多い

Slide 60

Slide 60 text

重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 60 重みづけにより action Aを仮想的に増やす 評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 action A action B 評価⽅策 データ収集⽅策 多い 少ない 少ない 多い

Slide 61

Slide 61 text

重点サンプリング推定量の直感的な理解 May 2024 Towards assessing risk-return tradeoff of OPE 61 しかし重みが大きいと バリアンスも大きくなってしまう 評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。 ranking A 多い 少ない 評価⽅策 データ収集⽅策

Slide 62

Slide 62 text

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 Towards assessing risk-return tradeoff of OPE 62 (再帰的な表記) 報酬予測の残差にのみ 重点サンプリングを適用 時刻 𝑡 以降の⽅策価値

Slide 63

Slide 63 text

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。 ⽋点: 𝑡 が⼤きい時にはまだバリアンスが⼤きくなり得る。 May 2024 Towards assessing risk-return tradeoff of OPE 63

Slide 64

Slide 64 text

State-action Marginal DR (MDR) [Uehara+,20] MDRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。 利点: % 𝜌 か " 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。 ⽋点: % 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 Towards assessing risk-return tradeoff of OPE 64 残差に対して周辺分布上での重みづけを適用する

Slide 65

Slide 65 text

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。 重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。 May 2024 Towards assessing risk-return tradeoff of OPE 65

Slide 66

Slide 66 text

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。 May 2024 Towards assessing risk-return tradeoff of OPE 66

Slide 67

Slide 67 text

References May 2024 Towards assessing risk-return tradeoff of OPE 67

Slide 68

Slide 68 text

参考⽂献 (1/4) [Le+,19] Hoang M. Le, Cameron Voloshin, Yisong Yue. “Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 [Precup+,00] Doina Precup, Richard S. Sutton, Satinder Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16] Nan Jiang, Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16] Philip S. Thomas, Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 May 2024 Towards assessing risk-return tradeoff of OPE 68

Slide 69

Slide 69 text

参考⽂献 (2/4) [Uehara+,20] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax Weight and Q- Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 [Kallus&Uehara,19] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 [Brockman+,16] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 [Voloshin+,21] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 Towards assessing risk-return tradeoff of OPE 69

Slide 70

Slide 70 text

参考⽂献 (3/4) [Fu+,21] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “SCOPE-RL: A Python Library for Offline Reinforcement Learning, Off-Policy Evaluation, and Policy Selection.” 2023. [Hasselt+,16] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 May 2024 Towards assessing risk-return tradeoff of OPE 70

Slide 71

Slide 71 text

参考⽂献 (4/4) [Kumar+,20] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Fujimoto+,19] Scott Fujimoto, David Meger, Doina Precup. “Off-Policy Deep Reinforcement Learning without Exploration.” ICML, 2019. https://arxiv.org/abs/1812.02900 [Yang+,20] Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans. “Off- Policy Evaluation via the Regularized Lagrangian.” NeurIPS, 2020. https://arxiv.org/abs/2007.03438 [Seno&Imai,22] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Sharpe,98] William Sharpe. “The Sharpe Ratio.” Streetwise – the Best of the Journal of Portfolio Management, 1998. May 2024 Towards assessing risk-return tradeoff of OPE 71