Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE (日本語版)

Towards Assessing and Benchmarking Risk-Return Tradeoff of OPE (日本語版)

ICLR2024採択論文の解説スライド
論文:https://arxiv.org/abs/2311.18207

パッケージ:https://github.com/hakuhodo-technologies/scope-rl
ドキュメンテーション:https://scope-rl.readthedocs.io/en/latest/
パッケージに関する論文:https://arxiv.org/abs/2311.18206

English version: https://speakerdeck.com/harukakiyohara_/towards-risk-return-assessment-of-ope

Haruka Kiyohara

December 01, 2023
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. オフ⽅策評価におけるリスクとリターン
    のトレードオフを評価する
    Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami,
    Ken Kobayashi, Kazuhide Nakata, Yuta Saito
    清原 明加(Haruka Kiyohara)
    https://sites.google.com/view/harukakiyohara
    December 2023 Towards assessing risk-return tradeoff of OPE 1

    View full-size slide

  2. 連続的な意思決定を最適化したい場⾯は数多く存在
    医療における連続的意思決定の例
    強化学習(Reinforcement Learning; RL)の問題として意思決定を最適化したい
    December 2023 Towards assessing risk-return tradeoff of OPE 2
    他にも応⽤事例は⾄る所に
    • ロボティクス
    • ⾃動運転
    • 商品推薦
    • 教育
    • …

    View full-size slide

  3. オンラインとオフラインの強化学習
    • オンライン強化学習 –
    • ⽅策を実環境と作⽤させながら学習する
    • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも
    • オフライン強化学習 –
    • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する
    • オンライン強化学習より安全に⽅策を学習できる可能性
    December 2023 Towards assessing risk-return tradeoff of OPE 3

    View full-size slide

  4. オンラインとオフラインの強化学習
    • オンライン強化学習 –
    • ⽅策を実環境と作⽤させながら学習する
    • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも
    • オフライン強化学習 –
    • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する
    • オンライン強化学習より安全に⽅策を学習できる可能性
    December 2023 Towards assessing risk-return tradeoff of OPE 4
    特に、オフラインでの
    方策評価について議論

    View full-size slide

  5. オフラインでの⽅策評価はなぜ重要なのか?
    オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。
    December 2023 Towards assessing risk-return tradeoff of OPE 5
    (様々なハイパラ)
    (アルゴリズム)

    View full-size slide

  6. オフラインでの⽅策評価はなぜ重要なのか?
    オフラインで⽅策を学習するだけでなく、選択結果でデプロイ⽅策が決まる。
    December 2023 Towards assessing risk-return tradeoff of OPE 6
    オフ方策評価(Off-Policy Evaluation; OPE)
    データを使って、新たな方策の期待性能を
    推定・評価し、方策選択に用いる
    (様々なハイパラ)
    (アルゴリズム)
    良い⽅策が選べるかどうか? は重要!

    View full-size slide

  7. このスライドでお伝えすること
    • 強化学習におけるオフ⽅策評価
    • オフ⽅策評価⼿法の性能検証をするための従来の指標の問題点
    • 提案⼿法: SharpeRatio@k によるリスク・リターンのトレードオフ評価
    • 事例の紹介: なぜ SharpeRatio@k を使うべきなのか?
    December 2023 Towards assessing risk-return tradeoff of OPE 7

    View full-size slide

  8. オフ⽅策評価
    December 2023 Towards assessing risk-return tradeoff of OPE 8

    View full-size slide

  9. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。
    • : 状態 (state)
    • : ⾏動 (action)
    • : 報酬 (reward)
    • : 時刻
    • : 状態遷移確率
    • : 報酬分布
    • : 割引率
    • : 軌跡・履歴 (trajectory)
    準備: 強化学習の問題設定
    December 2023 Towards assessing risk-return tradeoff of OPE 9
    ▼ 興味の対象

    View full-size slide

  10. オフ⽅策評価で推定したいのは期待報酬
    ある⽅策 𝜋 をデプロイした際の、累積報酬の期待値(⽅策価値)を推定したい。
    December 2023 Towards assessing risk-return tradeoff of OPE 10
    オフ方策推定量 過去のデータ収集⽅策
    が集めた蓄積データ
    反実仮想 と
    分布シフト の問題

    View full-size slide

  11. オフ⽅策推定量の例
    以降のスライドでは、以下の代表的な推定量からシンプルなものを紹介。
    • Direct Method (DM)
    • (Per-Decision) Importance Sampling (PDIS)
    • Doubly Robust (DR)
    • (State-action) Marginal Importance Sampling (MIS)
    • (State-action) Marginal Doubly Robust (MDR)
    December 2023 Towards assessing risk-return tradeoff of OPE 11
    注: DR と MDR の詳細については Appendix を参照

    View full-size slide

  12. Direct Method (DM) [Le+,19]
    DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。
    利点: バリアンスが⼩さい。
    ⽋点: ⼤きなバイアスが発⽣しうる( "
    𝑄が不正確な場合)。
    December 2023 Towards assessing risk-return tradeoff of OPE 12
    予測した状態行動価値
    将来の時刻で得られる
    累積報酬を予測
    経験平均
    (𝑛: データサイズ, 𝑖: インデックス)

    View full-size slide

  13. Per-Decision Importance Sampling (PDIS) [Precup+,00]
    PDISは分布シフトを補正するために重点サンプリングを適⽤する。
    利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。
    ⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。
    December 2023 Towards assessing risk-return tradeoff of OPE 13
    重みづけ(= 各時刻での重みの総積)

    View full-size slide

  14. State-action Marginal IS (MIS) [Uehara+,20]
    バリアンス減少のため、MISは状態⾏動空間での周辺分布で重みづける。
    利点: %
    𝜌 が正確であれば不偏性を満たし、 PDISよりバリアンスを減少する。
    ⽋点: %
    𝜌 を正確に推定することは難しく、バイアスに繋がる。
    December 2023 Towards assessing risk-return tradeoff of OPE 14
    周辺分布上での重みづけ(重みを推定する必要あり)
    状態⾏動の観測確率

    View full-size slide

  15. オフ⽅策評価のまとめ
    • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて
    新たな⽅策の期待性能の評価を⾏う。
    • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏
    の間の分布シフトや⾏動の部分観測が
    バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。
    そこで以降では、
    実応用でより良い方策選択を行うために、推定量の性能をどう検証するか?
    について議論
    December 2023 Towards assessing risk-return tradeoff of OPE 15

    View full-size slide

  16. オフ⽅策評価のまとめ
    • オフ⽅策評価(OPE)では、オフラインデータのみを⽤いて
    新たな⽅策の期待性能の評価を⾏う。
    • 新たな⽅策 𝜋 とデータ収集⽅策 𝜋𝑏
    の間の分布シフトや⾏動の部分観測が
    バイアスまたはバリアンスに繋がってしまい、正確な推定が難しいことも。
    そこで以降では、
    実応用でより良い方策選択を行うために、推定量の性能をどう検証するか?
    について議論
    December 2023 Towards assessing risk-return tradeoff of OPE 16
    今回は強化学習の設定を考えるが、
    ⽂脈つきバンディットでも同様に考えられる!

    View full-size slide

  17. 既存の性能検証指標の問題点
    December 2023 Towards assessing risk-return tradeoff of OPE 17

    View full-size slide

  18. 既存の検証指標は全て “正確さ” に注⽬
    December 2023 Towards assessing risk-return tradeoff of OPE 18
    各指標の詳細はAppendixにて
    OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。
    • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ”
    • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ”
    • Regret – ⽅策の 選択 の “正確さ”

    View full-size slide

  19. 既存の検証指標は全て “正確さ” に注⽬
    OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。
    • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ” [Voloshin+,21]
    December 2023 Towards assessing risk-return tradeoff of OPE 19
    推定結果 真の方策価値
    ⼩さい⽅が良い

    View full-size slide

  20. 既存の検証指標は全て “正確さ” に注⽬
    OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。
    • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” [Fu+,21]
    December 2023 Towards assessing risk-return tradeoff of OPE 20
    1
    2
    3
    4
    5
    6
    7
    推定した順位 真の順位
    ⼤きい⽅が良い

    View full-size slide

  21. 既存の検証指標は全て “正確さ” に注⽬
    OPEの代表的な検証指標は3つあり、⽅策評価と選択の正確さを検証。
    • Regret – ⽅策の 選択 の “正確さ” [Doroudi+,18]
    December 2023 Towards assessing risk-return tradeoff of OPE 21
    真に最適な方策の価値 推定結果を基に選ばれた
    方策の価値
    ⼩さい⽅が良い

    View full-size slide

  22. 既存の検証指標は⼀つの⽅策を選ぶのには有益
    既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。
    December 2023 Towards assessing risk-return tradeoff of OPE 22
    オフ方策評価(OPE)の結果を基に
    直接最終的なデプロイ方策を選択する
    低い MSE
    高い RankCorr
    低い Regret
    ベストに近い
    デプロイ方策
    ?


    オフ⽅策評価の性能検証

    View full-size slide

  23. 既存の検証指標は⼀つの⽅策を選ぶのには有益
    既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。
    .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。
    December 2023 Towards assessing risk-return tradeoff of OPE 23
    オフ方策評価(OPE)の結果を基に
    直接最終的なデプロイ方策を選択する
    低い MSE
    高い RankCorr
    低い Regret
    ベストに近い
    デプロイ方策
    ?


    オフ⽅策評価の性能検証

    View full-size slide

  24. 研究課題: 2段階⽅策選択でのOPEをどう評価する?
    実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。
    December 2023 Towards assessing risk-return tradeoff of OPE 24
    ① ②
    ① OPE は “スクリーニング”
    の手順として機能
    ② 最終的には A/Bテストの結果
    も組み合わせて方策選択

    View full-size slide

  25. 実⽤上では、オンラインとオフラインの2段階で⽅策を選択することが多い。
    既存の評価指標では上位 𝒌 個の⽅策選択のためのOPEの性能検証をし得る?
    December 2023 Towards assessing risk-return tradeoff of OPE 25
    ① OPE は “スクリーニング”
    の手順として機能
    ② 最終的には A/Bテストの結果
    も組み合わせて方策選択
    A/Bテスト時の安全性も考慮したい!
    研究課題: 2段階⽅策選択でのOPEをどう評価する?
    ① ②

    View full-size slide

  26. 既存指標では⼤きく異なる推定量を区別できない (1/2)
    既存の3つの性能検証指標はどれも推定量 X と Y を同様に評価。
    既存の性能検証指標では、過小評価 vs. 過大評価 を評価できない。
    December 2023 Towards assessing risk-return tradeoff of OPE 26
    estimator X estimator Y
    MSE 11.3 11.3
    RankCorr 0.413 0.413
    Regret 0.0 0.0
    例えば、上位3個の⽅策集合の構成は⼤きく異なる。

    View full-size slide

  27. 既存指標では⼤きく異なる推定量を区別できない (2/2)
    既存の3つの性能検証指標はどれも推定量 W と Z を同様に評価。
    既存の性能検証指標では、保守的 vs.ハイリスク を評価できない。
    December 2023 Towards assessing risk-return tradeoff of OPE 27
    estimator W estimator Z
    MSE 60.1 58.6
    RankCorr 0.079 0.023
    Regret 9.0 9.0
    推定量 Z はランダム選択であるのでよりリスクが⾼そう。

    View full-size slide

  28. 既存の性能検証指標のまとめ
    • 既存の性能検証指標はOPEとそれに基づく⽅策選択の “正確さ” を検証する。
    • しかし、既存の指標は実⽤上で上位 𝑘 個の⽅策を選ぶ場⾯では機能しない。
    • 性能の悪い⽅策をデプロイするリスクを評価できない。
    • ⼤きく異なる2つの推定量 (過⼩評価 vs. 過⼤評価 / 保守的 vs. ハイリスク) を区別できない。
    どうすれば上位 𝑘 個の方策を選ぶ際のオフ方策推定量の性能を検証できる?
    December 2023 Towards assessing risk-return tradeoff of OPE 28

    View full-size slide

  29. 提案: リスクとリターンのトレードオフ
    に着⽬したオフ⽅策評価の性能検証指標
    December 2023 Towards assessing risk-return tradeoff of OPE 29

    View full-size slide

  30. 上位 𝑘 個の⽅策選択において⼤事なことは何か?
    既存の指標では測定できないこと:
    A/Bテスト時に性能の悪い⽅策をデプロイするリスクを考慮すること
    新しい指標が測定可能にすべきこと:
    リスク・リターンのトレードオフの観点で効率的な⽅策選択をしているか
    December 2023 Towards assessing risk-return tradeoff of OPE 30
    + A/Bテスト後
    + A/Bテスト時
    リスクと安全性 選ばれる⽅策の性能

    View full-size slide

  31. 提案する性能検証指標: SharpeRatio@k
    ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。
    December 2023 Towards assessing risk-return tradeoff of OPE 31
    オフ⽅策評価の結果選ばれた
    上位 𝑘 個の⽅策集合で⼀番良い⽅策の性能
    選ばれた上位 𝑘 個の
    ⽅策の標準偏差

    View full-size slide

  32. 提案する性能検証指標: SharpeRatio@k
    ⾦融分野のポートフォリオ評価を参考に、OPEでシャープレシオを定義。
    December 2023 Towards assessing risk-return tradeoff of OPE 32
    リスクなしで達成できる性能からの増分のリターン
    A/Bテスト中に性能の悪い⽅策をデプロイするリスク

    View full-size slide

  33. SharpeRatioの計算例
    上位3個の⽅策選択を評価する場合を考える。
    December 2023 Towards assessing risk-return tradeoff of OPE 33
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 ?
    候補 2 1.2 ?
    候補 3 1.0 ?
    候補 4 0.8 ?
    候補 5 0.5 ?

    View full-size slide

  34. SharpeRatioの計算例
    上位3個の⽅策選択を評価する場合を考える。
    December 2023 Towards assessing risk-return tradeoff of OPE 34
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 ?
    候補 2 1.2 ?
    候補 3 1.0 ?
    候補 4 0.8 ?
    候補 5 0.5 ?
    A/B test

    View full-size slide

  35. SharpeRatioの計算例
    上位3個の⽅策選択を評価する場合を考える。
    December 2023 Towards assessing risk-return tradeoff of OPE 35
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 2.0
    候補 2 1.2 0.5
    候補 3 1.0 1.2
    候補 4 0.8 ?
    候補 5 0.5 ?
    分⼦ = best@𝑘 - 𝐽(𝜋𝑏
    )
    = 2.0 ‒ 1.0
    = 1.0

    View full-size slide

  36. 上位3個の⽅策選択を評価する場合を考える。
    SharpeRatioの計算例
    December 2023 Towards assessing risk-return tradeoff of OPE 36
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 2.0
    候補 2 1.2 0.5
    候補 3 1.0 1.2
    候補 4 0.8 ?
    候補 5 0.5 ?
    分⼦ = best@𝑘 - 𝐽(𝜋𝑏
    )
    = 2.0 ‒ 1.0
    = 1.0
    分⺟ = std@𝑘
    = 1/𝑘 ∑#$%
    & 𝐽 𝜋𝑖
    − mean@𝑘 2
    = 0.75

    View full-size slide

  37. 上位3個の⽅策選択を評価する場合を考える。
    SharpeRatioの計算例
    December 2023 Towards assessing risk-return tradeoff of OPE 37
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 2.0
    候補 2 1.2 0.5
    候補 3 1.0 1.2
    候補 4 0.8 ?
    候補 5 0.5 ?
    分⼦ = best@𝑘 - 𝐽(𝜋𝑏
    )
    = 2.0 ‒ 1.0
    = 1.0
    分⺟ = std@𝑘
    = 1/𝑘 ∑#$%
    & 𝐽 𝜋𝑖
    − mean@𝑘 2
    = 0.75
    SharpeRatio = 1.0 / 0.75 = 1.33..

    View full-size slide

  38. 上位3個の⽅策選択を評価する場合を考える。
    SharpeRatioの計算例
    December 2023 Towards assessing risk-return tradeoff of OPE 38
    SharpeRatio = 1.33..
    policy
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    candidate 1 1.8 2.0
    candidate 2 0.8 ?
    candidate 3 1.0 1.2
    candidate 4 1.2 1.0
    candidate 5 0.5 ?
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 2.0
    候補 2 1.2 0.5
    候補 3 1.0 1.2
    候補 4 0.8 ?
    候補 5 0.5 ?
    SharpeRatio = 1.92..

    View full-size slide

  39. 上位3個の⽅策選択を評価する場合を考える。
    SharpeRatioの計算例
    December 2023 Towards assessing risk-return tradeoff of OPE 39
    SharpeRatio = 1.33..
    policy
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    candidate 1 1.8 2.0
    candidate 2 0.8 ?
    candidate 3 1.0 1.2
    candidate 4 1.2 1.0
    candidate 5 0.5 ?
    方策
    OPEで推定
    された方策価値
    真の
    方策価値
    behavior 𝜋𝑏
    - 1.0
    候補 1 1.8 2.0
    候補 2 1.2 0.5
    候補 3 1.0 1.2
    候補 4 0.8 ?
    候補 5 0.5 ?
    SharpeRatio = 1.92..
    性能の悪い方策をデプロイするリスクが低い

    View full-size slide

  40. 事例の紹介
    December 2023 Towards assessing risk-return tradeoff of OPE 40

    View full-size slide

  41. SharpeRatioはより情報量の多い性能検証を⾏う (1/2)
    既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。
    SharpeRatioは 過小評価 vs. 過大評価 を区別できるのか?
    December 2023 Towards assessing risk-return tradeoff of OPE 41
    estimator X estimator Y
    MSE 11.3 11.3
    RankCorr 0.413 0.413
    Regret 0.0 0.0
    例えば、上位3個の⽅策集合の構成は⼤きく異なる。

    View full-size slide

  42. SharpeRatioはより情報量の多い性能検証を⾏う (1/2)
    既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。
    SharpeRatioはより安全な方策ポートフォリオを選ぶ推定量を特定できている。
    December 2023 Towards assessing risk-return tradeoff of OPE 42

    View full-size slide

  43. SharpeRatioはより情報量の多い性能検証を⾏う(2/2)
    既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。
    SharpeRatioは 保守的 vs. ハイリスクハイリターン を区別できるのか?
    December 2023 Towards assessing risk-return tradeoff of OPE 43
    estimator W estimator Z
    MSE 60.1 58.6
    RankCorr 0.079 0.023
    Regret 9.0 9.0
    推定量 Z はランダム選択であるのでよりリスクが⾼そう。

    View full-size slide

  44. SharpeRatioはより情報量の多い性能検証を⾏う(1/2)
    既存の性能検証指標が区別できなかった2つの推定量の性能検証を⽐較する。
    SharpeRatio は 効率的 な推定量を 前提条件 を加味して選べる!
    December 2023 Towards assessing risk-return tradeoff of OPE 44
    (ベースラインとなるデータ収集方策の性能のこと)
    ベースラインの性能が高い
    ベースラインの性能が低い
    保守的な推定量は性能の悪い⽅策をデプロイしにくい ハイリスクはベースラインを改善しやすい

    View full-size slide

  45. gymの環境を使った実験
    SharpeRatioと既存指標による性能検証結果は、場合によってはかなり異なる。
    December 2023 Towards assessing risk-return tradeoff of OPE 45
    注: この実験では推定量の⽤いる重みを正規化している。
    SharpeRatio は k=2,..,4 では PDIS
    k=6,..,11 では DM を高く評価
    MSEとRegretは MIS を、RankCorrは DM を高く評価
    また、RankCorrは PDIS を MDR より高く評価

    View full-size slide

  46. gymの環境を使った実験(考察)
    SharpeRatioは性能の悪い方策をデプロイするリスクをきちんと考慮できている!
    December 2023 Towards assessing risk-return tradeoff of OPE 46
    • MSEやRegretの選んだ MIS は小さな 𝑘 の時に非常に性能の悪い方策をデプロイ。
    • RankCorrは比較的安全な DM を選べてはいたが, 𝑘 ≥ 5 で高リスクな PDIS を MDR より高評価。
    • SharpeRatio はリターンをリスク(std)で割引評価することで、安全性を考慮して評価できる。

    View full-size slide

  47. まとめ
    • 実務でのオフ⽅策評価は、A/Bテストに使う上位 k 個の⽅策を選ぶ
    “スクリーニング”の機能を果たすことが多い
    • 提案したSharpeRatioは、A/Bテスト時のリスクとリターンのトレードオフ
    における効率性を基に性能検証する
    • SharpeRatio を使えばより安全な推定量を選んだり、ベースライン⽅策の性能
    に合わせてより効率的な推定量を選んだりすることができる
    SharpeRatioは既存の指標よりも有益で情報量の多い性能検証を可能に!
    December 2023 Towards assessing risk-return tradeoff of OPE 47

    View full-size slide

  48. SharpeRatio は SCOPE-RL にて実装を公開
    SCOPE-RLを使えば、SharpeRatioによるOPEの性能検証を容易に実装可能。
    December 2023 Towards assessing risk-return tradeoff of OPE 48
    Install now!!
    GitHub documentation

    View full-size slide

  49. Thank you!
    contact: [email protected]
    December 2023 Towards assessing risk-return tradeoff of OPE 49

    View full-size slide

  50. 論⽂情報
    December 2023 Towards assessing risk-return tradeoff of OPE 50
    1. “Towards Assessing and Benchmarking the Risk-Return
    Tradeoff of Off-Policy Evaluation.” arXiv preprint, 2023.
    https://arxiv.org/abs/2311.18207
    2. “SCOPE-RL: A Python Library for Offline Reinforcement
    Learning and Off-Policy Evaluation.” arXiv preprint, 2023.
    https://arxiv.org/abs/2311.18206

    View full-size slide

  51. Appendix
    December 2023 Towards assessing risk-return tradeoff of OPE 51

    View full-size slide

  52. ⾦融分野における Sharpe ratio [Sharpe,98]
    との関係性
    ⾦融では、リスクが少なく収益が上げられる投資が好まれる。
    December 2023 Towards assessing risk-return tradeoff of OPE 52
    資産価値 資産価値
    時点 時点
    購⼊ 評価期⽇ 評価期⽇
    購⼊
    収益
    収益
    最終益は⼤きくはないが、堅実に⿊字に 最終益は⿊字だが、賭け事のように振れ幅が⼤きい

    View full-size slide

  53. ⾦融分野における Sharpe ratio [Sharpe,98]
    との関係性
    ⾦融では、リスクが少なく収益が上げられる投資が好まれる。
    Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき)
    = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd)
    Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。
    December 2023 Towards assessing risk-return tradeoff of OPE 53

    View full-size slide

  54. ⾦融分野における Sharpe ratio [Sharpe,98]
    との関係性
    ⾦融では、リスクが少なく収益が上げられる投資が好まれる。
    Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき)
    = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd)
    Sharpe ratioを改善するため複数の資産投資を組み合わせポートフォリオを作成。
    本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。
    December 2023 Towards assessing risk-return tradeoff of OPE 54
    考え⽅を応⽤

    View full-size slide

  55. ⾦融分野における Sharpe ratio [Sharpe,98]
    との関係性
    ⾦融では、リスクが少なく収益が上げられる投資が好まれる。
    Sharpe ratio = (期間内の資産の増分) / (期間内の資産価値のばらつき)
    = ( 資産価値 (期日) – 資産価値 (購入) ) / (期間内の資産価値のstd)
    SharpeRatio = (A/B..による方策価値の増分) / (A/B..中の方策価値のばらつき)
    = ( A/B..で選ばれた方策の性能 – A/B..前の性能 ) / (A/B..での𝑘個の方策価値のstd)
    本研究はA/Bテストに⽤いられる上位 𝒌 個の⽅策を⽅策ポートフォリオと⾒る。
    December 2023 Towards assessing risk-return tradeoff of OPE 55

    View full-size slide

  56. 様々な環境でのSharpeRatioと既存指標の⽐較
    December 2023 Towards assessing risk-return tradeoff of OPE 56
    7つの強化学習環境において、5つのオフ⽅策推定量の性能を、
    10個のrandom seedを⽤いて評価し、その傾向を分析。
    SharpeRatioと既存指標はある程度相関するが、必ずしも⼀致しない
    (既存指標ではリスクを考慮していないため)

    View full-size slide

  57. 実験で使⽤した正規化した既存の性能検証指標
    MSEとRegretに関しては、以下のように正規化することでスケールを揃える。
    December 2023 Towards assessing risk-return tradeoff of OPE 57

    View full-size slide

  58. 実験の設定
    • Gym-ClassicControl [Brockman+,16] の中でも MountainCar を使⽤。
    • データ収集⽅策は DDQN [Hasselt+,16] により学習されたQ関数に基づくsoftmax⽅策。
    • オフ⽅策評価する候補⽅策は CQL [Kumar+,20] と BCQ [Fujimoto+,19] に基づく ε-greedy ⽅策。
    • オフ⽅策評価では FQE [Le+,19] を %
    𝑄 の学習に、BestDICE [Yang+,20] を '
    𝜌 の学習に⽤いる。
    • バリアンスを軽減するため、オフ⽅策推定量の重みは正規化する。[Kallus&Uehara,19]
    • DDQN, CQL, BCQ, FQE のアルゴリズム実装は d3rlpy [Seno&Imai,22] のものを使⽤。
    December 2023 Towards assessing risk-return tradeoff of OPE 58
    詳細は論文を参照

    View full-size slide

  59. 重点サンプリング推定量の直感的な理解
    December 2023 Towards assessing risk-return tradeoff of OPE 59
    評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。
    評価⽅策
    データ収集⽅策 action A action B
    多い
    少ない
    少ない
    多い

    View full-size slide

  60. 重点サンプリング推定量の直感的な理解
    December 2023 Towards assessing risk-return tradeoff of OPE 60
    重みづけにより
    action Aを仮想的に増やす
    評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。
    action A action B
    評価⽅策
    データ収集⽅策
    多い
    少ない
    少ない
    多い

    View full-size slide

  61. 重点サンプリング推定量の直感的な理解
    December 2023 Towards assessing risk-return tradeoff of OPE 61
    しかし重みが大きいと
    バリアンスも大きくなってしまう
    評価⽅策は A の⾏動をより多く取るが、データは B の⾏動をより多く含む。
    ranking A
    多い
    少ない
    評価⽅策
    データ収集⽅策

    View full-size slide

  62. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16]
    DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。
    December 2023 Towards assessing risk-return tradeoff of OPE 62
    (再帰的な表記)
    報酬予測の残差にのみ
    重点サンプリングを適用
    時刻 𝑡 以降の⽅策価値

    View full-size slide

  63. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16]
    DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。
    利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。
    ⽋点: 𝑡 が⼤きい時にはまだバリアンスが⼤きくなり得る。
    December 2023 Towards assessing risk-return tradeoff of OPE 63

    View full-size slide

  64. State-action Marginal DR (MDR) [Uehara+,20]
    MDRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。
    利点: %
    𝜌 か "
    𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。
    ⽋点: %
    𝜌 を正確に推定することは難しく、バイアスに繋がる。
    December 2023 Towards assessing risk-return tradeoff of OPE 64
    残差に対して周辺分布上での重みづけを適用する

    View full-size slide

  65. Self-normalized estimators [Kallus&Uehara,19]
    重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。
    重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。
    December 2023 Towards assessing risk-return tradeoff of OPE 65

    View full-size slide

  66. Self-normalized estimators [Kallus&Uehara,19]
    重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。
    December 2023 Towards assessing risk-return tradeoff of OPE 66

    View full-size slide

  67. References
    December 2023 Towards assessing risk-return tradeoff of OPE 67

    View full-size slide

  68. 参考⽂献 (1/4)
    [Le+,19] Hoang M. Le, Cameron Voloshin, Yisong Yue. “Batch Policy Learning under
    Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738
    [Precup+,00] Doina Precup, Richard S. Sutton, Satinder Singh. “Eligibility Traces for
    Off-Policy Policy Evaluation.” ICML, 2000.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult
    y_pubs
    [Jiang&Li,16] Nan Jiang, Lihong Li. “Doubly Robust Off-policy Value Evaluation for
    Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722
    [Thomas&Brunskill,16] Philip S. Thomas, Emma Brunskill. “Data-Efficient Off-Policy
    Policy Evaluation for Reinforcement Learning.” ICML, 2016.
    https://arxiv.org/abs/1604.00923
    December 2023 Towards assessing risk-return tradeoff of OPE 68

    View full-size slide

  69. 参考⽂献 (2/4)
    [Uehara+,20] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax Weight and Q-
    Function Learning for Off-Policy Evaluation.” ICML, 2020.
    https://arxiv.org/abs/1910.12809
    [Kallus&Uehara,19] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable,
    and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019.
    https://arxiv.org/abs/1906.03735
    [Brockman+,16] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider,
    John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016.
    https://arxiv.org/abs/1606.01540
    [Voloshin+,21] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical
    Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS
    datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854
    December 2023 Towards assessing risk-return tradeoff of OPE 69

    View full-size slide

  70. 参考⽂献 (3/4)
    [Fu+,21] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang,
    Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar,
    Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off-Policy
    Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596
    [Doroudi+,18] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance
    Sampling for Fair Policy Selection.” IJCAI, 2018.
    https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf
    [Kiyohara+,23] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami,
    Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “SCOPE-RL: A Python Library for Offline
    Reinforcement Learning, Off-Policy Evaluation, and Policy Selection.” 2023.
    [Hasselt+,16] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement
    Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461
    December 2023 Towards assessing risk-return tradeoff of OPE 70

    View full-size slide

  71. 参考⽂献 (4/4)
    [Kumar+,20] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine.
    “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020.
    https://arxiv.org/abs/2006.04779
    [Fujimoto+,19] Scott Fujimoto, David Meger, Doina Precup. “Off-Policy Deep
    Reinforcement Learning without Exploration.” ICML, 2019.
    https://arxiv.org/abs/1812.02900
    [Yang+,20] Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li, Dale Schuurmans. “Off-
    Policy Evaluation via the Regularized Lagrangian.” NeurIPS, 2020.
    https://arxiv.org/abs/2007.03438
    [Seno&Imai,22] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep
    Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788
    [Sharpe,98] William Sharpe. “The Sharpe Ratio.” Streetwise – the Best of the Journal
    of Portfolio Management, 1998.
    December 2023 Towards assessing risk-return tradeoff of OPE 71

    View full-size slide