Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

Haruka Kiyohara

November 30, 2023
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. オフライン強化学習とオフ⽅策評価ライブラリ
    SCOPE-RLの紹介とチュートリアル
    Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami,
    Ken Kobayashi, Kazuhide Nakata, Yuta Saito
    November 2023 SCOPE-RL package description 1

    View full-size slide

  2. 連続的な意思決定を最適化したい場⾯は数多く存在
    医療における連続的意思決定の例
    強化学習(Reinforcement Learning; RL)の問題として意思決定を最適化したい
    November 2023 SCOPE-RL package description 2
    他にも応⽤事例は⾄る所に
    • ロボティクス
    • ⾃動運転
    • 商品推薦
    • 教育
    • …

    View full-size slide

  3. オンラインとオフラインの強化学習
    • オンライン強化学習 –
    • ⽅策を実環境と作⽤させながら学習する
    • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも
    • オフライン強化学習 –
    • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する
    • オンライン強化学習より安全に⽅策を学習できる可能性
    November 2023 SCOPE-RL package description 3

    View full-size slide

  4. オンラインとオフラインの強化学習
    • オンライン強化学習 –
    • ⽅策を実環境と作⽤させながら学習する
    • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも
    • オフライン強化学習 –
    • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する
    • オンライン強化学習より安全に⽅策を学習できる可能性
    November 2023 SCOPE-RL package description 4
    特に、オフライン強化学習の実装
    パイプラインについて議論

    View full-size slide

  5. このスライドでお伝えすること
    • なぜ新しいライブラリが必要だったのか?
    • SCOPE-RLの主な貢献と特徴
    • オフライン強化学習から⽅策評価まで⼀貫してできる初のライブラリ
    • 多様なオフ⽅策評価⼿法(推定量)の実装
    • オフ⽅策推定量の検証プロセスの標準化
    • 使いやすいAPI設計
    • Appendix
    • SCOPE-RLの簡単なチュートリアル
    • 実装されているオフ⽅策推定量とその検証指標の紹介
    November 2023 SCOPE-RL package description 5

    View full-size slide

  6. Motivation
    November 2023 SCOPE-RL package description 6
    なぜSCOPE-RLを公開することになったのか?

    View full-size slide

  7. オフライン強化学習の流れ
    「オフライン強化学習」の単語から、学習部分だけが想起されることが多い。
    November 2023 SCOPE-RL package description 7
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    デプロイ?

    View full-size slide

  8. オフライン強化学習は⽅策学習と評価は2段階必要
    学習と評価が両⽅うまくいかなければ、性能の良い⽅策はデプロイできない。
    November 2023 SCOPE-RL package description 8
    オフ方策評価
    (Off-Policy Evaluation; OPE)
    オンラインのA/Bテスト
    もし方策学習が失敗したら..
    → そもそも候補となる⽅策集合に
    ⾼性能な⽅策を含めることができない
    もし方策評価が失敗したら..
    → 候補の⽅策集合から最終⽅策を選ぶ際、
    性能の悪い⽅策を選んでしまう可能性
    .. 性能の悪い⽅策をデプロイするのは
    避けたいので、両⽅うまくやる必要。
    (様々なハイパラ)
    (アルゴリズム)

    View full-size slide

  9. オフライン強化学習の理想的な流れ
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    November 2023 SCOPE-RL package description 9
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  10. オフライン強化学習の理想的な流れ
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    全ての機能を⼀貫したプラットフォームで柔軟に実装できるなら..
    • 実応⽤では、オフライン強化学習の実装や活⽤
    • 研究では、新たな⽅策学習や⽅策評価の⼿法の⽐較や検証
    November 2023 SCOPE-RL package description 10
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要
    が容易に

    View full-size slide

  11. それぞれのモジュールの理想的な機能
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    • 様々な環境やタスクに対応できる
    November 2023 SCOPE-RL package description 11
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  12. それぞれのモジュールの理想的な機能
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    • 様々な環境やタスクに対応できる
    • 多様なオフライン強化学習⼿法を実装し⽐較できる
    November 2023 SCOPE-RL package description 12
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  13. それぞれのモジュールの理想的な機能
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    • 様々な環境やタスクに対応できる
    • 多様なオフライン強化学習⼿法を実装し⽐較できる
    • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
    November 2023 SCOPE-RL package description 13
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  14. それぞれのモジュールの理想的な機能
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    • 様々な環境やタスクに対応できる
    • 多様なオフライン強化学習⼿法を実装し⽐較できる
    • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
    • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる
    November 2023 SCOPE-RL package description 14
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  15. それぞれのモジュールの理想的な機能
    オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。
    November 2023 SCOPE-RL package description 15
    残念ながら, 既存のオフライン強化学習プラットフォームには
    どこかしら不⼗分な点があり、全ての機能の⼀貫した実装ができない..
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  16. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 16
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    Benchmark for OPE
    (DOPE, COBS)
    (OBP)
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × (not flexible)
    ✓ ✓
    × (implements whole procedures, but is not applicable to RL)
    × (specific)
    ✓ × (limited)
    ×

    View full-size slide

  17. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 17
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    (OBP)
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × (限定的)
    ✓ ✓
    × (implements whole procedures, but is not applicable to RL)
    × (specific)
    ✓ × (limited)
    ×

    View full-size slide

  18. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 18
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    OPEのライブラリ
    (OBP)
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × (限定的)
    ✓ ✓
    × (specific)
    ✓ × (limited)
    ×
    ✓? ✓? ✓? ✓?

    View full-size slide

  19. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 19
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    OPEのライブラリ
    (OBP)
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × ✓ ✓
    × (specific)
    ✓ × (limited)
    ×
    ×
    (限定的)
    (より簡易なバンディットの設定で、強化学習には適⽤不可)

    View full-size slide

  20. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 20
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    OPEのライブラリ
    (OBP)
    応⽤向けのライブラリ
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × ✓ ✓
    ×
    × (特定のみ)
    ✓ × (限定的)
    ×
    (限定的)
    (より簡易なバンディットの設定で、強化学習には適⽤不可)

    View full-size slide

  21. 既存のオフライン強化学習ライブラリの⽋点
    どの既存プラットフォームを使っても⼀貫した実装ができない。
    November 2023 SCOPE-RL package description 21
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    OPEのライブラリ
    (OBP)
    応⽤向けのライブラリ
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × ✓ ✓
    ×
    × (特定のみ)
    ✓ × (限定的)
    ×
    (限定的)
    (より簡易なバンディットの設定で、強化学習には適⽤不可)

    View full-size slide

  22. 既存のオフライン強化学習ライブラリの⽋点
    特に、オフ⽅策評価の機能を提供できているライブラリがかなり少ない。
    November 2023 SCOPE-RL package description 22
    offline RLのライブラリ
    (d3rlpy, Horizon, RLlib)
    OPEのベンチマーク
    (DOPE, COBS)
    OPEのライブラリ
    (OBP)
    応⽤向けのライブラリ
    (RecoGym, RL4RS)
    OPEの性能検証
    OPE
    offline RL
    データ収集
    ✓ ✓ × (限定的)
    ×
    × ✓ ✓
    ×
    × (特定のみ)
    ✓ × (限定的)
    ×
    ×
    (限定的)
    (強化学習は不可)

    View full-size slide

  23. SCOPE-RLの貢献
    November 2023 SCOPE-RL package description 23
    SCOPE-RLは他にはないどんな機能を備えているのか?

    View full-size slide

  24. SCOPE-RLの貢献点のまとめ
    以下のスライドにて⼀つづつ紹介:
    • オフライン強化学習とオフ⽅策評価を繋ぐ初のライブラリ
    • 多様なオフ⽅策推定量とOPEの性能検証指標の実装
    • ⽅策のリスク評価のための「分布オフ⽅策評価」
    • オフ⽅策評価とそれを基にした⽅策選択におけるリスクを評価する指標
    • 使いやすいAPI設計や可視化ツール、充実したドキュメンテーション
    November 2023 SCOPE-RL package description 24

    View full-size slide

  25. オフライン強化学習とオフライン評価の⼀貫した実装
    ⽅策評価からオフ⽅策評価、OPEの性能検証までできるライブラリは初。
    November 2023 SCOPE-RL package description 25
    OpenAI GymやGymnasium
    との互換性をサポート
    d3rlpyとの連携 特に重点をおいたポイント:
    多様なOPE推定量やその性能検証指標の実装
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  26. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。
    • : 状態 (state)
    • : ⾏動 (action)
    • : 報酬 (reward)
    • : 時刻 (timestep)
    • : 状態遷移確率
    • : 報酬分布
    • : 割引率
    • : 軌跡・履歴 (trajectory)
    特に重点を置いているのは⽅策評価の部分
    November 2023 SCOPE-RL package description 26
    ▼ 興味の対象

    View full-size slide

  27. 様々なオフ⽅策推定量とその性能検証指標
    SCOPE-RLは⽅策の期待性能を推定するためのオフ⽅策推定量を多数実装。
    • (基礎) Direct Method (DM) / Per-Decision Importance Sampling (PDIS) / Doubly Robust (DR)
    • (発展) State(-action) Marginal Importance Sampling (S(A)MIS) and Doubly Robust (S(A)MDR)
    / Double Reinforcement Learning (DRL)
    • (拡張) Self-normalized estimators / Spectrum of OPE (SOPE)
    / kernel-based estimators for continuous actions
    November 2023 SCOPE-RL package description 27
    推定量の詳細はAppendixにて

    View full-size slide

  28. 様々なオフ⽅策推定量とその性能検証指標
    SCOPE-RLはさらに、従来より多⾓的かつ詳細な評価・性能検証を可能に。
    November 2023 SCOPE-RL package description 28
    オフ方策評価
    オフ方策評価
    の性能検証

    View full-size slide

  29. (1) リスク関数推定のための分布オフ⽅策評価
    分布オフ⽅策評価(Cumlative distribution OPE; CD-OPE) は分布全体を推定。
    November 2023 SCOPE-RL package description 29
    𝐹(𝜋)
    報酬に対する閾値

    View full-size slide

  30. (1) リスク関数推定のための分布オフ⽅策評価
    推定した累積度数分布(CDF)を使い、様々な統計量(リスク指標)を導出。
    November 2023 SCOPE-RL package description 30
    下位ケースにおける方策の性能を
    比較し、方策の安全性を評価できる
    trajectory-wise
    reward
    Note: CVaR is the average of the worst (1 - 𝛼) % trials.

    View full-size slide

  31. これまでの話 – OPE推定量
    ここからはOPE推定量の性能検証の話題に。
    • 様々な環境やタスクに対応できる
    • 多様なオフライン強化学習⼿法を実装し⽐較できる
    • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
    • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる
    November 2023 SCOPE-RL package description 31
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  32. ここからの話 – OPE推定量の性能検証
    ここからはOPE推定量の性能検証の話題に。
    • 様々な環境やタスクに対応できる
    • 多様なオフライン強化学習⼿法を実装し⽐較できる
    • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
    • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる
    November 2023 SCOPE-RL package description 32
    データ収集
    ⽅策学習
    (⼀般的なオフラインRL)
    オフ⽅策評価(OPE)や
    それに基づく⽅策選択
    オフ⽅策推定量
    の性能検証も必要

    View full-size slide

  33. (2) OPE推定量の性能検証指標
    標準的な性能検証指標は、ベストに近い⽅策を選べそうかを検証。
    November 2023 SCOPE-RL package description 33
    オフ方策評価(OPE)の結果を基に
    直接最終的なデプロイ方策を選択する

    View full-size slide

  34. (2) OPE推定量の性能検証指標
    SCOPE-RLは3つの既存の性能検証指標を実装している。
    • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ”
    • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ”
    • Regret – ⽅策の 選択 の “正確さ”
    November 2023 SCOPE-RL package description 34
    各指標の詳細はAppendixにて

    View full-size slide

  35. (2) OPE推定量の性能検証指標
    既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。
    .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。
    November 2023 SCOPE-RL package description 35
    OPEの不確実性や推定誤差が理由で
    OPEだけでは安心して方策選択できないため

    View full-size slide

  36. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    November 2023 SCOPE-RL package description 36
    OPE を “スクリーニング”
    の過程として捉える
    最終的には A/Bテストの結果
    も組み合わせて方策選択

    View full-size slide

  37. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    November 2023 SCOPE-RL package description 37
    OPE を “スクリーニング”
    の過程として捉える
    A/Bテスト時のリスクとリターンの
    トレードオフを評価

    View full-size slide

  38. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • best@𝑘 (リターン)
    • worst@𝑘, mean@𝑘, std@𝑘 (リスク)
    • safety violation rate@𝑘 (リスク)
    • SharpeRatio@k (効率性)
    November 2023 SCOPE-RL package description 38
    各指標の詳細はAppendixにて
    選ばれた⽅策集合を
    「⽅策ポートフォリオ」とみなし、
    その統計量でOPE推定量を評価する

    View full-size slide

  39. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • best@𝑘 (リターン):
    A/Bテスト後に最終的に選ばれる⽅策の性能を表す
    November 2023 SCOPE-RL package description 39
    ⼤きい⽅が良い
    各指標の詳細はAppendixにて

    View full-size slide

  40. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク):
    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまう危険性を表す
    November 2023 SCOPE-RL package description 40
    指標に依るが、図中では⼩さい⽅が良い
    各指標の詳細はAppendixにて

    View full-size slide

  41. (2) 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • SharpeRatio@k (効率性):
    リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏
    )) に対し、リターン (best@𝑘) が
    どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する
    November 2023 SCOPE-RL package description 41
    ⼤きい⽅が良い
    各指標の詳細はAppendixにて

    View full-size slide

  42. OPEにおけるユニークな機能のまとめ
    SCOPE-RLは従来より多⾓的かつ詳細な評価・性能検証を可能に。
    November 2023 SCOPE-RL package description 42
    オフ方策評価
    オフ方策評価
    の性能検証

    View full-size slide

  43. SCOPE-RLの貢献点のまとめ
    • オフライン強化学習とオフ⽅策評価の⼀貫した実装を初めて可能に
    • 多くの既存ライブラリと異なり、オフ⽅策評価(OPE)に主眼を置く
    • .. 多様なオフ⽅策推定量を実装
    • .. 初めて「分布オフ⽅策評価」をサポート
    • .. OPE推定量の性能検証までをも可能に
    SCOPE-RLを使えば、オフ方策評価を簡単に実行し検証できる!
    November 2023 SCOPE-RL package description 43

    View full-size slide

  44. 使いやすいAPI設計も特徴の⼀つ
    例えば、OPE推定量の検証とその結果の可視化がたった1⾏のコードで。
    November 2023 SCOPE-RL package description 44
    GitHub
    Install now!!

    View full-size slide

  45. 充実したドキュメンテーションも公開
    November 2023 SCOPE-RL package description 45
    documentation
    Install now!!

    View full-size slide

  46. ぜひ SCOPE-RL を使ってください!
    • ドキュメンテーション:
    https://scope-rl.readthedocs.io/en/latest/
    • APIの説明:
    https://scope-rl.readthedocs.io/en/latest/
    documentation/scope_rl_api.html
    • GitHub:
    https://github.com/hakuhodo-technologies/scope-rl
    • PyPI:
    https://pypi.org/project/scope-rl/
    • Google Group:
    https://groups.google.com/g/scope-rl
    November 2023 SCOPE-RL package description 46
    documentation
    GitHub PyPI

    View full-size slide

  47. Thank you!
    contact: [email protected]
    November 2023 SCOPE-RL package description 47

    View full-size slide

  48. Example Usage
    SCOPE-RLを使った offline RL & OPE 実装のチュートリアル
    November 2023 SCOPE-RL package description 48

    View full-size slide

  49. Step 1: データ収集
    たったの6⾏で必要な実装ができる。
    November 2023 SCOPE-RL package description 49
    RTBGymによる簡単なデモ
    offline RL
    OPE/OPS
    OPEの性能検証
    データ収集

    View full-size slide

  50. Step 1: データ収集
    たったの6⾏で必要な実装ができる。
    November 2023 SCOPE-RL package description 50
    offline RL
    OPE/OPS
    OPEの性能検証
    データ収集
    RTBGymによる簡単なデモ

    View full-size slide

  51. Step 1: データ収集
    たったの6⾏で必要な実装ができる。
    November 2023 SCOPE-RL package description 51
    offline RL
    OPE/OPS
    OPEの性能検証
    データ収集
    RTBGymによる簡単なデモ

    View full-size slide

  52. Step 1: データ収集
    たったの6⾏で必要な実装ができる。
    November 2023 SCOPE-RL package description 52
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証
    RTBGymによる簡単なデモ

    View full-size slide

  53. Step 1: データ収集
    たったの6⾏で必要な実装ができる。
    November 2023 SCOPE-RL package description 53
    offline RL
    OPE/OPS
    OPEの性能検証
    データ収集
    RTBGymによる簡単なデモ

    View full-size slide

  54. Step2: offline RLで新たな⽅策を学習する
    オフライン強化学習の⽅策学習にはd3rlpyを使う。
    November 2023 SCOPE-RL package description 54
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  55. 複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    Step3: 期待性能を評価する標準的なオフ⽅策評価
    November 2023 SCOPE-RL package description 55
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  56. Step3: 期待性能を評価する標準的なオフ⽅策評価
    複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    November 2023 SCOPE-RL package description 56
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  57. Step3: 期待性能を評価する標準的なオフ⽅策評価
    複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    November 2023 SCOPE-RL package description 57
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  58. Step3: 期待性能を評価する標準的なオフ⽅策評価
    複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    November 2023 SCOPE-RL package description 58
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  59. Step3: 期待性能を評価する標準的なオフ⽅策評価
    複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    November 2023 SCOPE-RL package description 59
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  60. Step3: 期待性能を評価する標準的なオフ⽅策評価
    複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。
    November 2023 SCOPE-RL package description 60
    estimated policy value

    View full-size slide

  61. Step4: 分布オフ⽅策評価
    November 2023 SCOPE-RL package description 61
    分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  62. Step4: 分布オフ⽅策評価
    分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。
    November 2023 SCOPE-RL package description 62
    推定した累積度数関数(CDF)
    様々な閾値で推定した下位平均性能(CVaR)

    View full-size slide

  63. Step4: 分布オフ⽅策評価
    分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。
    November 2023 SCOPE-RL package description 63
    推定した10%-90%までの性能分布範囲

    View full-size slide

  64. Step5: オフ⽅策選択(OPS)とOPE/OPSの性能検証
    オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。
    November 2023 SCOPE-RL package description 64
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  65. Step5: オフ⽅策選択(OPS)とOPE/OPSの性能検証
    オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。
    November 2023 SCOPE-RL package description 65
    真の variance (x) とそのオフ⽅策推定値 (y) の⽐較
    OPSの様々な評価指標の計算

    View full-size slide

  66. Step6: OPE/OPSのリスクとリターンの評価もできる
    オンラインA/Bテストを想定した上位 𝑘 個の⽅策集合の評価も。
    November 2023 SCOPE-RL package description 66
    データ収集
    offline RL
    OPE/OPS
    OPEの性能検証

    View full-size slide

  67. OPE estimators and metrics
    November 2023 SCOPE-RL package description 67
    SCOPE-RLに実装されている推定量などをご紹介
    p65-79: 標準的な期待性能推定のためのOPE
    p80-85: 分布オフ⽅策評価
    P86-96: OPEの性能検証

    View full-size slide

  68. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。
    • : 状態 (state)
    • : ⾏動 (action)
    • : 報酬 (reward)
    • : 時刻 (timestep)
    • : 状態遷移確率
    • : 報酬分布
    • : 割引率
    • : 軌跡・履歴 (trajectory)
    定式化の確認
    November 2023 SCOPE-RL package description 68
    ▼ 興味の対象

    View full-size slide

  69. 標準的なOPEのための推定量
    ⼀連のインタラクションで得られる累積報酬の期待値(⽅策価値)を推定したい。
    November 2023 SCOPE-RL package description 69
    オフ方策推定量 データ収集⽅策が集めた
    蓄積データ
    反実仮想 と
    分布シフト の問題
    データ収集⽅策

    View full-size slide

  70. Direct Method (DM) [Le+,19]
    DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。
    利点: バリアンスが⼩さい.
    ⽋点: ⼤きなバイアスが発⽣しうる( &
    𝑄 が不正確な場合).
    November 2023 SCOPE-RL package description 70
    予測した状態行動価値
    将来の時刻で得られる
    累積報酬を予測
    経験平均
    (𝑛: データサイズ, 𝑖: インデックス)

    View full-size slide

  71. Per-Decision Importance Sampling (PDIS) [Precup+,00]
    PDISは分布シフトを補正するために重点サンプリングを適⽤する。
    利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。
    ⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。
    November 2023 SCOPE-RL package description 71
    重みづけ(= 各時刻での重みの総積)

    View full-size slide

  72. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16]
    DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。
    November 2023 SCOPE-RL package description 72
    (再帰的な表記)
    報酬予測の残差にのみ
    重点サンプリングを適用
    時刻 𝑡 以降の⽅策価値

    View full-size slide

  73. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16]
    DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。
    利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。
    ⽋点: 𝑡 が⼤きい時にはまだバリアンスが⼤きくなり得る。
    November 2023 SCOPE-RL package description 73

    View full-size slide

  74. State-action Marginal IS (SAM-IS) [Uehara+,20]
    バリアンス減少のため、SAM-ISは状態⾏動空間での周辺分布で重みづける。
    利点: )
    𝜌 が正確であれば不偏性を満たし、 PDISよりバリアンスを減少する。
    ⽋点: )
    𝜌 を正確に推定することは難しく、バイアスに繋がる。
    November 2023 SCOPE-RL package description 74
    周辺分布上での重みづけ(重みを推定する必要あり)
    状態⾏動の観測確率

    View full-size slide

  75. State-action Marginal DR (SAM-DR) [Uehara+,20]
    SAM-DRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。
    利点: )
    𝜌 か &
    𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。
    ⽋点: )
    𝜌 を正確に推定することは難しく、バイアスに繋がる。
    November 2023 SCOPE-RL package description 75
    残差に対して周辺分布上での重みづけを適用する

    View full-size slide

  76. State Marginal estimators (SM-IS/DR) [Liu+,18]
    状態空間における周辺分布上でも推定量を定義できる(⾏動は周辺化)。
    ここで、 は状態観測確率の推定であり、
    は時刻 𝑡 における逐次的な重みづけである。
    November 2023 SCOPE-RL package description 76

    View full-size slide

  77. Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21]
    SOPEは、(S(A))M-IS と PDIS の間をとることでバイアスとバリアンスを調整。
    November 2023 SCOPE-RL package description 77

    View full-size slide

  78. Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21]
    例えば、SAM-IS/DR を SOPE に組み込むと以下のようになる。
    November 2023 SCOPE-RL package description 78

    View full-size slide

  79. Double Reinforcement Learning (DRL) [Kallus&Uehara,20]
    DRLは周辺分布上で定義され、不偏性を満たす推定量の中でバリアンスが最⼩。
    DRLはcross-fittingという⼿順を⽤い、)
    𝜌 と &
    𝑄 を 𝐷\𝐷𝑘 で学習し、 -
    𝐽 を 𝐷𝑘
    で推定し
    別々のデータを使うことで発⽣し得るバイアスを極⼒減らすことができる。
    November 2023 SCOPE-RL package description 79
    (参考)
    cross-fitting

    View full-size slide

  80. Self-normalized estimators [Kallus&Uehara,19]
    重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。
    重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。
    November 2023 SCOPE-RL package description 80

    View full-size slide

  81. Self-normalized estimators [Kallus&Uehara,19]
    重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。
    November 2023 SCOPE-RL package description 81

    View full-size slide

  82. 連続⾏動空間への拡張 [Kallus&Zhou,18]
    元の重みは⾏動のほとんどを無視してしまうので、
    カーネルを使い連続⾏動空間上の⾏動の近さを考慮する。
    November 2023 SCOPE-RL package description 82
    カーネル関数
    (e.g., ガウスカーネル)

    View full-size slide

  83. 確率信頼区間の推定
    SCOPE-RLは信頼区間を求めるための確率不等式をいくつか実装。
    • Hoeffding:
    • Empirical Bernstein:
    • Student’s T-test:
    • Bootstrapping:
    November 2023 SCOPE-RL package description 83
    𝛼: confidence level

    View full-size slide

  84. 分布オフ⽅策評価のための推定量
    分布オフ⽅策評価(CD-OPE)では、累積度数分布により分布全体を推定。
    November 2023 SCOPE-RL package description 84
    𝐹(𝜋)
    下位ケースにおける方策の性能
    を比較し、方策の安全性を評価
    報酬に対する閾値

    View full-size slide

  85. 分布オフ⽅策評価のための推定量
    分布オフ⽅策評価(CD-OPE)では、累積度数分布により分布全体を推定。
    November 2023 SCOPE-RL package description 85
    分布オフ方策推定量
    𝐹(𝜋)
    [Chandak+,21] [Huang+,21,22]
    報酬に対する閾値

    View full-size slide

  86. 分布オフ⽅策評価のためのDM
    DMは報酬予測器を⽤いるモデルベースの⼿法。
    November 2023 SCOPE-RL package description 86
    報酬の予測値

    View full-size slide

  87. 分布オフ⽅策評価のためのTrajectory-wise IS (TIS)
    TISは累積度数分布を推定する際の重点サンプリングを⾏う。
    ⼤きい重みで累積確率が1を超えてしまうことがあるので、クリッピングする。
    November 2023 SCOPE-RL package description 87
    軌跡(trajectory)
    単位での重みづけ

    View full-size slide

  88. 分布オフ⽅策評価のためのTrajectory-wise DR (TDR)
    分布オフ⽅策評価でもDMとTISを組み合わせたDR型の推定量が定義できる。
    November 2023 SCOPE-RL package description 88
    残差に対して重点サンプリングを行う

    View full-size slide

  89. 分布オフ⽅策評価のためのSelf-normalized estimators
    正規化した重みを使うことで、TIS/TDRのバリアンスを軽減できる。
    November 2023 SCOPE-RL package description 89

    View full-size slide

  90. 実装されているOPEの “正確さ” の検証指標
    SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。
    • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ”
    • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ”
    • Regret – ⽅策の 選択 の “正確さ”
    • Type I and Type II error rates – ⽅策の リスク検出 の “正確さ”
    November 2023 SCOPE-RL package description 90

    View full-size slide

  91. 実装されているOPEの “正確さ” の検証指標 (1/4)
    SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。
    • Mean squared error (MSE) – ⽅策の 評価(価値推定)の “正確さ” [Voloshin+,21]
    November 2023 SCOPE-RL package description 91
    推定結果 真の方策価値
    ⼩さい⽅が良い

    View full-size slide

  92. 実装されているOPEの “正確さ” の検証指標 (2/4)
    SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。
    • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” [Fu+,21]
    November 2023 SCOPE-RL package description 92
    1
    2
    3
    4
    5
    6
    7
    推定結果 真のランキング
    ⼤きい⽅が良い

    View full-size slide

  93. 実装されているOPEの “正確さ” の検証指標 (3/4)
    SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。
    • Regret – ⽅策の 選択 の “正確さ” [Doroudi+,18]
    November 2023 SCOPE-RL package description 93
    真に最適な方策の価値 推定結果を基に選ばれてた
    方策の価値
    ⼩さい⽅が良い

    View full-size slide

  94. 実装されているOPEの “正確さ” の検証指標 (4/4)
    SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。
    • Type I and Type II error rates – ⽅策の リスク検出 の “正確さ”
    November 2023 SCOPE-RL package description 94
    false positive
    true negative
    ̅
    𝐽: 報酬に対する閾値
    (true negative / true)
    (false positive / false)
    ⼩さい⽅が良い

    View full-size slide

  95. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • best@𝑘 (リターン):
    A/Bテスト後に最終的に選ばれる⽅策の性能を表す
    • worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク):
    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す
    • SharpeRatio@k (効率性):
    リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏
    )) に対し、リターン (best@𝑘) が
    どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する
    November 2023 SCOPE-RL package description 95

    View full-size slide

  96. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • best@𝑘 (リターン; ⼤きい⽅が良い):
    A/Bテスト後に最終的に選ばれる⽅策の性能を表す
    November 2023 SCOPE-RL package description 96

    View full-size slide

  97. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • worst@𝑘, mean@𝑘 (リスク; ⼤きい⽅が良い):
    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す
    November 2023 SCOPE-RL package description 97

    View full-size slide

  98. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • std@𝑘 (リスク; ⼩さい⽅が良い):
    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す
    November 2023 SCOPE-RL package description 98

    View full-size slide

  99. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • safety violation rate@𝑘 (リスク; ⼩さい⽅が良い):
    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す
    November 2023 SCOPE-RL package description 99
    ̅
    𝐽: 報酬に対する閾値

    View full-size slide

  100. 上位 𝑘 個の⽅策選択の結果を検証する
    SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。
    • SharpeRatio@k (効率性; ⼤きい⽅が良い): [Kiyohara+,23]
    リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏
    )) に対し、リターン (best@𝑘) が
    どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する
    November 2023 SCOPE-RL package description 100

    View full-size slide

  101. References
    November 2023 SCOPE-RL package description 101

    View full-size slide

  102. 参考⽂献 (1/9)
    [Seno&Imai,22 (d3rlpy)] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep
    Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788
    [Gauci+,18 (Horizon)] Jason Gauci, Edoardo Conti, Yitao Liang, Kittipat Virochsiri,
    Yuchen He, Zachary Kaden, Vivek Narayanan, Xiaohui Ye, Zhengxing Chen, and Scott
    Fujimoto. “Horizon: Facebook's Open Source Applied Reinforcement Learning
    Platform.” 2018.
    https://arxiv.org/abs/1811.00260
    [Liang+,18 (RLlib)] Eric Liang, Richard Liaw, Philipp Moritz, Robert Nishihara, Roy Fox,
    Ken Goldberg, Joseph E. Gonzalez, Michael I. Jordan, and Ion Stoica. “RLlib:
    Abstractions for Distributed Reinforcement Learning.” ICML, 2018.
    https://arxiv.org/abs/1712.09381
    November 2023 SCOPE-RL package description 102

    View full-size slide

  103. 参考⽂献 (2/9)
    [Fu+,21 (DOPE)] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu
    Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral
    Kumar, Cosmin Paduraru, Sergey Levine, and Tom Le Paine. “Benchmarks for Deep
    Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596
    [Voloshin+,21 (COBS)] Cameron Voloshin, Hoang M. Le, Nan Jiang, and Yisong Yue.
    “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS
    dataset&benchmark, 2021. https://arxiv.org/abs/1911.06854
    [Rohde+,18 (RecoGym)] David Rohde, Stephen Bonner, Travis Dunlop, Flavian Vasile,
    and Alexandros Karatzoglou “RecoGym: A Reinforcement Learning Environment for
    the problem of Product Recommendation in Online Advertising.” 2018.
    https://arxiv.org/abs/1808.00720
    November 2023 SCOPE-RL package description 103

    View full-size slide

  104. 参考⽂献 (3/9)
    [Wang+,21 (RL4RS)] Kai Wang, Zhene Zou, Yue Shang, Qilin Deng, Minghao Zhao,
    Yile Liang, Runze Wu, Jianrong Tao, Xudong Shen, Tangjie Lyu, and Changjie Fan.
    “RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender
    System.” 2021. https://arxiv.org/abs/2110.11073
    [Saito+,21 (OBP)] Yuta Saito, Shunsuke Aihara, Megumi Matsutani, and Yusuke
    Narita. “Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-
    Policy Evaluation.” NeurIPS dataset&benchmark, 2021.
    https://arxiv.org/abs/2008.07146
    [Brockman+,16 (OpenAI Gym)] Greg Brockman, Vicki Cheung, Ludwig Pettersson,
    Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.”
    2016. https://arxiv.org/abs/1606.01540
    November 2023 SCOPE-RL package description 104

    View full-size slide

  105. 参考⽂献 (4/9)
    [Kiyohara+,21 (RTBGym)] Haruka Kiyohara, Kosuke Kawakami, and Yuta Saito.
    “Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and
    Recommendation: Potential Use of Simulation.” 2021.
    https://arxiv.org/abs/2109.08331
    [Chandak+,21 (CD-OPE)] Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik
    Learned-Miller, Emma Brunskill, and Philip S. Thomas. “Universal Off-Policy
    Evaluation.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820
    [Huang+,21 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar
    Azizzadenesheli. “Off-Policy Risk Assessment in Contextual Bandits.” NeurIPS, 2021.
    https://arxiv.org/abs/2104.12820
    November 2023 SCOPE-RL package description 105

    View full-size slide

  106. 参考⽂献 (5/9)
    [Huang+,22 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar
    Azizzadenesheli. “Off-Policy Risk Assessment for Markov Decision Processes.”
    AISTATS, 2022. https://proceedings.mlr.press/v151/huang22b.html
    [Hasselt+,16 (DDQN)] Hado van Hasselt, Arthur Guez, and David Silver. “Deep
    Reinforcement Learning with Double Q-learning.” AAAI, 2016.
    https://arxiv.org/abs/1509.06461
    [Kumar+,20 (CQL)] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine.
    “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020.
    https://arxiv.org/abs/2006.04779
    [Le+,19 (DM)] Hoang M. Le, Cameron Voloshin, and Yisong Yue. “Batch Policy
    Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738
    November 2023 SCOPE-RL package description 106

    View full-size slide

  107. 参考⽂献 (6/9)
    [Precup+,00 (IPS)] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility
    Traces for Off-Policy Policy Evaluation.” ICML, 2000.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult
    y_pubs
    [Jiang&Li,16 (DR)] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value
    Evaluation for Reinforcement Learning.” ICML, 2016.
    https://arxiv.org/abs/1511.03722
    [Thomas&Brunskill,16 (DR)] Philip S. Thomas and Emma Brunskill. “Data-Efficient
    Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016.
    https://arxiv.org/abs/1604.00923
    [Uehara+,20 (SAM-IS/DR)] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax
    Weight and Q-Function Learning for Off-Policy Evaluation.” ICML, 2020.
    https://arxiv.org/abs/1910.12809
    November 2023 SCOPE-RL package description 107

    View full-size slide

  108. 参考⽂献 (7/9)
    [Liu+,18 (SM-IS/DR)] Qiang Liu, Lihong Li, Ziyang Tang, Dengyong Zhou. “Breaking
    the Curse of Horizon: Infinite-Horizon Off-Policy Estimation.” NeurIPS, 2018.
    https://arxiv.org/abs/1810.12429
    [Yuan+,21 (SOPE)] Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S.
    Thomas, Scott Niekum. “SOPE: Spectrum of Off-Policy Estimators.” NeurIPS, 2021.
    https://arxiv.org/abs/2111.03936
    [Kallus&Uehara,20 (DRL)] Nathan Kallus, Masatoshi Uehara. “Double Reinforcement
    Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.” JMLR,
    2020. https://arxiv.org/abs/1908.08526
    [Kallus&Uehara,19 (Self-normalized estimators)] Nathan Kallus, Masatoshi Uehara.
    “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement
    Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735
    November 2023 SCOPE-RL package description 108

    View full-size slide

  109. 参考⽂献 (8/9)
    [Kallus&Zhou,18 (extension to continuous actions)] Nathan Kallus, Angela Zhou.
    “Policy Evaluation and Optimization with Continuous Treatments.” AISTATS, 2018.
    https://arxiv.org/abs/1802.06037
    [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous,
    Mohammad Ghavamzadeh. “High Confidence Off-Policy Evaluation.” AAAI, 2015.
    https://people.cs.umass.edu/~pthomas/papers/Thomas2015.pdf
    [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous,
    Mohammad Ghavamzadeh. “High Confidence Policy Improvement.” ICML, 2015.
    https://people.cs.umass.edu/~pthomas/papers/Thomas2015b.pdf
    [Voloshin+,21 (MSE)] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue.
    “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS
    datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854
    November 2023 SCOPE-RL package description 109

    View full-size slide

  110. 参考⽂献 (9/9)
    [Fu+,21 (RankCorr)] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker,
    Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral
    Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off-
    Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596
    [Doroudi+,18 (Regret)] Shayan Doroudi, Philip S. Thomas, Emma Brunskill.
    “Importance Sampling for Fair Policy Selection.” IJCAI, 2018.
    https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf
    [Kiyohara+,23 (SharpeRatio@k)] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami,
    Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “Towards Assessing and Benchmarking
    Risk-Return Tradeoff of Off-Policy Evaluation in Reinforcement Learning.” 2023.
    November 2023 SCOPE-RL package description 110

    View full-size slide