Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

Haruka Kiyohara
November 30, 2023

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

Haruka Kiyohara

November 30, 2023
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習

    – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 SCOPE-RL package description 3
  2. オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習

    – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 SCOPE-RL package description 4 特に、オフライン強化学習の実装 パイプラインについて議論
  3. このスライドでお伝えすること • なぜ新しいライブラリが必要だったのか? • SCOPE-RLの主な貢献と特徴 • オフライン強化学習から⽅策評価まで⼀貫してできる初のライブラリ • 多様なオフ⽅策評価⼿法(推定量)の実装 •

    オフ⽅策推定量の検証プロセスの標準化 • 使いやすいAPI設計 • Appendix • SCOPE-RLの簡単なチュートリアル • 実装されているオフ⽅策推定量とその検証指標の紹介 May 2024 SCOPE-RL package description 5
  4. オフライン強化学習は⽅策学習と評価は2段階必要 学習と評価が両⽅うまくいかなければ、性能の良い⽅策はデプロイできない。 May 2024 SCOPE-RL package description 8 オフ方策評価 (Off-Policy

    Evaluation; OPE) オンラインのA/Bテスト もし方策学習が失敗したら.. → そもそも候補となる⽅策集合に ⾼性能な⽅策を含めることができない もし方策評価が失敗したら.. → 候補の⽅策集合から最終⽅策を選ぶ際、 性能の悪い⽅策を選んでしまう可能性 .. 性能の悪い⽅策をデプロイするのは 避けたいので、両⽅うまくやる必要。 (様々なハイパラ) (アルゴリズム)
  5. オフライン強化学習の理想的な流れ オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 9 データ収集 ⽅策学習

    (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  6. それぞれのモジュールの理想的な機能 オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる May 2024 SCOPE-RL package description 11

    データ収集 ⽅策学習 (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  7. それぞれのモジュールの理想的な機能 オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 15 残念ながら, 既存のオフライン強化学習プラットフォームには

    どこかしら不⼗分な点があり、全ての機能の⼀貫した実装ができない.. データ収集 ⽅策学習 (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  8. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 16 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) Benchmark for OPE (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (not flexible) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×
  9. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 17 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×
  10. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 18 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (specific) ✓ × (limited) × ✓? ✓? ✓? ✓?
  11. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 19 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × (speci=c) ✓ × (limited) × × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)
  12. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 20 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)
  13. 既存のオフライン強化学習ライブラリの⽋点 どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 21 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)
  14. 既存のオフライン強化学習ライブラリの⽋点 特に、オフ⽅策評価の機能を提供できているライブラリがかなり少ない。 May 2024 SCOPE-RL package description 22 offline RLのライブラリ

    (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × × (限定的) (強化学習は不可)
  15. オフライン強化学習とオフライン評価の⼀貫した実装 ⽅策評価からオフ⽅策評価、OPEの性能検証までできるライブラリは初。 May 2024 SCOPE-RL package description 25 OpenAI GymやGymnasium

    との互換性をサポート d3rlpyとの連携 特に重点をおいたポイント: 多様なOPE推定量やその性能検証指標の実装 データ収集 ⽅策学習 (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  16. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •

    : 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 特に重点を置いているのは⽅策評価の部分 May 2024 SCOPE-RL package description 26 ▼ 興味の対象
  17. 様々なオフ⽅策推定量とその性能検証指標 SCOPE-RLは⽅策の期待性能を推定するためのオフ⽅策推定量を多数実装。 • (基礎) Direct Method (DM) / Per-Decision Importance

    Sampling (PDIS) / Doubly Robust (DR) • (発展) State(-action) Marginal Importance Sampling (S(A)MIS) and Doubly Robust (S(A)MDR) / Double Reinforcement Learning (DRL) • (拡張) Self-normalized estimators / Spectrum of OPE (SOPE) / kernel-based estimators for continuous actions May 2024 SCOPE-RL package description 27 推定量の詳細はAppendixにて
  18. これまでの話 – OPE推定量 ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる

    • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 31 データ収集 ⽅策学習 (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  19. ここからの話 – OPE推定量の性能検証 ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる

    • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 32 データ収集 ⽅策学習 (⼀般的なオフラインRL) オフ⽅策評価(OPE)や それに基づく⽅策選択 オフ⽅策推定量 の性能検証も必要
  20. (2) OPE推定量の性能検証指標 SCOPE-RLは3つの既存の性能検証指標を実装している。 • Mean squared error (MSE) – ⽅策の

    評価(価値推定)の “正確さ” • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” • Regret – ⽅策の 選択 の “正確さ” May 2024 SCOPE-RL package description 34 各指標の詳細はAppendixにて
  21. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL

    package description 36 OPE を “スクリーニング” の過程として捉える 最終的には A/Bテストの結果 も組み合わせて方策選択
  22. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL

    package description 37 オフライン評価を “スクリーニング” の過程として捉える 最終的には A/Bテストの結果 も組み合わせて方策選択
  23. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL

    package description 38 OPE を “スクリーニング” の過程として捉える A/Bテスト時のリスクとリターンの トレードオフを評価
  24. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン)

    • worst@𝑘, mean@𝑘, std@𝑘 (リスク) • safety violation rate@𝑘 (リスク) • SharpeRatio@k (効率性) May 2024 SCOPE-RL package description 39 各指標の詳細はAppendixにて 選ばれた⽅策集合を 「⽅策ポートフォリオ」とみなし、 その統計量でOPE推定量を評価する
  25. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン):

    A/Bテスト後に最終的に選ばれる⽅策の性能を表す May 2024 SCOPE-RL package description 40 ⼤きい⽅が良い 各指標の詳細はAppendixにて
  26. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘,

    std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまう危険性を表す May 2024 SCOPE-RL package description 41 指標に依るが、図中では⼩さい⽅が良い 各指標の詳細はAppendixにて
  27. (2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性):

    リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) が どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 42 ⼤きい⽅が良い 各指標の詳細はAppendixにて
  28. SCOPE-RLの貢献点のまとめ • オフライン強化学習とオフ⽅策評価の⼀貫した実装を初めて可能に • 多くの既存ライブラリと異なり、オフ⽅策評価(OPE)に主眼を置く • .. 多様なオフ⽅策推定量を実装 • ..

    初めて「分布オフ⽅策評価」をサポート • .. OPE推定量の性能検証までをも可能に SCOPE-RLを使えば、オフ方策評価を簡単に実行し検証できる! May 2024 SCOPE-RL package description 44
  29. ぜひ SCOPE-RL を使ってください! • ドキュメンテーション: https://scope-rl.readthedocs.io/en/latest/ • APIの説明: https://scope-rl.readthedocs.io/en/latest/ documentation/scope_rl_api.html

    • GitHub: https://github.com/hakuhodo-technologies/scope-rl • PyPI: https://pypi.org/project/scope-rl/ • Google Group: https://groups.google.com/g/scope-rl May 2024 SCOPE-RL package description 47 documentation GitHub PyPI
  30. Step 1: データ収集 たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 50

    RTBGymによる簡単なデモ offline RL OPE/OPS OPEの性能検証 データ収集
  31. Step 1: データ収集 たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 51

    offline RL OPE/OPS OPEの性能検証 データ収集 RTBGymによる簡単なデモ
  32. Step 1: データ収集 たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 52

    offline RL OPE/OPS OPEの性能検証 データ収集 RTBGymによる簡単なデモ
  33. Step 1: データ収集 たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 53

    データ収集 offline RL OPE/OPS OPEの性能検証 RTBGymによる簡単なデモ
  34. Step 1: データ収集 たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 54

    offline RL OPE/OPS OPEの性能検証 データ収集 RTBGymによる簡単なデモ
  35. OPE estimators and metrics May 2024 SCOPE-RL package description 68

    SCOPE-RLに実装されている推定量などをご紹介 p65-79: 標準的な期待性能推定のためのOPE p80-85: 分布オフ⽅策評価 P86-96: OPEの性能検証
  36. ⽅策評価においては、⾏動選択(意思決定)を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •

    : 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 定式化の確認 May 2024 SCOPE-RL package description 69 ▼ 興味の対象
  37. Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。 利点: バリアンスが⼩さい. ⽋点: ⼤きなバイアスが発⽣しうる( &

    𝑄 が不正確な場合). May 2024 SCOPE-RL package description 71 予測した状態行動価値 将来の時刻で得られる 累積報酬を予測 経験平均 (𝑛: データサイズ, 𝑖: インデックス)
  38. Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。 利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。

    ⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 SCOPE-RL package description 72 重みづけ(= 各時刻での重みの総積)
  39. Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 SCOPE-RL package

    description 73 (再帰的な表記) 報酬予測の残差にのみ 重点サンプリングを適用 時刻 𝑡 以降の⽅策価値
  40. State-action Marginal IS (SAM-IS) [Uehara+,20] バリアンス減少のため、SAM-ISは状態⾏動空間での周辺分布で重みづける。 利点: ) 𝜌 が正確であれば不偏性を満たし、

    PDISよりバリアンスを減少する。 ⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 75 周辺分布上での重みづけ(重みを推定する必要あり) 状態⾏動の観測確率
  41. State-action Marginal DR (SAM-DR) [Uehara+,20] SAM-DRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。 利点: ) 𝜌 か

    & 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。 ⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 76 残差に対して周辺分布上での重みづけを適用する
  42. Double Reinforcement Learning (DRL) [Kallus&Uehara,20] DRLは周辺分布上で定義され、不偏性を満たす推定量の中でバリアンスが最⼩。 DRLはcross-fittingという⼿順を⽤い、) 𝜌 と &

    𝑄 を 𝐷\𝐷𝑘 で学習し、 - 𝐽 を 𝐷𝑘 で推定し 別々のデータを使うことで発⽣し得るバイアスを極⼒減らすことができる。 May 2024 SCOPE-RL package description 80 (参考) cross-fitting
  43. 実装されているOPEの “正確さ” の検証指標 SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared error

    (MSE) – ⽅策の 評価(価値推定)の “正確さ” • Rank correlation (RankCorr) – ⽅策の 並べ替え の “正確さ” • Regret – ⽅策の 選択 の “正確さ” • Type I and Type II error rates – ⽅策の リスク検出 の “正確さ” May 2024 SCOPE-RL package description 91
  44. 実装されているOPEの “正確さ” の検証指標 (1/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared

    error (MSE) – ⽅策の 評価(価値推定)の “正確さ” [Voloshin+,21] May 2024 SCOPE-RL package description 92 推定結果 真の方策価値 ⼩さい⽅が良い
  45. 実装されているOPEの “正確さ” の検証指標 (2/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Rank correlation

    (RankCorr) – ⽅策の 並べ替え の “正確さ” [Fu+,21] May 2024 SCOPE-RL package description 93 1 2 3 4 5 6 7 推定結果 真のランキング ⼤きい⽅が良い
  46. 実装されているOPEの “正確さ” の検証指標 (3/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Regret –

    ⽅策の 選択 の “正確さ” [Doroudi+,18] May 2024 SCOPE-RL package description 94 真に最適な方策の価値 推定結果を基に選ばれてた 方策の価値 ⼩さい⽅が良い
  47. 実装されているOPEの “正確さ” の検証指標 (4/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Type I

    and Type II error rates – ⽅策の リスク検出 の “正確さ” May 2024 SCOPE-RL package description 95 false positive true negative ̅ 𝐽: 報酬に対する閾値 (true negative / true) (false positive / false) ⼩さい⽅が良い
  48. 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン): A/Bテスト後に最終的に選ばれる⽅策の性能を表す

    • worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す • SharpeRatio@k (効率性): リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) が どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 96
  49. 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘 (リスク;

    ⼤きい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 98
  50. 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • std@𝑘 (リスク; ⼩さい⽅が良い):

    A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 99
  51. 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • safety violation rate@𝑘

    (リスク; ⼩さい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 100 ̅ 𝐽: 報酬に対する閾値
  52. 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性; ⼤きい⽅が良い):

    [Kiyohara+,23] リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) が どれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 101
  53. 参考⽂献 (1/9) [Seno&Imai,22 (d3rlpy)] Takuma Seno and Michita Imai. “d3rlpy:

    An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Gauci+,18 (Horizon)] Jason Gauci, Edoardo Conti, Yitao Liang, Kittipat Virochsiri, Yuchen He, Zachary Kaden, Vivek Narayanan, Xiaohui Ye, Zhengxing Chen, and Scott Fujimoto. “Horizon: Facebook's Open Source Applied Reinforcement Learning Platform.” 2018. https://arxiv.org/abs/1811.00260 [Liang+,18 (RLlib)] Eric Liang, Richard Liaw, Philipp Moritz, Robert Nishihara, Roy Fox, Ken Goldberg, Joseph E. Gonzalez, Michael I. Jordan, and Ion Stoica. “RLlib: Abstractions for Distributed Reinforcement Learning.” ICML, 2018. https://arxiv.org/abs/1712.09381 May 2024 SCOPE-RL package description 103
  54. 参考⽂献 (2/9) [Fu+,21 (DOPE)] Justin Fu, Mohammad Norouzi, Ofir Nachum,

    George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Voloshin+,21 (COBS)] Cameron Voloshin, Hoang M. Le, Nan Jiang, and Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/1911.06854 [Rohde+,18 (RecoGym)] David Rohde, Stephen Bonner, Travis Dunlop, Flavian Vasile, and Alexandros Karatzoglou “RecoGym: A Reinforcement Learning Environment for the problem of Product Recommendation in Online Advertising.” 2018. https://arxiv.org/abs/1808.00720 May 2024 SCOPE-RL package description 104
  55. 参考⽂献 (3/9) [Wang+,21 (RL4RS)] Kai Wang, Zhene Zou, Yue Shang,

    Qilin Deng, Minghao Zhao, Yile Liang, Runze Wu, Jianrong Tao, Xudong Shen, Tangjie Lyu, and Changjie Fan. “RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender System.” 2021. https://arxiv.org/abs/2110.11073 [Saito+,21 (OBP)] Yuta Saito, Shunsuke Aihara, Megumi Matsutani, and Yusuke Narita. “Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off- Policy Evaluation.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/2008.07146 [Brockman+,16 (OpenAI Gym)] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 May 2024 SCOPE-RL package description 105
  56. 参考⽂献 (4/9) [Kiyohara+,21 (RTBGym)] Haruka Kiyohara, Kosuke Kawakami, and Yuta

    Saito. “Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation.” 2021. https://arxiv.org/abs/2109.08331 [Chandak+,21 (CD-OPE)] Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik Learned-Miller, Emma Brunskill, and Philip S. Thomas. “Universal Off-Policy Evaluation.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 [Huang+,21 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment in Contextual Bandits.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 May 2024 SCOPE-RL package description 106
  57. 参考⽂献 (5/9) [Huang+,22 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C.

    Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment for Markov Decision Processes.” AISTATS, 2022. https://proceedings.mlr.press/v151/huang22b.html [Hasselt+,16 (DDQN)] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 [Kumar+,20 (CQL)] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Le+,19 (DM)] Hoang M. Le, Cameron Voloshin, and Yisong Yue. “Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 May 2024 SCOPE-RL package description 107
  58. 参考⽂献 (6/9) [Precup+,00 (IPS)] Doina Precup, Richard S. Sutton, and

    Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16 (DR)] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16 (DR)] Philip S. Thomas and Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 [Uehara+,20 (SAM-IS/DR)] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax Weight and Q-Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 May 2024 SCOPE-RL package description 108
  59. 参考⽂献 (7/9) [Liu+,18 (SM-IS/DR)] Qiang Liu, Lihong Li, Ziyang Tang,

    Dengyong Zhou. “Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation.” NeurIPS, 2018. https://arxiv.org/abs/1810.12429 [Yuan+,21 (SOPE)] Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S. Thomas, Scott Niekum. “SOPE: Spectrum of Off-Policy Estimators.” NeurIPS, 2021. https://arxiv.org/abs/2111.03936 [Kallus&Uehara,20 (DRL)] Nathan Kallus, Masatoshi Uehara. “Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.” JMLR, 2020. https://arxiv.org/abs/1908.08526 [Kallus&Uehara,19 (Self-normalized estimators)] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 May 2024 SCOPE-RL package description 109
  60. 参考⽂献 (8/9) [Kallus&Zhou,18 (extension to continuous actions)] Nathan Kallus, Angela

    Zhou. “Policy Evaluation and Optimization with Continuous Treatments.” AISTATS, 2018. https://arxiv.org/abs/1802.06037 [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Off-Policy Evaluation.” AAAI, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015.pdf [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Policy Improvement.” ICML, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015b.pdf [Voloshin+,21 (MSE)] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 SCOPE-RL package description 110
  61. 参考⽂献 (9/9) [Fu+,21 (RankCorr)] Justin Fu, Mohammad Norouzi, Ofir Nachum,

    George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off- Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18 (Regret)] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23 (SharpeRatio@k)] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation in Reinforcement Learning.” 2023. May 2024 SCOPE-RL package description 111