SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

Slide 1

Slide 1 text

オフライン強化学習とオフ⽅策評価ライブラリ SCOPE-RLの紹介とチュートリアル Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito May 2024 SCOPE-RL package description 1

Slide 2

Slide 2 text

連続的な意思決定を最適化したい場⾯は数多く存在医療における連続的意思決定の例強化学習（Reinforcement Learning; RL）の問題として意思決定を最適化したい May 2024 SCOPE-RL package description 2 他にも応⽤事例は⾄る所に • ロボティクス • ⾃動運転 • 商品推薦 • 教育 • …

Slide 3

Slide 3 text

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習 – • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 SCOPE-RL package description 3

Slide 4

Slide 4 text

Slide 5

Slide 5 text

このスライドでお伝えすること • なぜ新しいライブラリが必要だったのか？ • SCOPE-RLの主な貢献と特徴 • オフライン強化学習から⽅策評価まで⼀貫してできる初のライブラリ • 多様なオフ⽅策評価⼿法（推定量）の実装 • オフ⽅策推定量の検証プロセスの標準化 • 使いやすいAPI設計 • Appendix • SCOPE-RLの簡単なチュートリアル • 実装されているオフ⽅策推定量とその検証指標の紹介 May 2024 SCOPE-RL package description 5

Slide 6

Slide 6 text

Motivation May 2024 SCOPE-RL package description 6 なぜSCOPE-RLを公開することになったのか？

Slide 7

Slide 7 text

オフライン強化学習の流れ「オフライン強化学習」の単語から、学習部分だけが想起されることが多い。 May 2024 SCOPE-RL package description 7 データ収集⽅策学習（⼀般的なオフラインRL）デプロイ？

Slide 8

Slide 8 text

オフライン強化学習は⽅策学習と評価は2段階必要学習と評価が両⽅うまくいかなければ、性能の良い⽅策はデプロイできない。 May 2024 SCOPE-RL package description 8 オフ方策評価（Off-Policy Evaluation; OPE）オンラインのA/Bテストもし方策学習が失敗したら.. → そもそも候補となる⽅策集合に⾼性能な⽅策を含めることができないもし方策評価が失敗したら.. → 候補の⽅策集合から最終⽅策を選ぶ際、性能の悪い⽅策を選んでしまう可能性 .. 性能の悪い⽅策をデプロイするのは避けたいので、両⽅うまくやる必要。 (様々なハイパラ) (アルゴリズム)

Slide 9

Slide 9 text

オフライン強化学習の理想的な流れオフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 9 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 10

Slide 10 text

オフライン強化学習の理想的な流れオフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。全ての機能を⼀貫したプラットフォームで柔軟に実装できるなら.. • 実応⽤では、オフライン強化学習の実装や活⽤ • 研究では、新たな⽅策学習や⽅策評価の⼿法の⽐較や検証 May 2024 SCOPE-RL package description 10 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要が容易に

Slide 11

Slide 11 text

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる May 2024 SCOPE-RL package description 11 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 12

Slide 12 text

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる May 2024 SCOPE-RL package description 12 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 13

Slide 13 text

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる May 2024 SCOPE-RL package description 13 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 14

Slide 14 text

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 14 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 15

Slide 15 text

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 15 残念ながら, 既存のオフライン強化学習プラットフォームにはどこかしら不⼗分な点があり、全ての機能の⼀貫した実装ができない.. データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 16

Slide 16 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 16 offline RLのライブラリ (d3rlpy, Horizon, RLlib) Benchmark for OPE (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (not flexible) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×

Slide 17

Slide 17 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 17 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×

Slide 18

Slide 18 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 18 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (specific) ✓ × (limited) × ✓? ✓? ✓? ✓?

Slide 19

Slide 19 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 19 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × (speci=c) ✓ × (limited) × × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)

Slide 20

Slide 20 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 20 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)

Slide 21

Slide 21 text

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 21 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)

Slide 22

Slide 22 text

既存のオフライン強化学習ライブラリの⽋点特に、オフ⽅策評価の機能を提供できているライブラリがかなり少ない。 May 2024 SCOPE-RL package description 22 offline RLのライブラリ (d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × × (限定的) (強化学習は不可)

Slide 23

Slide 23 text

SCOPE-RLの貢献 May 2024 SCOPE-RL package description 23 SCOPE-RLは他にはないどんな機能を備えているのか?

Slide 24

Slide 24 text

SCOPE-RLの貢献点のまとめ以下のスライドにて⼀つづつ紹介： • オフライン強化学習とオフ⽅策評価を繋ぐ初のライブラリ • 多様なオフ⽅策推定量とOPEの性能検証指標の実装 • ⽅策のリスク評価のための「分布オフ⽅策評価」 • オフ⽅策評価とそれを基にした⽅策選択におけるリスクを評価する指標 • 使いやすいAPI設計や可視化ツール、充実したドキュメンテーション May 2024 SCOPE-RL package description 24

Slide 25

Slide 25 text

オフライン強化学習とオフライン評価の⼀貫した実装⽅策評価からオフ⽅策評価、OPEの性能検証までできるライブラリは初。 May 2024 SCOPE-RL package description 25 OpenAI GymやGymnasium との互換性をサポート d3rlpyとの連携特に重点をおいたポイント: 多様なOPE推定量やその性能検証指標の実装データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 26

Slide 26 text

⽅策評価においては、⾏動選択（意思決定）を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) • : 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 特に重点を置いているのは⽅策評価の部分 May 2024 SCOPE-RL package description 26 ▼ 興味の対象

Slide 27

Slide 27 text

様々なオフ⽅策推定量とその性能検証指標 SCOPE-RLは⽅策の期待性能を推定するためのオフ⽅策推定量を多数実装。 • (基礎) Direct Method (DM) / Per-Decision Importance Sampling (PDIS) / Doubly Robust (DR) • (発展) State(-action) Marginal Importance Sampling (S(A)MIS) and Doubly Robust (S(A)MDR) / Double Reinforcement Learning (DRL) • (拡張) Self-normalized estimators / Spectrum of OPE (SOPE) / kernel-based estimators for continuous actions May 2024 SCOPE-RL package description 27 推定量の詳細はAppendixにて

Slide 28

Slide 28 text

様々なオフ⽅策推定量とその性能検証指標 SCOPE-RLはさらに、従来より多⾓的かつ詳細な評価・性能検証を可能に。 May 2024 SCOPE-RL package description 28 オフ方策評価オフ方策評価の性能検証

Slide 29

Slide 29 text

(1) リスク関数推定のための分布オフ⽅策評価分布オフ⽅策評価（Cumlative distribution OPE; CD-OPE) は分布全体を推定。 May 2024 SCOPE-RL package description 29 𝐹(𝜋) 報酬に対する閾値

Slide 30

Slide 30 text

(1) リスク関数推定のための分布オフ⽅策評価推定した累積度数分布（CDF）を使い、様々な統計量（リスク指標）を導出。 May 2024 SCOPE-RL package description 30 下位ケースにおける方策の性能を比較し、方策の安全性を評価できる trajectory-wise reward Note: CVaR is the average of the worst (1 - 𝛼) % trials.

Slide 31

Slide 31 text

これまでの話 – OPE推定量ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 31 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 32

Slide 32 text

ここからの話 – OPE推定量の性能検証ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 32 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

Slide 33

Slide 33 text

(2) OPE推定量の性能検証指標標準的な性能検証指標は、ベストに近い⽅策を選べそうかを検証。 May 2024 SCOPE-RL package description 33 オフ方策評価（OPE）の結果を基に直接最終的なデプロイ方策を選択する

Slide 34

Slide 34 text

(2) OPE推定量の性能検証指標 SCOPE-RLは3つの既存の性能検証指標を実装している。 • Mean squared error (MSE) – ⽅策の評価（価値推定）の “正確さ” • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” • Regret – ⽅策の選択の “正確さ” May 2024 SCOPE-RL package description 34 各指標の詳細はAppendixにて

Slide 35

Slide 35 text

(2) OPE推定量の性能検証指標既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。 May 2024 SCOPE-RL package description 35 OPEの不確実性や推定誤差が理由で OPEだけでは安心して方策選択できないため

Slide 36

Slide 36 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL package description 36 OPE を “スクリーニング” の過程として捉える最終的には A/Bテストの結果も組み合わせて方策選択

Slide 37

Slide 37 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL package description 37 オフライン評価を “スクリーニング” の過程として捉える最終的には A/Bテストの結果も組み合わせて方策選択

Slide 38

Slide 38 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL package description 38 OPE を “スクリーニング” の過程として捉える A/Bテスト時のリスクとリターンのトレードオフを評価

Slide 39

Slide 39 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン) • worst@𝑘, mean@𝑘, std@𝑘 (リスク) • safety violation rate@𝑘 (リスク) • SharpeRatio@k (効率性) May 2024 SCOPE-RL package description 39 各指標の詳細はAppendixにて選ばれた⽅策集合を「⽅策ポートフォリオ」とみなし、その統計量でOPE推定量を評価する

Slide 40

Slide 40 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン): A/Bテスト後に最終的に選ばれる⽅策の性能を表す May 2024 SCOPE-RL package description 40 ⼤きい⽅が良い各指標の詳細はAppendixにて

Slide 41

Slide 41 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまう危険性を表す May 2024 SCOPE-RL package description 41 指標に依るが、図中では⼩さい⽅が良い各指標の詳細はAppendixにて

Slide 42

Slide 42 text

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性): リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 42 ⼤きい⽅が良い各指標の詳細はAppendixにて

Slide 43

Slide 43 text

OPEにおけるユニークな機能のまとめ SCOPE-RLは従来より多⾓的かつ詳細な評価・性能検証を可能に。 May 2024 SCOPE-RL package description 43 オフ方策評価オフ方策評価の性能検証

Slide 44

Slide 44 text

SCOPE-RLの貢献点のまとめ • オフライン強化学習とオフ⽅策評価の⼀貫した実装を初めて可能に • 多くの既存ライブラリと異なり、オフ⽅策評価（OPE）に主眼を置く • .. 多様なオフ⽅策推定量を実装 • .. 初めて「分布オフ⽅策評価」をサポート • .. OPE推定量の性能検証までをも可能に SCOPE-RLを使えば、オフ方策評価を簡単に実行し検証できる！ May 2024 SCOPE-RL package description 44

Slide 45

Slide 45 text

使いやすいAPI設計も特徴の⼀つ例えば、OPE推定量の検証とその結果の可視化がたった1⾏のコードで。 May 2024 SCOPE-RL package description 45 GitHub Install now!!

Slide 46

Slide 46 text

充実したドキュメンテーションも公開 May 2024 SCOPE-RL package description 46 documentation Install now!!

Slide 47

Slide 47 text

ぜひ SCOPE-RL を使ってください！ • ドキュメンテーション: https://scope-rl.readthedocs.io/en/latest/ • APIの説明: https://scope-rl.readthedocs.io/en/latest/ documentation/scope_rl_api.html • GitHub: https://github.com/hakuhodo-technologies/scope-rl • PyPI: https://pypi.org/project/scope-rl/ • Google Group: https://groups.google.com/g/scope-rl May 2024 SCOPE-RL package description 47 documentation GitHub PyPI

Slide 48

Slide 48 text

Thank you! contact: [email protected] May 2024 SCOPE-RL package description 48

Slide 49

Slide 49 text

Example Usage SCOPE-RLを使った offline RL & OPE 実装のチュートリアル May 2024 SCOPE-RL package description 49

Slide 50

Slide 50 text

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 50 RTBGymによる簡単なデモ offline RL OPE/OPS OPEの性能検証データ収集

Slide 51

Slide 51 text

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 51 offline RL OPE/OPS OPEの性能検証データ収集 RTBGymによる簡単なデモ

Slide 52

Slide 52 text

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 52 offline RL OPE/OPS OPEの性能検証データ収集 RTBGymによる簡単なデモ

Slide 53

Slide 53 text

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 53 データ収集 offline RL OPE/OPS OPEの性能検証 RTBGymによる簡単なデモ

Slide 54

Slide 54 text

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 54 offline RL OPE/OPS OPEの性能検証データ収集 RTBGymによる簡単なデモ

Slide 55

Slide 55 text

Step2: offline RLで新たな⽅策を学習するオフライン強化学習の⽅策学習にはd3rlpyを使う。 May 2024 SCOPE-RL package description 55 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 56

Slide 56 text

複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 Step3: 期待性能を評価する標準的なオフ⽅策評価 May 2024 SCOPE-RL package description 56 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 57

Slide 57 text

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 57 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 58

Slide 58 text

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 58 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 59

Slide 59 text

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 59 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 60

Slide 60 text

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 60 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 61

Slide 61 text

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 61 estimated policy value

Slide 62

Slide 62 text

Step4: 分布オフ⽅策評価 May 2024 SCOPE-RL package description 62 分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。データ収集 offline RL OPE/OPS OPEの性能検証

Slide 63

Slide 63 text

Step4: 分布オフ⽅策評価分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。 May 2024 SCOPE-RL package description 63 推定した累積度数関数（CDF）様々な閾値で推定した下位平均性能（CVaR）

Slide 64

Slide 64 text

Step4: 分布オフ⽅策評価分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。 May 2024 SCOPE-RL package description 64 推定した10%-90%までの性能分布範囲

Slide 65

Slide 65 text

Step5: オフ⽅策選択（OPS）とOPE/OPSの性能検証オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。 May 2024 SCOPE-RL package description 65 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 66

Slide 66 text

Step5: オフ⽅策選択（OPS）とOPE/OPSの性能検証オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。 May 2024 SCOPE-RL package description 66 真の variance (x) とそのオフ⽅策推定値 (y) の⽐較 OPSの様々な評価指標の計算

Slide 67

Slide 67 text

Step6: OPE/OPSのリスクとリターンの評価もできるオンラインA/Bテストを想定した上位 𝑘 個の⽅策集合の評価も。 May 2024 SCOPE-RL package description 67 データ収集 offline RL OPE/OPS OPEの性能検証

Slide 68

Slide 68 text

OPE estimators and metrics May 2024 SCOPE-RL package description 68 SCOPE-RLに実装されている推定量などをご紹介 p65-79: 標準的な期待性能推定のためのOPE p80-85: 分布オフ⽅策評価 P86-96: OPEの性能検証

Slide 69

Slide 69 text

⽅策評価においては、⾏動選択（意思決定）を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) • : 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 定式化の確認 May 2024 SCOPE-RL package description 69 ▼ 興味の対象

Slide 70

Slide 70 text

標準的なOPEのための推定量⼀連のインタラクションで得られる累積報酬の期待値（⽅策価値）を推定したい。 May 2024 SCOPE-RL package description 70 オフ方策推定量データ収集⽅策が集めた蓄積データ反実仮想と分布シフトの問題データ収集⽅策

Slide 71

Slide 71 text

Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。利点: バリアンスが⼩さい. ⽋点: ⼤きなバイアスが発⽣しうる（ & 𝑄 が不正確な場合）. May 2024 SCOPE-RL package description 71 予測した状態行動価値将来の時刻で得られる累積報酬を予測経験平均 (𝑛: データサイズ, 𝑖: インデックス)

Slide 72

Slide 72 text

Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 SCOPE-RL package description 72 重みづけ（= 各時刻での重みの総積）

Slide 73

Slide 73 text

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 SCOPE-RL package description 73 (再帰的な表記) 報酬予測の残差にのみ重点サンプリングを適用時刻 𝑡 以降の⽅策価値

Slide 74

Slide 74 text

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。⽋点: 𝑡 が⼤きい時にはまだバリアンスが⼤きくなり得る。 May 2024 SCOPE-RL package description 74

Slide 75

Slide 75 text

State-action Marginal IS (SAM-IS) [Uehara+,20] バリアンス減少のため、SAM-ISは状態⾏動空間での周辺分布で重みづける。利点: ) 𝜌 が正確であれば不偏性を満たし、 PDISよりバリアンスを減少する。⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 75 周辺分布上での重みづけ（重みを推定する必要あり）状態⾏動の観測確率

Slide 76

Slide 76 text

State-action Marginal DR (SAM-DR) [Uehara+,20] SAM-DRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。利点: ) 𝜌 か & 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 76 残差に対して周辺分布上での重みづけを適用する

Slide 77

Slide 77 text

State Marginal estimators (SM-IS/DR) [Liu+,18] 状態空間における周辺分布上でも推定量を定義できる（⾏動は周辺化）。ここで、は状態観測確率の推定であり、は時刻 𝑡 における逐次的な重みづけである。 May 2024 SCOPE-RL package description 77

Slide 78

Slide 78 text

Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21] SOPEは、(S(A))M-IS と PDIS の間をとることでバイアスとバリアンスを調整。 May 2024 SCOPE-RL package description 78

Slide 79

Slide 79 text

Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21] 例えば、SAM-IS/DR を SOPE に組み込むと以下のようになる。 May 2024 SCOPE-RL package description 79

Slide 80

Slide 80 text

Double Reinforcement Learning (DRL) [Kallus&Uehara,20] DRLは周辺分布上で定義され、不偏性を満たす推定量の中でバリアンスが最⼩。 DRLはcross-fittingという⼿順を⽤い、) 𝜌 と & 𝑄 を 𝐷\𝐷𝑘 で学習し、 - 𝐽 を 𝐷𝑘 で推定し別々のデータを使うことで発⽣し得るバイアスを極⼒減らすことができる。 May 2024 SCOPE-RL package description 80 (参考) cross-fitting

Slide 81

Slide 81 text

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。 May 2024 SCOPE-RL package description 81

Slide 82

Slide 82 text

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。 May 2024 SCOPE-RL package description 82

Slide 83

Slide 83 text

連続⾏動空間への拡張 [Kallus&Zhou,18] 元の重みは⾏動のほとんどを無視してしまうので、カーネルを使い連続⾏動空間上の⾏動の近さを考慮する。 May 2024 SCOPE-RL package description 83 カーネル関数 (e.g., ガウスカーネル)

Slide 84

Slide 84 text

確率信頼区間の推定 SCOPE-RLは信頼区間を求めるための確率不等式をいくつか実装。 • Hoeffding: • Empirical Bernstein: • Student’s T-test: • Bootstrapping: May 2024 SCOPE-RL package description 84 𝛼: confidence level

Slide 85

Slide 85 text

分布オフ⽅策評価のための推定量分布オフ⽅策評価（CD-OPE）では、累積度数分布により分布全体を推定。 May 2024 SCOPE-RL package description 85 𝐹(𝜋) 下位ケースにおける方策の性能を比較し、方策の安全性を評価報酬に対する閾値

Slide 86

Slide 86 text

分布オフ⽅策評価のための推定量分布オフ⽅策評価（CD-OPE）では、累積度数分布により分布全体を推定。 May 2024 SCOPE-RL package description 86 分布オフ方策推定量 𝐹(𝜋) [Chandak+,21] [Huang+,21,22] 報酬に対する閾値

Slide 87

Slide 87 text

分布オフ⽅策評価のためのDM DMは報酬予測器を⽤いるモデルベースの⼿法。 May 2024 SCOPE-RL package description 87 報酬の予測値

Slide 88

Slide 88 text

分布オフ⽅策評価のためのTrajectory-wise IS (TIS) TISは累積度数分布を推定する際の重点サンプリングを⾏う。⼤きい重みで累積確率が1を超えてしまうことがあるので、クリッピングする。 May 2024 SCOPE-RL package description 88 軌跡（trajectory）単位での重みづけ

Slide 89

Slide 89 text

分布オフ⽅策評価のためのTrajectory-wise DR (TDR) 分布オフ⽅策評価でもDMとTISを組み合わせたDR型の推定量が定義できる。 May 2024 SCOPE-RL package description 89 残差に対して重点サンプリングを行う

Slide 90

Slide 90 text

分布オフ⽅策評価のためのSelf-normalized estimators 正規化した重みを使うことで、TIS/TDRのバリアンスを軽減できる。 May 2024 SCOPE-RL package description 90

Slide 91

Slide 91 text

実装されているOPEの “正確さ” の検証指標 SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared error (MSE) – ⽅策の評価（価値推定）の “正確さ” • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” • Regret – ⽅策の選択の “正確さ” • Type I and Type II error rates – ⽅策のリスク検出の “正確さ” May 2024 SCOPE-RL package description 91

Slide 92

Slide 92 text

実装されているOPEの “正確さ” の検証指標 (1/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared error (MSE) – ⽅策の評価（価値推定）の “正確さ” [Voloshin+,21] May 2024 SCOPE-RL package description 92 推定結果真の方策価値⼩さい⽅が良い

Slide 93

Slide 93 text

実装されているOPEの “正確さ” の検証指標 (2/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” [Fu+,21] May 2024 SCOPE-RL package description 93 1 2 3 4 5 6 7 推定結果真のランキング⼤きい⽅が良い

Slide 94

Slide 94 text

実装されているOPEの “正確さ” の検証指標 (3/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Regret – ⽅策の選択の “正確さ” [Doroudi+,18] May 2024 SCOPE-RL package description 94 真に最適な方策の価値推定結果を基に選ばれてた方策の価値⼩さい⽅が良い

Slide 95

Slide 95 text

実装されているOPEの “正確さ” の検証指標 (4/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Type I and Type II error rates – ⽅策のリスク検出の “正確さ” May 2024 SCOPE-RL package description 95 false positive true negative ̅ 𝐽: 報酬に対する閾値 (true negative / true) (false positive / false) ⼩さい⽅が良い

Slide 96

Slide 96 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン): A/Bテスト後に最終的に選ばれる⽅策の性能を表す • worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す • SharpeRatio@k (効率性): リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 96

Slide 97

Slide 97 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン; ⼤きい⽅が良い): A/Bテスト後に最終的に選ばれる⽅策の性能を表す May 2024 SCOPE-RL package description 97

Slide 98

Slide 98 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘 (リスク; ⼤きい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 98

Slide 99

Slide 99 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • std@𝑘 (リスク; ⼩さい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 99

Slide 100

Slide 100 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • safety violation rate@𝑘 (リスク; ⼩さい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 100 ̅ 𝐽: 報酬に対する閾値

Slide 101

Slide 101 text

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性; ⼤きい⽅が良い): [Kiyohara+,23] リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 101

Slide 102

Slide 102 text

References May 2024 SCOPE-RL package description 102

Slide 103

Slide 103 text

参考⽂献 (1/9) [Seno&Imai,22 (d3rlpy)] Takuma Seno and Michita Imai. “d3rlpy: An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Gauci+,18 (Horizon)] Jason Gauci, Edoardo Conti, Yitao Liang, Kittipat Virochsiri, Yuchen He, Zachary Kaden, Vivek Narayanan, Xiaohui Ye, Zhengxing Chen, and Scott Fujimoto. “Horizon: Facebook's Open Source Applied Reinforcement Learning Platform.” 2018. https://arxiv.org/abs/1811.00260 [Liang+,18 (RLlib)] Eric Liang, Richard Liaw, Philipp Moritz, Robert Nishihara, Roy Fox, Ken Goldberg, Joseph E. Gonzalez, Michael I. Jordan, and Ion Stoica. “RLlib: Abstractions for Distributed Reinforcement Learning.” ICML, 2018. https://arxiv.org/abs/1712.09381 May 2024 SCOPE-RL package description 103

Slide 104

Slide 104 text

参考⽂献 (2/9) [Fu+,21 (DOPE)] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Voloshin+,21 (COBS)] Cameron Voloshin, Hoang M. Le, Nan Jiang, and Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/1911.06854 [Rohde+,18 (RecoGym)] David Rohde, Stephen Bonner, Travis Dunlop, Flavian Vasile, and Alexandros Karatzoglou “RecoGym: A Reinforcement Learning Environment for the problem of Product Recommendation in Online Advertising.” 2018. https://arxiv.org/abs/1808.00720 May 2024 SCOPE-RL package description 104

Slide 105

Slide 105 text

参考⽂献 (3/9) [Wang+,21 (RL4RS)] Kai Wang, Zhene Zou, Yue Shang, Qilin Deng, Minghao Zhao, Yile Liang, Runze Wu, Jianrong Tao, Xudong Shen, Tangjie Lyu, and Changjie Fan. “RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender System.” 2021. https://arxiv.org/abs/2110.11073 [Saito+,21 (OBP)] Yuta Saito, Shunsuke Aihara, Megumi Matsutani, and Yusuke Narita. “Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off- Policy Evaluation.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/2008.07146 [Brockman+,16 (OpenAI Gym)] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 May 2024 SCOPE-RL package description 105

Slide 106

Slide 106 text

参考⽂献 (4/9) [Kiyohara+,21 (RTBGym)] Haruka Kiyohara, Kosuke Kawakami, and Yuta Saito. “Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation.” 2021. https://arxiv.org/abs/2109.08331 [Chandak+,21 (CD-OPE)] Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik Learned-Miller, Emma Brunskill, and Philip S. Thomas. “Universal Off-Policy Evaluation.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 [Huang+,21 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment in Contextual Bandits.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 May 2024 SCOPE-RL package description 106

Slide 107

Slide 107 text

参考⽂献 (5/9) [Huang+,22 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment for Markov Decision Processes.” AISTATS, 2022. https://proceedings.mlr.press/v151/huang22b.html [Hasselt+,16 (DDQN)] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 [Kumar+,20 (CQL)] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Le+,19 (DM)] Hoang M. Le, Cameron Voloshin, and Yisong Yue. “Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 May 2024 SCOPE-RL package description 107

Slide 108

Slide 108 text

参考⽂献 (6/9) [Precup+,00 (IPS)] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16 (DR)] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16 (DR)] Philip S. Thomas and Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 [Uehara+,20 (SAM-IS/DR)] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax Weight and Q-Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 May 2024 SCOPE-RL package description 108

Slide 109

Slide 109 text

参考⽂献 (7/9) [Liu+,18 (SM-IS/DR)] Qiang Liu, Lihong Li, Ziyang Tang, Dengyong Zhou. “Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation.” NeurIPS, 2018. https://arxiv.org/abs/1810.12429 [Yuan+,21 (SOPE)] Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S. Thomas, Scott Niekum. “SOPE: Spectrum of Off-Policy Estimators.” NeurIPS, 2021. https://arxiv.org/abs/2111.03936 [Kallus&Uehara,20 (DRL)] Nathan Kallus, Masatoshi Uehara. “Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.” JMLR, 2020. https://arxiv.org/abs/1908.08526 [Kallus&Uehara,19 (Self-normalized estimators)] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 May 2024 SCOPE-RL package description 109

Slide 110

Slide 110 text

参考⽂献 (8/9) [Kallus&Zhou,18 (extension to continuous actions)] Nathan Kallus, Angela Zhou. “Policy Evaluation and Optimization with Continuous Treatments.” AISTATS, 2018. https://arxiv.org/abs/1802.06037 [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Off-Policy Evaluation.” AAAI, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015.pdf [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Policy Improvement.” ICML, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015b.pdf [Voloshin+,21 (MSE)] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 SCOPE-RL package description 110

Slide 111

Slide 111 text

参考⽂献 (9/9) [Fu+,21 (RankCorr)] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off- Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18 (Regret)] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23 (SharpeRatio@k)] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation in Reinforcement Learning.” 2023. May 2024 SCOPE-RL package description 111