SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

オフライン強化学習とオフ⽅策評価ライブラリ SCOPE-RLの紹介とチュートリアル Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi,
Kazuhide Nakata, Yuta Saito May 2024 SCOPE-RL package description 1

連続的な意思決定を最適化したい場⾯は数多く存在医療における連続的意思決定の例強化学習（Reinforcement Learning; RL）の問題として意思決定を最適化したい May 2024 SCOPE-RL package description
2 他にも応⽤事例は⾄る所に • ロボティクス • ⾃動運転 • 商品推薦 • 教育 • …

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習
– • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 SCOPE-RL package description 3

オンラインとオフラインの強化学習 • オンライン強化学習 – • ⽅策を実環境と作⽤させながら学習する • 粗悪な意思決定や探索により、システムに悪影響を及ぼすことも • オフライン強化学習
– • 新たな⽅策をオフラインで蓄積データのみを⽤い学習・評価する • オンライン強化学習より安全に⽅策を学習できる可能性 May 2024 SCOPE-RL package description 4 特に、オフライン強化学習の実装パイプラインについて議論

このスライドでお伝えすること • なぜ新しいライブラリが必要だったのか？ • SCOPE-RLの主な貢献と特徴 • オフライン強化学習から⽅策評価まで⼀貫してできる初のライブラリ • 多様なオフ⽅策評価⼿法（推定量）の実装 •
オフ⽅策推定量の検証プロセスの標準化 • 使いやすいAPI設計 • Appendix • SCOPE-RLの簡単なチュートリアル • 実装されているオフ⽅策推定量とその検証指標の紹介 May 2024 SCOPE-RL package description 5

Motivation May 2024 SCOPE-RL package description 6 なぜSCOPE-RLを公開することになったのか？

オフライン強化学習の流れ「オフライン強化学習」の単語から、学習部分だけが想起されることが多い。 May 2024 SCOPE-RL package description 7 データ収集⽅策学習
（⼀般的なオフラインRL）デプロイ？

オフライン強化学習は⽅策学習と評価は2段階必要学習と評価が両⽅うまくいかなければ、性能の良い⽅策はデプロイできない。 May 2024 SCOPE-RL package description 8 オフ方策評価（Off-Policy
Evaluation; OPE）オンラインのA/Bテストもし方策学習が失敗したら.. → そもそも候補となる⽅策集合に⾼性能な⽅策を含めることができないもし方策評価が失敗したら.. → 候補の⽅策集合から最終⽅策を選ぶ際、性能の悪い⽅策を選んでしまう可能性 .. 性能の悪い⽅策をデプロイするのは避けたいので、両⽅うまくやる必要。 (様々なハイパラ) (アルゴリズム)

オフライン強化学習の理想的な流れオフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 9 データ収集⽅策学習
（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

オフライン強化学習の理想的な流れオフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。全ての機能を⼀貫したプラットフォームで柔軟に実装できるなら.. • 実応⽤では、オフライン強化学習の実装や活⽤ • 研究では、新たな⽅策学習や⽅策評価の⼿法の⽐較や検証 May 2024 SCOPE-RL
package description 10 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要が容易に

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる May 2024 SCOPE-RL package description 11
データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる May 2024 SCOPE-RL package
description 12 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる May 2024
SCOPE-RL package description 13 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる • オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる
May 2024 SCOPE-RL package description 14 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

それぞれのモジュールの理想的な機能オフラインでの⽅策学習と⽅策評価の両⽅をサポートできる実装が必要。 May 2024 SCOPE-RL package description 15 残念ながら, 既存のオフライン強化学習プラットフォームには
どこかしら不⼗分な点があり、全ての機能の⼀貫した実装ができない.. データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

既存のオフライン強化学習ライブラリの⽋点どの既存プラットフォームを使っても⼀貫した実装ができない。 May 2024 SCOPE-RL package description 16 offline RLのライブラリ
(d3rlpy, Horizon, RLlib) Benchmark for OPE (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (not flexible) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×

(d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (implements whole procedures, but is not applicable to RL) × (specific) ✓ × (limited) ×

(d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × (限定的) ✓ ✓ × (specific) ✓ × (limited) × ✓? ✓? ✓? ✓?

(d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × (speci=c) ✓ × (limited) × × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)

(d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × (限定的) (より簡易なバンディットの設定で、強化学習には適⽤不可)

既存のオフライン強化学習ライブラリの⽋点特に、オフ⽅策評価の機能を提供できているライブラリがかなり少ない。 May 2024 SCOPE-RL package description 22 offline RLのライブラリ
(d3rlpy, Horizon, RLlib) OPEのベンチマーク (DOPE, COBS) OPEのライブラリ (OBP) 応⽤向けのライブラリ (RecoGym, RL4RS) OPEの性能検証 OPE offline RL データ収集 ✓ ✓ × (限定的) × × ✓ ✓ × × (特定のみ) ✓ × (限定的) × × (限定的) (強化学習は不可)

SCOPE-RLの貢献 May 2024 SCOPE-RL package description 23 SCOPE-RLは他にはないどんな機能を備えているのか?

SCOPE-RLの貢献点のまとめ以下のスライドにて⼀つづつ紹介： • オフライン強化学習とオフ⽅策評価を繋ぐ初のライブラリ • 多様なオフ⽅策推定量とOPEの性能検証指標の実装 • ⽅策のリスク評価のための「分布オフ⽅策評価」 • オフ⽅策評価とそれを基にした⽅策選択におけるリスクを評価する指標
• 使いやすいAPI設計や可視化ツール、充実したドキュメンテーション May 2024 SCOPE-RL package description 24

オフライン強化学習とオフライン評価の⼀貫した実装⽅策評価からオフ⽅策評価、OPEの性能検証までできるライブラリは初。 May 2024 SCOPE-RL package description 25 OpenAI GymやGymnasium
との互換性をサポート d3rlpyとの連携特に重点をおいたポイント: 多様なOPE推定量やその性能検証指標の実装データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

⽅策評価においては、⾏動選択（意思決定）を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •
: 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 特に重点を置いているのは⽅策評価の部分 May 2024 SCOPE-RL package description 26 ▼ 興味の対象

様々なオフ⽅策推定量とその性能検証指標 SCOPE-RLは⽅策の期待性能を推定するためのオフ⽅策推定量を多数実装。 • (基礎) Direct Method (DM) / Per-Decision Importance
Sampling (PDIS) / Doubly Robust (DR) • (発展) State(-action) Marginal Importance Sampling (S(A)MIS) and Doubly Robust (S(A)MDR) / Double Reinforcement Learning (DRL) • (拡張) Self-normalized estimators / Spectrum of OPE (SOPE) / kernel-based estimators for continuous actions May 2024 SCOPE-RL package description 27 推定量の詳細はAppendixにて

様々なオフ⽅策推定量とその性能検証指標 SCOPE-RLはさらに、従来より多⾓的かつ詳細な評価・性能検証を可能に。 May 2024 SCOPE-RL package description 28 オフ方策評価オフ方策評価
の性能検証

(1) リスク関数推定のための分布オフ⽅策評価分布オフ⽅策評価（Cumlative distribution OPE; CD-OPE) は分布全体を推定。 May 2024 SCOPE-RL
package description 29 𝐹(𝜋) 報酬に対する閾値

(1) リスク関数推定のための分布オフ⽅策評価推定した累積度数分布（CDF）を使い、様々な統計量（リスク指標）を導出。 May 2024 SCOPE-RL package description 30 下位ケースにおける方策の性能を
比較し、方策の安全性を評価できる trajectory-wise reward Note: CVaR is the average of the worst (1 - 𝛼) % trials.

これまでの話 – OPE推定量ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
• オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 31 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

ここからの話 – OPE推定量の性能検証ここからはOPE推定量の性能検証の話題に。 • 様々な環境やタスクに対応できる • 多様なオフライン強化学習⼿法を実装し⽐較できる • 様々な⽅策を多様なオフ⽅策推定量を⽤いて評価できる
• オフ⽅策評価やそれに伴う⽅策選択の性能や信頼性を検証できる May 2024 SCOPE-RL package description 32 データ収集⽅策学習（⼀般的なオフラインRL）オフ⽅策評価（OPE）やそれに基づく⽅策選択オフ⽅策推定量の性能検証も必要

(2) OPE推定量の性能検証指標標準的な性能検証指標は、ベストに近い⽅策を選べそうかを検証。 May 2024 SCOPE-RL package description 33 オフ方策評価（OPE）の結果を基に
直接最終的なデプロイ方策を選択する

(2) OPE推定量の性能検証指標 SCOPE-RLは3つの既存の性能検証指標を実装している。 • Mean squared error (MSE) – ⽅策の
評価（価値推定）の “正確さ” • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” • Regret – ⽅策の選択の “正確さ” May 2024 SCOPE-RL package description 34 各指標の詳細はAppendixにて

(2) OPE推定量の性能検証指標既存の3つの指標は、ベストに近い⽅策を選べそうかをある程度は検証できる。 .. しかし実⽤では、OPEの結果だけでデプロイ⽅策を決めることはあまりない。 May 2024 SCOPE-RL package description
35 OPEの不確実性や推定誤差が理由で OPEだけでは安心して方策選択できないため

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 May 2024 SCOPE-RL
package description 36 OPE を “スクリーニング” の過程として捉える最終的には A/Bテストの結果も組み合わせて方策選択

package description 37 オフライン評価を “スクリーニング” の過程として捉える最終的には A/Bテストの結果も組み合わせて方策選択

package description 38 OPE を “スクリーニング” の過程として捉える A/Bテスト時のリスクとリターンのトレードオフを評価

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン)
• worst@𝑘, mean@𝑘, std@𝑘 (リスク) • safety violation rate@𝑘 (リスク) • SharpeRatio@k (効率性) May 2024 SCOPE-RL package description 39 各指標の詳細はAppendixにて選ばれた⽅策集合を「⽅策ポートフォリオ」とみなし、その統計量でOPE推定量を評価する

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン):
A/Bテスト後に最終的に選ばれる⽅策の性能を表す May 2024 SCOPE-RL package description 40 ⼤きい⽅が良い各指標の詳細はAppendixにて

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘,
std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまう危険性を表す May 2024 SCOPE-RL package description 41 指標に依るが、図中では⼩さい⽅が良い各指標の詳細はAppendixにて

(2) 上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性):
リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 42 ⼤きい⽅が良い各指標の詳細はAppendixにて

OPEにおけるユニークな機能のまとめ SCOPE-RLは従来より多⾓的かつ詳細な評価・性能検証を可能に。 May 2024 SCOPE-RL package description 43 オフ方策評価オフ方策評価
の性能検証

SCOPE-RLの貢献点のまとめ • オフライン強化学習とオフ⽅策評価の⼀貫した実装を初めて可能に • 多くの既存ライブラリと異なり、オフ⽅策評価（OPE）に主眼を置く • .. 多様なオフ⽅策推定量を実装 • ..
初めて「分布オフ⽅策評価」をサポート • .. OPE推定量の性能検証までをも可能に SCOPE-RLを使えば、オフ方策評価を簡単に実行し検証できる！ May 2024 SCOPE-RL package description 44

使いやすいAPI設計も特徴の⼀つ例えば、OPE推定量の検証とその結果の可視化がたった1⾏のコードで。 May 2024 SCOPE-RL package description 45 GitHub Install
now!!

充実したドキュメンテーションも公開 May 2024 SCOPE-RL package description 46 documentation Install now!!

ぜひ SCOPE-RL を使ってください！ • ドキュメンテーション: https://scope-rl.readthedocs.io/en/latest/ • APIの説明: https://scope-rl.readthedocs.io/en/latest/ documentation/scope_rl_api.html
• GitHub: https://github.com/hakuhodo-technologies/scope-rl • PyPI: https://pypi.org/project/scope-rl/ • Google Group: https://groups.google.com/g/scope-rl May 2024 SCOPE-RL package description 47 documentation GitHub PyPI

Thank you! contact: [email protected] May 2024 SCOPE-RL package description 48

Example Usage SCOPE-RLを使った offline RL & OPE 実装のチュートリアル May 2024
SCOPE-RL package description 49

Step 1: データ収集たったの6⾏で必要な実装ができる。 May 2024 SCOPE-RL package description 50
RTBGymによる簡単なデモ offline RL OPE/OPS OPEの性能検証データ収集

offline RL OPE/OPS OPEの性能検証データ収集 RTBGymによる簡単なデモ

データ収集 offline RL OPE/OPS OPEの性能検証 RTBGymによる簡単なデモ

Step2: offline RLで新たな⽅策を学習するオフライン強化学習の⽅策学習にはd3rlpyを使う。 May 2024 SCOPE-RL package description 55
データ収集 offline RL OPE/OPS OPEの性能検証

複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 Step3: 期待性能を評価する標準的なオフ⽅策評価 May 2024 SCOPE-RL package description 56 データ収集
offline RL OPE/OPS OPEの性能検証

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 57 データ収集

Step3: 期待性能を評価する標準的なオフ⽅策評価複数の⽅策やオフ⽅策推定量の推定結果を⼀度に⽐較できる。 May 2024 SCOPE-RL package description 61 estimated
policy value

Step4: 分布オフ⽅策評価 May 2024 SCOPE-RL package description 62 分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。データ収集

Step4: 分布オフ⽅策評価分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。 May 2024 SCOPE-RL package description 63 推定した累積度数関数（CDF）
様々な閾値で推定した下位平均性能（CVaR）

Step4: 分布オフ⽅策評価分布オフ⽅策評価も、標準的なオフ⽅策評価とほぼ同じ⼿順で実装可能。 May 2024 SCOPE-RL package description 64 推定した10%-90%までの性能分布範囲

Step5: オフ⽅策選択（OPS）とOPE/OPSの性能検証オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。 May 2024 SCOPE-RL package description 65 データ収集

Step5: オフ⽅策選択（OPS）とOPE/OPSの性能検証オフ⽅策選択やOPE/OPSの性能検証⼿順の実装も容易。 May 2024 SCOPE-RL package description 66 真の
variance (x) とそのオフ⽅策推定値 (y) の⽐較 OPSの様々な評価指標の計算

Step6: OPE/OPSのリスクとリターンの評価もできるオンラインA/Bテストを想定した上位 𝑘 個の⽅策集合の評価も。 May 2024 SCOPE-RL package description
67 データ収集 offline RL OPE/OPS OPEの性能検証

OPE estimators and metrics May 2024 SCOPE-RL package description 68
SCOPE-RLに実装されている推定量などをご紹介 p65-79: 標準的な期待性能推定のためのOPE p80-85: 分布オフ⽅策評価 P86-96: OPEの性能検証

⽅策評価においては、⾏動選択（意思決定）を⾏う⽅策の性能を評価したい。 • : 状態 (state) • : ⾏動 (action) •
: 報酬 (reward) • : 時刻 (timestep) • : 状態遷移確率 • : 報酬分布 • : 割引率 • : 軌跡・履歴 (trajectory) 定式化の確認 May 2024 SCOPE-RL package description 69 ▼ 興味の対象

標準的なOPEのための推定量⼀連のインタラクションで得られる累積報酬の期待値（⽅策価値）を推定したい。 May 2024 SCOPE-RL package description 70 オフ方策推定量データ収集⽅策が集めた
蓄積データ反実仮想と分布シフトの問題データ収集⽅策

Direct Method (DM) [Le+,19] DMはまず価値予測器を学習し、その予測を基に⽅策価値を推定。利点: バリアンスが⼩さい. ⽋点: ⼤きなバイアスが発⽣しうる（ &
𝑄 が不正確な場合）. May 2024 SCOPE-RL package description 71 予測した状態行動価値将来の時刻で得られる累積報酬を予測経験平均 (𝑛: データサイズ, 𝑖: インデックス)

Per-Decision Importance Sampling (PDIS) [Precup+,00] PDISは分布シフトを補正するために重点サンプリングを適⽤する。利点: 不偏性を満たす (共有サポートが成り⽴つ場合: )。
⽋点: バリアンスは 𝑡 が⼤きくなるにつれ指数関数的に⼤きく。 May 2024 SCOPE-RL package description 72 重みづけ（= 各時刻での重みの総積）

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。 May 2024 SCOPE-RL package
description 73 (再帰的な表記) 報酬予測の残差にのみ重点サンプリングを適用時刻 𝑡 以降の⽅策価値

Doubly Robust (DR) [Jiang&Li,16] [Thomas&Brunskill,16] DRは残差にのみ重点サンプリングを適⽤し、DMとPDISの良いとこどりをする。利点: PDISと同じ条件で不偏性を満たし、多くの場合PDISのバリアンスを減少。⽋点: 𝑡
が⼤きい時にはまだバリアンスが⼤きくなり得る。 May 2024 SCOPE-RL package description 74

State-action Marginal IS (SAM-IS) [Uehara+,20] バリアンス減少のため、SAM-ISは状態⾏動空間での周辺分布で重みづける。利点: ) 𝜌 が正確であれば不偏性を満たし、
PDISよりバリアンスを減少する。⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 75 周辺分布上での重みづけ（重みを推定する必要あり）状態⾏動の観測確率

State-action Marginal DR (SAM-DR) [Uehara+,20] SAM-DRは状態⾏動空間の周辺分布上で定義されるDR推定量の⼀つ。利点: ) 𝜌 か
& 𝑄 どちらかが正確なら不偏性を満たし、バリアンスもDRより⼩さい。⽋点: ) 𝜌 を正確に推定することは難しく、バイアスに繋がる。 May 2024 SCOPE-RL package description 76 残差に対して周辺分布上での重みづけを適用する

State Marginal estimators (SM-IS/DR) [Liu+,18] 状態空間における周辺分布上でも推定量を定義できる（⾏動は周辺化）。ここで、は状態観測確率の推定であり、は時刻 𝑡
における逐次的な重みづけである。 May 2024 SCOPE-RL package description 77

Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21] SOPEは、(S(A))M-IS と PDIS の間をとることでバイアスとバリアンスを調整。
May 2024 SCOPE-RL package description 78

Spectrum of Off-Policy Evaluation (SOPE) [Yuan+,21] 例えば、SAM-IS/DR を SOPE に組み込むと以下のようになる。
May 2024 SCOPE-RL package description 79

Double Reinforcement Learning (DRL) [Kallus&Uehara,20] DRLは周辺分布上で定義され、不偏性を満たす推定量の中でバリアンスが最⼩。 DRLはcross-fittingという⼿順を⽤い、) 𝜌 と &
𝑄 を 𝐷\𝐷𝑘 で学習し、 - 𝐽 を 𝐷𝑘 で推定し別々のデータを使うことで発⽣し得るバイアスを極⼒減らすことができる。 May 2024 SCOPE-RL package description 80 (参考) cross-fitting

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。重みを正規化した推定量は不偏性は満たさなくなるが、⼀致性は保たれる。 May 2024 SCOPE-RL package description
81

Self-normalized estimators [Kallus&Uehara,19] 重点サンプリングの重みを正規化することで、バリアンスの減少が期待できる。 May 2024 SCOPE-RL package description 82

連続⾏動空間への拡張 [Kallus&Zhou,18] 元の重みは⾏動のほとんどを無視してしまうので、カーネルを使い連続⾏動空間上の⾏動の近さを考慮する。 May 2024 SCOPE-RL package description 83
カーネル関数 (e.g., ガウスカーネル)

確率信頼区間の推定 SCOPE-RLは信頼区間を求めるための確率不等式をいくつか実装。 • Hoeffding: • Empirical Bernstein: • Student’s T-test:
• Bootstrapping: May 2024 SCOPE-RL package description 84 𝛼: confidence level

分布オフ⽅策評価のための推定量分布オフ⽅策評価（CD-OPE）では、累積度数分布により分布全体を推定。 May 2024 SCOPE-RL package description 85 𝐹(𝜋) 下位ケースにおける方策の性能
を比較し、方策の安全性を評価報酬に対する閾値

分布オフ⽅策評価のための推定量分布オフ⽅策評価（CD-OPE）では、累積度数分布により分布全体を推定。 May 2024 SCOPE-RL package description 86 分布オフ方策推定量 𝐹(𝜋)
[Chandak+,21] [Huang+,21,22] 報酬に対する閾値

分布オフ⽅策評価のためのDM DMは報酬予測器を⽤いるモデルベースの⼿法。 May 2024 SCOPE-RL package description 87 報酬の予測値

分布オフ⽅策評価のためのTrajectory-wise IS (TIS) TISは累積度数分布を推定する際の重点サンプリングを⾏う。⼤きい重みで累積確率が1を超えてしまうことがあるので、クリッピングする。 May 2024 SCOPE-RL package description
88 軌跡（trajectory）単位での重みづけ

分布オフ⽅策評価のためのTrajectory-wise DR (TDR) 分布オフ⽅策評価でもDMとTISを組み合わせたDR型の推定量が定義できる。 May 2024 SCOPE-RL package description 89
残差に対して重点サンプリングを行う

分布オフ⽅策評価のためのSelf-normalized estimators 正規化した重みを使うことで、TIS/TDRのバリアンスを軽減できる。 May 2024 SCOPE-RL package description 90

実装されているOPEの “正確さ” の検証指標 SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared error
(MSE) – ⽅策の評価（価値推定）の “正確さ” • Rank correlation (RankCorr) – ⽅策の並べ替えの “正確さ” • Regret – ⽅策の選択の “正確さ” • Type I and Type II error rates – ⽅策のリスク検出の “正確さ” May 2024 SCOPE-RL package description 91

実装されているOPEの “正確さ” の検証指標 (1/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Mean squared
error (MSE) – ⽅策の評価（価値推定）の “正確さ” [Voloshin+,21] May 2024 SCOPE-RL package description 92 推定結果真の方策価値⼩さい⽅が良い

実装されているOPEの “正確さ” の検証指標 (2/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Rank correlation
(RankCorr) – ⽅策の並べ替えの “正確さ” [Fu+,21] May 2024 SCOPE-RL package description 93 1 2 3 4 5 6 7 推定結果真のランキング⼤きい⽅が良い

実装されているOPEの “正確さ” の検証指標 (3/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Regret –
⽅策の選択の “正確さ” [Doroudi+,18] May 2024 SCOPE-RL package description 94 真に最適な方策の価値推定結果を基に選ばれてた方策の価値⼩さい⽅が良い

実装されているOPEの “正確さ” の検証指標 (4/4) SCOPE-RLでは従来の検証指標として、4つの “正確さ” に関する指標を実装。 • Type I
and Type II error rates – ⽅策のリスク検出の “正確さ” May 2024 SCOPE-RL package description 95 false positive true negative ̅ 𝐽: 報酬に対する閾値 (true negative / true) (false positive / false) ⼩さい⽅が良い

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン): A/Bテスト後に最終的に選ばれる⽅策の性能を表す
• worst@𝑘, mean@𝑘, std@𝑘, safety violation rate@𝑘 (リスク): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す • SharpeRatio@k (効率性): リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 96

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • best@𝑘 (リターン; ⼤きい⽅が良い):
A/Bテスト後に最終的に選ばれる⽅策の性能を表す May 2024 SCOPE-RL package description 97

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • worst@𝑘, mean@𝑘 (リスク;
⼤きい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 98

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • std@𝑘 (リスク; ⼩さい⽅が良い):
A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 99

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • safety violation rate@𝑘
(リスク; ⼩さい⽅が良い): A/Bテスト実施中に性能の悪い⽅策をデプロイしてしまうリスクを表す May 2024 SCOPE-RL package description 100 ̅ 𝐽: 報酬に対する閾値

上位 𝑘 個の⽅策選択の結果を検証する SCOPE-RLはさらに、OPEの結果選ばれた上位 𝑘 個の⽅策集合の性能を検証。 • SharpeRatio@k (効率性; ⼤きい⽅が良い):
[Kiyohara+,23] リスクなしに達成可能な⽅策価値 (𝐽(𝜋𝑏 )) に対し、リターン (best@𝑘) がどれほど⼤きいかを A/Bテスト中のリスク (std@𝑘) を割引き評価する May 2024 SCOPE-RL package description 101

References May 2024 SCOPE-RL package description 102

参考⽂献 (1/9) [Seno&Imai,22 (d3rlpy)] Takuma Seno and Michita Imai. “d3rlpy:
An Offline Deep Reinforcement Learning Library.” JMLR, 2022. https://arxiv.org/abs/2111.03788 [Gauci+,18 (Horizon)] Jason Gauci, Edoardo Conti, Yitao Liang, Kittipat Virochsiri, Yuchen He, Zachary Kaden, Vivek Narayanan, Xiaohui Ye, Zhengxing Chen, and Scott Fujimoto. “Horizon: Facebook's Open Source Applied Reinforcement Learning Platform.” 2018. https://arxiv.org/abs/1811.00260 [Liang+,18 (RLlib)] Eric Liang, Richard Liaw, Philipp Moritz, Robert Nishihara, Roy Fox, Ken Goldberg, Joseph E. Gonzalez, Michael I. Jordan, and Ion Stoica. “RLlib: Abstractions for Distributed Reinforcement Learning.” ICML, 2018. https://arxiv.org/abs/1712.09381 May 2024 SCOPE-RL package description 103

参考⽂献 (2/9) [Fu+,21 (DOPE)] Justin Fu, Mohammad Norouzi, Ofir Nachum,
George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Tom Le Paine. “Benchmarks for Deep Off-Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Voloshin+,21 (COBS)] Cameron Voloshin, Hoang M. Le, Nan Jiang, and Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/1911.06854 [Rohde+,18 (RecoGym)] David Rohde, Stephen Bonner, Travis Dunlop, Flavian Vasile, and Alexandros Karatzoglou “RecoGym: A Reinforcement Learning Environment for the problem of Product Recommendation in Online Advertising.” 2018. https://arxiv.org/abs/1808.00720 May 2024 SCOPE-RL package description 104

参考⽂献 (3/9) [Wang+,21 (RL4RS)] Kai Wang, Zhene Zou, Yue Shang,
Qilin Deng, Minghao Zhao, Yile Liang, Runze Wu, Jianrong Tao, Xudong Shen, Tangjie Lyu, and Changjie Fan. “RL4RS: A Real-World Benchmark for Reinforcement Learning based Recommender System.” 2021. https://arxiv.org/abs/2110.11073 [Saito+,21 (OBP)] Yuta Saito, Shunsuke Aihara, Megumi Matsutani, and Yusuke Narita. “Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off- Policy Evaluation.” NeurIPS dataset&benchmark, 2021. https://arxiv.org/abs/2008.07146 [Brockman+,16 (OpenAI Gym)] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. “OpenAI Gym.” 2016. https://arxiv.org/abs/1606.01540 May 2024 SCOPE-RL package description 105

参考⽂献 (4/9) [Kiyohara+,21 (RTBGym)] Haruka Kiyohara, Kosuke Kawakami, and Yuta
Saito. “Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation.” 2021. https://arxiv.org/abs/2109.08331 [Chandak+,21 (CD-OPE)] Yash Chandak, Scott Niekum, Bruno Castro da Silva, Erik Learned-Miller, Emma Brunskill, and Philip S. Thomas. “Universal Off-Policy Evaluation.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 [Huang+,21 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C. Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment in Contextual Bandits.” NeurIPS, 2021. https://arxiv.org/abs/2104.12820 May 2024 SCOPE-RL package description 106

参考⽂献 (5/9) [Huang+,22 (CD-OPE)] Audrey Huang, Liu Leqi, Zachary C.
Lipton, and Kamyar Azizzadenesheli. “Off-Policy Risk Assessment for Markov Decision Processes.” AISTATS, 2022. https://proceedings.mlr.press/v151/huang22b.html [Hasselt+,16 (DDQN)] Hado van Hasselt, Arthur Guez, and David Silver. “Deep Reinforcement Learning with Double Q-learning.” AAAI, 2016. https://arxiv.org/abs/1509.06461 [Kumar+,20 (CQL)] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning.” NeurIPS, 2020. https://arxiv.org/abs/2006.04779 [Le+,19 (DM)] Hoang M. Le, Cameron Voloshin, and Yisong Yue. “Batch Policy Learning under Constraints.” ICML, 2019. https://arxiv.org/abs/1903.08738 May 2024 SCOPE-RL package description 107

参考⽂献 (6/9) [Precup+,00 (IPS)] Doina Precup, Richard S. Sutton, and
Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation.” ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_facult y_pubs [Jiang&Li,16 (DR)] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1511.03722 [Thomas&Brunskill,16 (DR)] Philip S. Thomas and Emma Brunskill. “Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning.” ICML, 2016. https://arxiv.org/abs/1604.00923 [Uehara+,20 (SAM-IS/DR)] Masatoshi Uehara, Jiawei Huang, Nan Jiang. “Minimax Weight and Q-Function Learning for Off-Policy Evaluation.” ICML, 2020. https://arxiv.org/abs/1910.12809 May 2024 SCOPE-RL package description 108

参考⽂献 (7/9) [Liu+,18 (SM-IS/DR)] Qiang Liu, Lihong Li, Ziyang Tang,
Dengyong Zhou. “Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation.” NeurIPS, 2018. https://arxiv.org/abs/1810.12429 [Yuan+,21 (SOPE)] Christina J. Yuan, Yash Chandak, Stephen Giguere, Philip S. Thomas, Scott Niekum. “SOPE: Spectrum of Off-Policy Estimators.” NeurIPS, 2021. https://arxiv.org/abs/2111.03936 [Kallus&Uehara,20 (DRL)] Nathan Kallus, Masatoshi Uehara. “Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes.” JMLR, 2020. https://arxiv.org/abs/1908.08526 [Kallus&Uehara,19 (Self-normalized estimators)] Nathan Kallus, Masatoshi Uehara. “Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning.” NeurIPS, 2019. https://arxiv.org/abs/1906.03735 May 2024 SCOPE-RL package description 109

参考⽂献 (8/9) [Kallus&Zhou,18 (extension to continuous actions)] Nathan Kallus, Angela
Zhou. “Policy Evaluation and Optimization with Continuous Treatments.” AISTATS, 2018. https://arxiv.org/abs/1802.06037 [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Off-Policy Evaluation.” AAAI, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015.pdf [Thomas+,15 (high-confidence OPE)] Philip S. Thomas, Georgios Theocharous, Mohammad Ghavamzadeh. “High Confidence Policy Improvement.” ICML, 2015. https://people.cs.umass.edu/~pthomas/papers/Thomas2015b.pdf [Voloshin+,21 (MSE)] Cameron Voloshin, Hoang M. Le, Nan Jiang, Yisong Yue. “Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning.” NeurIPS datasets&benchmarks, 2021. https://arxiv.org/abs/1911.06854 May 2024 SCOPE-RL package description 110

参考⽂献 (9/9) [Fu+,21 (RankCorr)] Justin Fu, Mohammad Norouzi, Ofir Nachum,
George Tucker, Ziyu Wang, Alexander Novikov, Mengjiao Yang, Michael R. Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, Tom Le Paine. “Benchmarks for Deep Off- Policy Evaluation.” ICLR, 2021. https://arxiv.org/abs/2103.16596 [Doroudi+,18 (Regret)] Shayan Doroudi, Philip S. Thomas, Emma Brunskill. “Importance Sampling for Fair Policy Selection.” IJCAI, 2018. https://people.cs.umass.edu/~pthomas/papers/Daroudi2017.pdf [Kiyohara+,23 (SharpeRatio@k)] Haruka Kiyohara, Ren Kishimoto, Kosuke Kawakami, Ken Kobayashi, Kazuhide Nakata, Yuta Saito. “Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation in Reinforcement Learning.” 2023. May 2024 SCOPE-RL package description 111

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

SCOPE-RL: オフライン強化学習とオフ方策評価のライブラリ

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript