Offline Reinforcement Learning

2021/03/22 1 オフライン強化学習チュートリアル @ 強化学習若手の会オフライン強化学習 Offline Reinforcement Learning: Tutorial,
Review, and Perspectives on Open Problems 東京工業大学経営工学系清原明加

自己紹介研究興味 • Reinforcement Learning • Off-Policy Evaluation 最近の活動 •
半熟仮想 Research Intern オフ方策評価 (OPE) • negocia Research Intern リアルタイム広告入札 (RTB) • awesome-offline-rl オフライン強化学習とオフ方策評価について論文まとめてます 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 2 清原明加 Haruka Kiyohara 東京工業大学経営工学系 B3 @aiueola_ https://github.com/hanjuku-kaso/awesome-offline-rl https://sites.google.com/view/harukakiyohara

オフライン強化学習 • 強化学習をオフラインデータ上で行う． • 医療・ロボティクスなど実環境との相互作用へのリスクの大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会
3 今回紹介する内容

全体の流れ • 強化学習とオフラインへの導入 • オフライン強化学習の技術課題 • 方策評価と学習上の工夫 • 今後とまとめ紹介論文
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems, Sergey Levine, Aviral Kumar, George Tucker, Justin Fu, 2020 https://arxiv.org/abs/2005.01643 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 4

強化学習とオフラインへの導入 2021/03/22 5 オフライン強化学習チュートリアル @ 強化学習若手の会

強化学習とは？教師あり学習/教師無し学習/強化学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 6 machine learning reinforcement
supervised unsupervised Cartpole Atari breakout 碁(Go)

強化学習とは？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 7 状態ｓ報酬ｒ行動 a
エージェント環境将来的に得られる報酬を最大化するよう，エージェントが行動方策を学習し，意思決定を最適化する．

強化学習で可能なこと深層学習との組み合わせで，ブレイクスルーが起こった． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 8 囲碁で世界チャンピオンに勝利 [D. Sliver+,
2016] https://www.bbc.com/news/technology-35785875 データセンターの冷却電力効率化 [J. Gao, 2016] https://deepmind.com/blog/article/deepmind-ai- reduces-google-data-centre-cooling-bill-40 ニューラルネットの構造最適化 [B. Zoph & Q. V. Le, 2016] 道具を使ってかくれんぼ [B. Baker+, 2016]

強化学習の定式化 • 目的関数(最大化) • 履歴(trajectory)確率分布 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 9
時間割引累積報酬行動方策状態遷移確率総積なのが後々重要に

強化学習のtaxonomy 今回はモデルフリーを主に扱う． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 10 強化学習モデルベースモデルフリー
方策ベース Actor-Critic オンラインオフポリシー価値ベース

方策ベース方策にパラメタを導入し，目的関数の勾配で更新． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 11 行動の相対的な良さ状態を訪れた時の平均報酬方策に従ったtrajectoryによる将来報酬
・現在の方策に従い rolloutでデータ収集

価値ベース価値の概念を導入し，価値関数をパラメタ化して近似． (即時報酬にならなくても，将来報酬に繋がる状態/行動には価値がある) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 12 状態価値行動価値

TD学習状態と行動の価値の式から，ベルマン方程式が得られる． argmax方策とすると，価値関数はベルマン最適方程式の右辺左辺の誤差でTD(temporal difference)学習． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 13
うまく選べているかが重要 buffer 過去の経験からサンプリングして学習

Actor-Critic • 方策と価値関数の両方にパラメタを導入． • 価値関数(Critic)で評価した相対的な方策(Actor)の良さを基に，目的関数の勾配で方策更新． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会
14 Criticによる

強化学習の特徴 • 方策を基にオンラインでのデータ収集が必要． • 貪欲的な方策では局所最適になってしまうので，適度に探索を行いながら学習．(主に価値ベース) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会
15 オンラインオフポリシー活用 1-ε 探索 ε 方策ベース価値ベース epsilon greedy

実応用での課題強化学習を応用したい場面 • 医療 • 自動運転 • ロボティクス • 広告配信
• オンラインでの探索には危険や経済損失が伴う． • 目的関数を少し変えるたびに学習し直す必要． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 16 [A. Kendall+, 2019] [H. Zhu+, 2017] オンラインではなく，オフラインでやりたい！

オフライン強化学習強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 17
オフライン強化学習では，実環境とのインテラクションが不要で，一度別のポリシーで集めたデータセットのみで学習できる！あり ←オンラインでの環境との作用→ なしオンラインオフポリシーオフライン

オフライン強化学習強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 18
オフライン強化学習では，実環境とのインテラクションが不要で，一度別のポリシーで集めたデータセットのみで学習できる！あり ←オンラインでの環境との作用→ なしオンラインオフポリシーオフライン以降では，以下の名称で定義：データ収集時の方策 𝝅 𝜷 を behavior policy, 新たに学習/評価したい方策 𝝅(𝝅 𝜽 ) を current policy / evaluation policy.

使えるデータ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 19 (過去の系列に依存した)状態遷移次の状態と報酬は選んだ行動に依存 (=選ばれた行動以外の場合が分からない) 行動方策
状態遷移確率 behavior policyに依存した(i.i.d.でない)偏ったデータ収集に

ここまでのまとめ • 環境との相互作用を行いながら学習 → 従来のオンライン/オフポリシー強化学習 • オンラインでの学習や探索は，リスク/コストの懸念 → オフライン強化学習のモチベーション •
エージェントの行動に依存した反実仮想な状況 • i.i.d.でない偏ったデータ収集 → オフライン強化学習の技術的課題と面白さ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 20

オフライン強化学習の技術課題 2021/03/22 21 オフライン強化学習チュートリアル @ 強化学習若手の会

オフラインでやりたいこと • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior
policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 → 分布シフトの影響により，簡単にはいかない 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 22

オフライン特有の分布シフト例えば，から始まる10個のログデータがあるとき． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 23 8 2
5 3 データが多いので間違えにくいデータが少ないので間違えやすい 2 0 behavior policy current policyがデータと違うtrajectoryを選ぶとどうなる？

分布シフトの発生 1. 方策の分布シフト behavior policyと違う方策を選択 2. 状態の分布シフト behavior policyと状態遷移/生成確率が異なる 3.
価値関数/期待報酬の予測エラーデータが少ないと学習できない反実仮想 + i.i.d.でない，データの特性に起因． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 24

評価時の分布シフト 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 25 評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか？オフラインのデータセットでは評価したい方策と確率分布が異なる behavior
policyが集めたbiasedなデータしか手に入らないので，単純にrolloutして期待報酬を求めるのはNG!

学習時の分布シフト • 方策ベース評価時同様，単純な方法では勾配がbiasedに． • 価値ベース価値関数の予測誤差の問題が深刻に． 2021/03/22 オフライン強化学習チュートリアル @
強化学習若手の会 26 out-of-distributionなペアがあると，過大評価してうまくいかない可能性そもそもロスを計算するためのデータサンプルの生成確率も異なる [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kumar, 2019]

一般的なオフポリシーとの違い • 経験バッファは 𝜋 𝛽 によるデータ(更新されない)． • 価値関数を楽観的に見積もった場合，オンラインのデータ収集により修正できない． 2021/03/22
オフライン強化学習チュートリアル @ 強化学習若手の会 27 蓄積エージェントの行動経験経験バッファ Q-network サンプリングして学習推定価値データ収集はオンライン分布シフトにより，楽観的に見積もる可能性 × × オフラインの致命的な欠点

“unlearning” effect 強化学習の場合，強い時系列依存性下で分布シフトが発生するため，データサイズを増やしても汎化しない． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 28 実際どれくらい
うまくいっているかエージェントがどれくらいうまくいっていると思っているか (価値関数) データサイズ10万 [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 [A. Kumar+, 2019]

分布シフトの理論的な深刻さ behavior policyが最適という強い仮定を置いた時，方策の汎化誤差に対するリグレットの上界 • 完全オフラインの場合 • オンラインでのデータ収集を許した場合 2021/03/22
オフライン強化学習チュートリアル @ 強化学習若手の会 29 時系列が長くなるほど2乗オーダーが問題に (一度間違えると以降のステップも間違え続けるため) current policyの選んだ行動が最適解(=behavior policy)と一致しなかった回数 [S. Ross+, 2011] A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. https://arxiv.org/abs/1011.0686

ここまでのまとめ • オフライン強化学習では，分布シフトへの対処が鍵． • 方策の分布シフト (行動選択確率の違い) • 状態の分布シフト (状態生成確率の違い) •
これは，データの特性に起因． • 方策に対し観測が反実仮想になっている • behavior policyによって集められ偏りがある → 分布シフトがある状況でどうすれば強化学習できる？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 30

方策評価と学習上の工夫 2021/03/22 31 オフライン強化学習チュートリアル @ 強化学習若手の会

オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior
policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 → 分布シフトがある中で，うまく行うには？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 32

policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 33 まずはオフライン評価について紹介します

評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 34 オフラインのデータセットでは確率分布が異なる behavior policyが集めたbiasedなデータで評価する必要
→ データの観測確率をunbiasedに補正したい！期待報酬のオフライン評価 (再掲)

オフライン評価の手法あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 35 Importance Sampling Marginalized
Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正 Many more statistically advanced estimators..

オフライン評価の手法あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 36 Importance Sampling Marginalized
Importance Sampling State Marginal Weighted-Importance Sampling Step-Importance Sampling Doubly Robust Estimator State-Action Marginal Many more statistically advanced estimators.. Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正

Importance Sampling (IS) trajectoryの観測確率が方策に依存するため，報酬観測確率をunbiasedに補正！ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 37
総積により指数関数的に重みが変化 → varianceが非常に大きいという問題が.. [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

Step Importance Sampling (step-IS) 強化学習の状態遷移はそれまでの方策に依存するため，報酬の観測されるstepまでの確率をunbiasedに補正！ → varianceを軽減する方法を考えたい..！ 2021/03/22 オフライン強化学習チュートリアル
@ 強化学習若手の会 38 多少軽減されるが，まだvarianceが大きい [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

Weighted Importance Sampling (WIS) self-normalizeすると，varianceが多少小さくなる． (biasedだが，consistent) → unbiasedなままvarianceを小さくできる方法はあるか？ 2021/03/22 オフライン強化学習チュートリアル
@ 強化学習若手の会 39 重み和で割る [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

variance軽減のための工夫再帰的に見たときのstep-IS 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 40 [N. Jiang &
L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインとの誤差を重みづけ推定価値 ※t期より先の期待報酬を求める再帰式． t=0のとき，step-ISの式に一致．ベースラインの推定量を導入！

Doubly Robust Estimator (DR) behavior policyが既知 or 推定報酬が正確ならunbiased！さらに，理論的にvarianceも軽減可能． →
その他にも統計的に優れた推定量が沢山．(今日は割愛) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 41 再帰式を解いて得たもの [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722

DRのvariance比較再帰式でのstep-ISのvariance 再帰式でのDRのvariance 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 42 [N. Jiang
& L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインの推定価値がaccurateなら分散が小さくなる！

オフライン評価の手法 (再掲) あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 43 Importance Sampling
Marginalized Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正 Many more statistically advanced estimators..

Marginalized Importance Sampling 方策重みを毎期掛け合わせると指数的にvarianceが増大するので，周辺化による補正でvarianceを押さえる． • state marginal importance ratio
• state-action marginal importance ratio 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 44 [R. Sutton+, 2016] An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] GenDICE: Generalized Offline Estimation of Stationary Values. https://arxiv.org/abs/2002.09072 ベルマン方程式の更新式を用いて求められる．

policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 45 今回は価値ベースについて紹介します

オフラインでの方策ベース勾配推定もunbiasedに補正したいが， varianceが問題になるので正則化項を加える． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 46 重みが大きくなりすぎるのを抑制するための正則化項 [S.
Levine and K. Vladlen, ICML’13] Guided Policy Search. http://proceedings.mlr.press/v28/levine13.pdf

オフラインでの価値ベース価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル
@ 強化学習若手の会 47 [A. Kumar, 2019] [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/

オフラインでの価値ベース価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル
@ 強化学習若手の会 48

Policy Constraints ダイバージェンスの制約を満たす範囲で方策を最適化． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 49 current policyとbehavior
policyの乖離を防ぐダイバージェンス(分布間距離)制約 [N. Jaques+, 2019] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog. https://arxiv.org/abs/1907.00456 safe! risky..

Policy Penalty 現在の方策だけでなく，将来の方策の乖離を招く行動も抑制するため，報酬にペナルティ項を追加． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 50 方策乖離ペナルティ
[Y. Wu+, 2019] Behavior Regularized Offline Reinforcement Learning. https://arxiv.org/abs/1911.11361 将来の分まで加味 safe! risky..

Support • ダイバージェンスだとbehavior policyが uniform randomなどの場合，current policy のエントロピーが必要以上に増大． → current
policyは最適でない，過度に確率的な方策に． • 代替案として，behavior policyの確率が閾値以下の場合のみを制約項に含めるよう，supportを用いる． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 51 behavior policyの経験が少なすぎる場合だけ方策乖離と見なす [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 緑の確率分布(方策)は悪くないはずでは？ →が，分布間距離は大

オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

Uncertainty Estimation • 直接的な方策制約ではなく，価値関数の予測不確実性を評価してそれを基に意思決定を行う． • 不確実性を考慮した上で行動価値の推定下界を最大化． 2021/03/22 オフライン強化学習チュートリアル @
強化学習若手の会 53 不確実性項 bootstrap ensembleによる分散などで評価 [I. Osband+, 2016] Deep Exploration via Bootstrapped DQN. https://arxiv.org/abs/1602.04621

オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

Conservative Q-Learning 価値関数が過度に悲観的にならないよう，過大評価を抑制しつつもバランスをとる． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 55 ある方策上(最悪ケース)での過大評価を抑制
観測点では楽観的に TD誤差は最小化 [A. Kumar+, 2020] Conservative Q-Learning for Offline Reinforcement Learning. https://arxiv.org/abs/2006.04779

今後とまとめ 2021/03/22 56 オフライン強化学習チュートリアル @ 強化学習若手の会

今後のオフライン強化学習まだまだ課題が山積み！ • オフラインでのハイパラチューニングをどうするか． • オンラインでのデプロイ時に初期挙動が不安定に． • behavior policyにかなり学習結果が依存．しかし，使えると嬉しい応用場面も沢山！
• 医療の意思決定 • 自動運転やロボット制御 • 推薦システムや広告配信の最適化 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 57

まとめ • 強化学習をonline interactionからdata drivenへ • 反実仮想な条件下での推論問題ログデータからは，エージェントが違う行動を取った場合，状態遷移と報酬がどうなっていたか分からない． •
分布シフトへの対応 • Importance Sampling • Policy Penalty / Uncertainty Estimation / Conservative Q-Learning • 課題も多いが，これからの発展に期待！今日はオフライン強化学習の導入部分を紹介しました．発展的な内容は，ぜひ awesome-offline-rl の論文/tutorial などチェックしてみてください！ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 58

awesome-offline-rlの紹介 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 59

ありがとうございました！ 2021/03/22 60 オフライン強化学習チュートリアル @ 強化学習若手の会

Appendix 2021/03/22 61 オフライン強化学習チュートリアル @ 強化学習若手の会

分布シフトの発生方策の分布シフトは，状態の分布シフトにどの程度影響を与えるのか？つまり，out-of-distributionなデータ領域に行かないためには厳しめに方策の分布シフトを抑制する必要がある． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 62
2乗オーダーが問題に

モデルベースの分布シフト • 状態遷移をモデル化するモデルベースでは，教師あり学習ライクに学習でき，データ効率が良い． • 状態遷移確率の予測誤差に対して，方策価値過大評価の上界は以下で与えられ，やはり課題がある． 2021/03/22 オフライン強化学習チュートリアル @
強化学習若手の会 63 方策の分布シフトに起因 (2乗オーダーが問題に！) モデル(状態)の分布シフトに起因状態遷移確率予測の最大誤差 [M. Janner+, 2019] When to Trust Your Model: Model-Based Policy Optimization. https://arxiv.org/abs/1906.08253

オフライン強化学習の評価 • データセット上ではうまくいくのに，実際の環境では失敗するケースの分析を行いたい． • どのようなbehavior policyを使用するのが良いか議論． • ドメイン毎に評価方法や学習困難性が異なる可能性も．データセット公開やベンチマーキングの動きも．
• D4RL • RL Unplugged • NeoRL • DOPE 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 64 [J. Fu+, 2020] D4RL: Datasets for Deep Data-Driven Reinforcement Learning. https://arxiv.org/abs/2004.07219 [C. Gulcehre+, 2020] RL Unplugged: Benchmarks for Offline Reinforcement Learning. https://arxiv.org/abs/2006.13888 [R. Qin+, 2021] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning. https://arxiv.org/abs/2102.00714 [J. Fu+, 2021] Benchmarks for Deep Off-Policy Evaluation. https://openreview.net/forum?id=kWSeGEeHvF8

知見の応用が期待される分野 • Causal Inference 状態遷移と報酬がどのように決まるか因果推論 • Uncertainty Estimation 不確実性の効率的な見積もり •
Density Estimation 方策や状態の確率分布の密度推定 • Generative Modeling 状態遷移確率のモデリング • Distributional Robustness 方策の分布としてものロバスト化 • Invariance 分散を小さくするための工夫 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 65

ちなみに，盛り上がってます！ • NeurIPS’20 Tutorial on OfflineRL • NeurIPS’20 OfflineRL Workshop
• Conference on RL4RealLife (2020) • トップ会議のsubmissionも沢山 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 66

もっと色々知りたい人へ 2021/03/22 67 オフライン強化学習チュートリアル @ 強化学習若手の会

強化学習 (1/3) • Reinforcement Learning: An Introduction • R. S.
Sutton and A. G. Barto 著． • 強化学習の王道的な教科書．pdfが公開されている． • Reinforcement Learning • Phil Winder 著． • O’Reillyによる，強化学習について基礎から実用的な話題まで網羅的にまとめられている教科書． • 強化学習 (機械学習プロフェッショナルシリーズ) • 森村哲郎著． • 強化学習について基礎から要点を，数式ベースで解説する教科書． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 68

強化学習 (2/3) • CS285 Deep Reinforcement Learning • UC Berkeleyの，強化学習について基礎から発展まで網羅的な講義．
• オフライン強化学習は第15回． • Reinforcement Learning Lecture Series 2018 • DeepMindが公開する，UCLで行われた，強化学習についての網羅的な講義． • Spinning Up in Deep RL • OpenAIが強化学習の概要や主要論文など幅広くまとめているDocs． • 主要アルゴリズムの実装の演習(と答え)なども用意されている． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 69

強化学習 (3/3) • Lil’Log #Reinforcement Learning • Lilian Weng氏が個人的に書きためているブログ． •
特に A (Long) Peek into Reinforcement Learning と Policy Gradient Algorithms はベーシックな強化学習を網羅的にまとめている． • その他の記事は，より発展的な内容をテーマごとに紹介している． • 強化学習の基礎と深層強化学習（東京大学松尾研究室深層強化学習サマースクール講義資料） • Shota Imai氏による強化学習の基礎から発展的な内容まで網羅的にまとめられたスライド． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 70

オフライン強化学習 (1/2) • Offline Reinforcement Learning: Tutorial, Review, and Perspectives
on Open Problems • Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. • オフライン強化学習について王道的なチュートリアル論文． • 本スライドもこの論文を参考に作成した． • Offline Reinforcement Learning: From Algorithms to Practical Challenges • Aviral Kumar and Sergey Levine両氏によるNeurIPS2020でのチュートリアル講演． • オフライン強化学習について網羅的なばかりでなく，Colabでの演習まで公開されている． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 71

オフライン強化学習 (2/2) • A Gentle Introduction to Offline Reinforcement Learning
• Sergey Levine氏による，“non-technical”な形で (本人tweetより) オフライン強化学習の概観や重要性を解説した講演動画． • d3rlpy: An offline deep reinforcement learning library • Takuma Seno氏による，主要なオフライン強化学習アルゴリズムを実装し公開しているライブラリ． • オフライン強化学習を実際に動かしてみたい人向き． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 72

参考文献 2021/03/22 73 オフライン強化学習チュートリアル @ 強化学習若手の会

参考文献 (1/6) Sergey Levine, Aviral Kumar, George Tucker, and Justin
Fu. “Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”. arXiv preprint, 2020. https://arxiv.org/abs/2005.01643 [A. Kumar+, 2019] Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. “Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction”. NeurIPS, 2019. https://arxiv.org/abs/1906.00949 [S. Ross+, 2011] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning”. AISTATS, 2011. https://arxiv.org/abs/1011.0686 [D. Precup+, 2000] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation”. ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_fac ulty_pubs [N. Jiang & L. Li, 2016] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning”. ICML, 2016. https://arxiv.org/abs/1511.03722 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 74

参考文献 (2/6) [R. Sutton+, 2016] Richard S. Sutton, A. Rupam
Mahmood, and Martha White. “An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning”. JMLR, 2016. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] Ruiyi Zhang, Bo Dai, Lihong Li, and Dale Schuurmans. “GenDICE: Generalized Offline Estimation of Stationary Values”. ICLR, 2020. https://arxiv.org/abs/2002.09072 [S. Levine & K. Vladlen, 2013] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. ICML, 2013. http://proceedings.mlr.press/v28/levine13.html [N. Jaques+, 2019] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard. “Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog”. arXiv preprint, 2019. https://arxiv.org/abs/1907.00456 [Y. Wu+, 2019] Yifan Wu, George Tucker, and Ofir Nachum. “Behavior Regularized Offline Reinforcement Learning”. arXiv preprint, 2019. https://arxiv.org/abs/1911.11361 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 75

参考文献 (3/6) [I. Osband+, 2016] Ian Osband, Charles Blundell, Alexander
Pritzel, and Benjamin Van Roy. “Deep Exploration via Bootstrapped DQN”. NeurIPS, 2016. https://arxiv.org/abs/1602.04621 [A. Kumar+, 2020] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning”. ICML, 2020. https://arxiv.org/abs/2006.04779 [M. Janner+, 2019] Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine. “When to Trust Your Model: Model-Based Policy Optimization”. NeurIPS, 2019. https://arxiv.org/abs/1906.08253 [J. Fu+, 2020] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. “D4RL: Datasets for Deep Data-Driven Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2004.07219 [R. Qin+, 2021] Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang, Zewen Li, Weinan Zhang, and Yang Yu. “NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning”. arXiv preprint, 2021. https://arxiv.org/abs/2102.00714 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 76

参考文献 (4/6) [C. Gulcehre+, 2020] Caglar Gulcehre, Ziyu Wang, Alexander
Novikov, Tom Le Paine, Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi, Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess, and Nando de Freitas. “RL Unplugged: Benchmarks for Offline Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2006.13888 [A. Kumar, 2019] A. Kumar. “Data-Driven Deep Reinforcement Learning”. BAIR blog, 2019. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kendall+, 2019] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur, Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah. “Learning to Drive in a Day”. ICRA, 2019. https://arxiv.org/abs/1807.00412 [H. Zhu+, 2017] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun Gai. “Optimized Cost per Click in Taobao Display Advertising”. KDD, 2017. https://arxiv.org/abs/1703.02091 [B. Zoph & Q. V. Le, 2016] Barret Zoph and Quoc V. Le. “Neural Architecture Search with Reinforcement Learning”. ICLR, 2016. https://arxiv.org/abs/1611.01578 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 77

参考文献 (5/6) [D. Sliver+, 2016] David Silver, Aja Huang, Chris
J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. “Mastering the game of Go with deep neural networks and tree search”. Nature, 2016. http://airesearch.com/wp- content/uploads/2016/01/deepmind-mastering-go.pdf [J. Gao, 2016] Jim Gao. “Machine Learning Applications for Data Center Optimization”. Google whitepaper, 2016. https://static.googleusercontent.com/media/research.google.com/ja//pubs/archiv e/42542.pdf [B. Baker+, 2016] Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. “Emergent Tool Use From Multi-Agent Autocurricula”. ICLR, 2020. https://arxiv.org/abs/1909.07528 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 78

参考文献 (6/6) [J. Fu+, 2021] Justin Fu, Mohammad Norouzi, Ofir
Nachum, George Tucker, ziyu wang, Alexander Novikov, Mengjiao Yang, Michael R Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Thomas Paine. “Benchmarks for Deep Off-Policy Evaluation”. https://openreview.net/forum?id=kWSeGEeHvF8 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 79

Offline Reinforcement Learning

Offline Reinforcement Learning

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript