Offline Reinforcement Learning

Slide 1

Slide 1 text

2021/03/22 1 オフライン強化学習チュートリアル @ 強化学習若手の会オフライン強化学習 Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 東京工業大学経営工学系清原明加

Slide 2

Slide 2 text

自己紹介研究興味 • Reinforcement Learning • Off-Policy Evaluation 最近の活動 • 半熟仮想 Research Intern オフ方策評価 (OPE) • negocia Research Intern リアルタイム広告入札 (RTB) • awesome-offline-rl オフライン強化学習とオフ方策評価について論文まとめてます 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 2 清原明加 Haruka Kiyohara 東京工業大学経営工学系 B3 @aiueola_ https://github.com/hanjuku-kaso/awesome-offline-rl https://sites.google.com/view/harukakiyohara

Slide 3

Slide 3 text

オフライン強化学習 • 強化学習をオフラインデータ上で行う． • 医療・ロボティクスなど実環境との相互作用へのリスクの大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 3 今回紹介する内容

Slide 4

Slide 4 text

全体の流れ • 強化学習とオフラインへの導入 • オフライン強化学習の技術課題 • 方策評価と学習上の工夫 • 今後とまとめ紹介論文 Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems, Sergey Levine, Aviral Kumar, George Tucker, Justin Fu, 2020 https://arxiv.org/abs/2005.01643 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 4

Slide 5

Slide 5 text

強化学習とオフラインへの導入 2021/03/22 5 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 6

Slide 6 text

強化学習とは？教師あり学習/教師無し学習/強化学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 6 machine learning reinforcement supervised unsupervised Cartpole Atari breakout 碁(Go)

Slide 7

Slide 7 text

強化学習とは？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 7 状態ｓ報酬ｒ行動 a エージェント環境将来的に得られる報酬を最大化するよう，エージェントが行動方策を学習し，意思決定を最適化する．

Slide 8

Slide 8 text

強化学習で可能なこと深層学習との組み合わせで，ブレイクスルーが起こった． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 8 囲碁で世界チャンピオンに勝利 [D. Sliver+, 2016] https://www.bbc.com/news/technology-35785875 データセンターの冷却電力効率化 [J. Gao, 2016] https://deepmind.com/blog/article/deepmind-ai- reduces-google-data-centre-cooling-bill-40 ニューラルネットの構造最適化 [B. Zoph & Q. V. Le, 2016] 道具を使ってかくれんぼ [B. Baker+, 2016]

Slide 9

Slide 9 text

強化学習の定式化 • 目的関数(最大化) • 履歴(trajectory)確率分布 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 9 時間割引累積報酬行動方策状態遷移確率総積なのが後々重要に

Slide 10

Slide 10 text

強化学習のtaxonomy 今回はモデルフリーを主に扱う． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 10 強化学習モデルベースモデルフリー方策ベース Actor-Critic オンラインオフポリシー価値ベース

Slide 11

Slide 11 text

方策ベース方策にパラメタを導入し，目的関数の勾配で更新． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 11 行動の相対的な良さ状態を訪れた時の平均報酬方策に従ったtrajectoryによる将来報酬・現在の方策に従い rolloutでデータ収集

Slide 12

Slide 12 text

価値ベース価値の概念を導入し，価値関数をパラメタ化して近似． (即時報酬にならなくても，将来報酬に繋がる状態/行動には価値がある) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 12 状態価値行動価値

Slide 13

Slide 13 text

TD学習状態と行動の価値の式から，ベルマン方程式が得られる． argmax方策とすると，価値関数はベルマン最適方程式の右辺左辺の誤差でTD(temporal difference)学習． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 13 うまく選べているかが重要 buffer 過去の経験からサンプリングして学習

Slide 14

Slide 14 text

Actor-Critic • 方策と価値関数の両方にパラメタを導入． • 価値関数(Critic)で評価した相対的な方策(Actor)の良さを基に，目的関数の勾配で方策更新． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 14 Criticによる

Slide 15

Slide 15 text

強化学習の特徴 • 方策を基にオンラインでのデータ収集が必要． • 貪欲的な方策では局所最適になってしまうので，適度に探索を行いながら学習．(主に価値ベース) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 15 オンラインオフポリシー活用 1-ε 探索 ε 方策ベース価値ベース epsilon greedy

Slide 16

Slide 16 text

実応用での課題強化学習を応用したい場面 • 医療 • 自動運転 • ロボティクス • 広告配信 • オンラインでの探索には危険や経済損失が伴う． • 目的関数を少し変えるたびに学習し直す必要． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 16 [A. Kendall+, 2019] [H. Zhu+, 2017] オンラインではなく，オフラインでやりたい！

Slide 17

Slide 17 text

オフライン強化学習強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 17 オフライン強化学習では，実環境とのインテラクションが不要で，一度別のポリシーで集めたデータセットのみで学習できる！あり ←オンラインでの環境との作用→ なしオンラインオフポリシーオフライン

Slide 18

Slide 18 text

オフライン強化学習強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 18 オフライン強化学習では，実環境とのインテラクションが不要で，一度別のポリシーで集めたデータセットのみで学習できる！あり ←オンラインでの環境との作用→ なしオンラインオフポリシーオフライン以降では，以下の名称で定義：データ収集時の方策 𝝅 𝜷 を behavior policy, 新たに学習/評価したい方策 𝝅(𝝅 𝜽 ) を current policy / evaluation policy.

Slide 19

Slide 19 text

使えるデータ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 19 (過去の系列に依存した)状態遷移次の状態と報酬は選んだ行動に依存 (=選ばれた行動以外の場合が分からない) 行動方策状態遷移確率 behavior policyに依存した(i.i.d.でない)偏ったデータ収集に

Slide 20

Slide 20 text

ここまでのまとめ • 環境との相互作用を行いながら学習 → 従来のオンライン/オフポリシー強化学習 • オンラインでの学習や探索は，リスク/コストの懸念 → オフライン強化学習のモチベーション • エージェントの行動に依存した反実仮想な状況 • i.i.d.でない偏ったデータ収集 → オフライン強化学習の技術的課題と面白さ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 20

Slide 21

Slide 21 text

オフライン強化学習の技術課題 2021/03/22 21 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 22

Slide 22 text

オフラインでやりたいこと • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 → 分布シフトの影響により，簡単にはいかない 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 22

Slide 23

Slide 23 text

オフライン特有の分布シフト例えば，から始まる10個のログデータがあるとき． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 23 8 2 5 3 データが多いので間違えにくいデータが少ないので間違えやすい 2 0 behavior policy current policyがデータと違うtrajectoryを選ぶとどうなる？

Slide 24

Slide 24 text

分布シフトの発生 1. 方策の分布シフト behavior policyと違う方策を選択 2. 状態の分布シフト behavior policyと状態遷移/生成確率が異なる 3. 価値関数/期待報酬の予測エラーデータが少ないと学習できない反実仮想 + i.i.d.でない，データの特性に起因． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 24

Slide 25

Slide 25 text

評価時の分布シフト 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 25 評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか？オフラインのデータセットでは評価したい方策と確率分布が異なる behavior policyが集めたbiasedなデータしか手に入らないので，単純にrolloutして期待報酬を求めるのはNG!

Slide 26

Slide 26 text

学習時の分布シフト • 方策ベース評価時同様，単純な方法では勾配がbiasedに． • 価値ベース価値関数の予測誤差の問題が深刻に． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 26 out-of-distributionなペアがあると，過大評価してうまくいかない可能性そもそもロスを計算するためのデータサンプルの生成確率も異なる [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kumar, 2019]

Slide 27

Slide 27 text

一般的なオフポリシーとの違い • 経験バッファは 𝜋 𝛽 によるデータ(更新されない)． • 価値関数を楽観的に見積もった場合，オンラインのデータ収集により修正できない． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 27 蓄積エージェントの行動経験経験バッファ Q-network サンプリングして学習推定価値データ収集はオンライン分布シフトにより，楽観的に見積もる可能性 × × オフラインの致命的な欠点

Slide 28

Slide 28 text

“unlearning” effect 強化学習の場合，強い時系列依存性下で分布シフトが発生するため，データサイズを増やしても汎化しない． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 28 実際どれくらいうまくいっているかエージェントがどれくらいうまくいっていると思っているか (価値関数) データサイズ10万 [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 [A. Kumar+, 2019]

Slide 29

Slide 29 text

分布シフトの理論的な深刻さ behavior policyが最適という強い仮定を置いた時，方策の汎化誤差に対するリグレットの上界 • 完全オフラインの場合 • オンラインでのデータ収集を許した場合 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 29 時系列が長くなるほど2乗オーダーが問題に (一度間違えると以降のステップも間違え続けるため) current policyの選んだ行動が最適解(=behavior policy)と一致しなかった回数 [S. Ross+, 2011] A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. https://arxiv.org/abs/1011.0686

Slide 30

Slide 30 text

ここまでのまとめ • オフライン強化学習では，分布シフトへの対処が鍵． • 方策の分布シフト (行動選択確率の違い) • 状態の分布シフト (状態生成確率の違い) • これは，データの特性に起因． • 方策に対し観測が反実仮想になっている • behavior policyによって集められ偏りがある → 分布シフトがある状況でどうすれば強化学習できる？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 30

Slide 31

Slide 31 text

方策評価と学習上の工夫 2021/03/22 31 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 32

Slide 32 text

オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 → 分布シフトがある中で，うまく行うには？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 32

Slide 33

Slide 33 text

オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 33 まずはオフライン評価について紹介します

Slide 34

Slide 34 text

評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 34 オフラインのデータセットでは確率分布が異なる behavior policyが集めたbiasedなデータで評価する必要 → データの観測確率をunbiasedに補正したい！期待報酬のオフライン評価 (再掲)

Slide 35

Slide 35 text

オフライン評価の手法あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 35 Importance Sampling Marginalized Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正 Many more statistically advanced estimators..

Slide 36

Slide 36 text

オフライン評価の手法あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 36 Importance Sampling Marginalized Importance Sampling State Marginal Weighted-Importance Sampling Step-Importance Sampling Doubly Robust Estimator State-Action Marginal Many more statistically advanced estimators.. Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正

Slide 37

Slide 37 text

Importance Sampling (IS) trajectoryの観測確率が方策に依存するため，報酬観測確率をunbiasedに補正！ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 37 総積により指数関数的に重みが変化 → varianceが非常に大きいという問題が.. [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

Slide 38

Slide 38 text

Step Importance Sampling (step-IS) 強化学習の状態遷移はそれまでの方策に依存するため，報酬の観測されるstepまでの確率をunbiasedに補正！ → varianceを軽減する方法を考えたい..！ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 38 多少軽減されるが，まだvarianceが大きい [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

Slide 39

Slide 39 text

Weighted Importance Sampling (WIS) self-normalizeすると，varianceが多少小さくなる． (biasedだが，consistent) → unbiasedなままvarianceを小さくできる方法はあるか？ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 39 重み和で割る [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

Slide 40

Slide 40 text

variance軽減のための工夫再帰的に見たときのstep-IS 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 40 [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインとの誤差を重みづけ推定価値 ※t期より先の期待報酬を求める再帰式． t=0のとき，step-ISの式に一致．ベースラインの推定量を導入！

Slide 41

Slide 41 text

Doubly Robust Estimator (DR) behavior policyが既知 or 推定報酬が正確ならunbiased！さらに，理論的にvarianceも軽減可能． → その他にも統計的に優れた推定量が沢山．(今日は割愛) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 41 再帰式を解いて得たもの [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722

Slide 42

Slide 42 text

DRのvariance比較再帰式でのstep-ISのvariance 再帰式でのDRのvariance 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 42 [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインの推定価値がaccurateなら分散が小さくなる！

Slide 43

Slide 43 text

オフライン評価の手法 (再掲) あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 43 Importance Sampling Marginalized Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正データ生成確率による補正 Many more statistically advanced estimators..

Slide 44

Slide 44 text

Marginalized Importance Sampling 方策重みを毎期掛け合わせると指数的にvarianceが増大するので，周辺化による補正でvarianceを押さえる． • state marginal importance ratio • state-action marginal importance ratio 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 44 [R. Sutton+, 2016] An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] GenDICE: Generalized Offline Estimation of Stationary Values. https://arxiv.org/abs/2002.09072 ベルマン方程式の更新式を用いて求められる．

Slide 45

Slide 45 text

オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択複数の与えられた方策に対し”仮にオンラインで動かした”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior policyによって集められたデータのみを使って，オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 45 今回は価値ベースについて紹介します

Slide 46

Slide 46 text

オフラインでの方策ベース勾配推定もunbiasedに補正したいが， varianceが問題になるので正則化項を加える． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 46 重みが大きくなりすぎるのを抑制するための正則化項 [S. Levine and K. Vladlen, ICML’13] Guided Policy Search. http://proceedings.mlr.press/v28/levine13.pdf

Slide 47

Slide 47 text

オフラインでの価値ベース価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 47 [A. Kumar, 2019] [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/

Slide 48

Slide 48 text

オフラインでの価値ベース価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 48

Slide 49

Slide 49 text

Policy Constraints ダイバージェンスの制約を満たす範囲で方策を最適化． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 49 current policyとbehavior policyの乖離を防ぐダイバージェンス(分布間距離)制約 [N. Jaques+, 2019] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog. https://arxiv.org/abs/1907.00456 safe! risky..

Slide 50

Slide 50 text

Policy Penalty 現在の方策だけでなく，将来の方策の乖離を招く行動も抑制するため，報酬にペナルティ項を追加． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 50 方策乖離ペナルティ [Y. Wu+, 2019] Behavior Regularized Offline Reinforcement Learning. https://arxiv.org/abs/1911.11361 将来の分まで加味 safe! risky..

Slide 51

Slide 51 text

Support • ダイバージェンスだとbehavior policyが uniform randomなどの場合，current policy のエントロピーが必要以上に増大． → current policyは最適でない，過度に確率的な方策に． • 代替案として，behavior policyの確率が閾値以下の場合のみを制約項に含めるよう，supportを用いる． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 51 behavior policyの経験が少なすぎる場合だけ方策乖離と見なす [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 緑の確率分布(方策)は悪くないはずでは？ →が，分布間距離は大

Slide 52

Slide 52 text

オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 52

Slide 53

Slide 53 text

Uncertainty Estimation • 直接的な方策制約ではなく，価値関数の予測不確実性を評価してそれを基に意思決定を行う． • 不確実性を考慮した上で行動価値の推定下界を最大化． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 53 不確実性項 bootstrap ensembleによる分散などで評価 [I. Osband+, 2016] Deep Exploration via Bootstrapped DQN. https://arxiv.org/abs/1602.04621

Slide 54

Slide 54 text

オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので， 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 54

Slide 55

Slide 55 text

Conservative Q-Learning 価値関数が過度に悲観的にならないよう，過大評価を抑制しつつもバランスをとる． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 55 ある方策上(最悪ケース)での過大評価を抑制観測点では楽観的に TD誤差は最小化 [A. Kumar+, 2020] Conservative Q-Learning for Offline Reinforcement Learning. https://arxiv.org/abs/2006.04779

Slide 56

Slide 56 text

今後とまとめ 2021/03/22 56 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 57

Slide 57 text

今後のオフライン強化学習まだまだ課題が山積み！ • オフラインでのハイパラチューニングをどうするか． • オンラインでのデプロイ時に初期挙動が不安定に． • behavior policyにかなり学習結果が依存．しかし，使えると嬉しい応用場面も沢山！ • 医療の意思決定 • 自動運転やロボット制御 • 推薦システムや広告配信の最適化 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 57

Slide 58

Slide 58 text

まとめ • 強化学習をonline interactionからdata drivenへ • 反実仮想な条件下での推論問題ログデータからは，エージェントが違う行動を取った場合，状態遷移と報酬がどうなっていたか分からない． • 分布シフトへの対応 • Importance Sampling • Policy Penalty / Uncertainty Estimation / Conservative Q-Learning • 課題も多いが，これからの発展に期待！今日はオフライン強化学習の導入部分を紹介しました．発展的な内容は，ぜひ awesome-offline-rl の論文/tutorial などチェックしてみてください！ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 58

Slide 59

Slide 59 text

awesome-offline-rlの紹介 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 59

Slide 60

Slide 60 text

ありがとうございました！ 2021/03/22 60 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 61

Slide 61 text

Appendix 2021/03/22 61 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 62

Slide 62 text

分布シフトの発生方策の分布シフトは，状態の分布シフトにどの程度影響を与えるのか？つまり，out-of-distributionなデータ領域に行かないためには厳しめに方策の分布シフトを抑制する必要がある． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 62 2乗オーダーが問題に

Slide 63

Slide 63 text

モデルベースの分布シフト • 状態遷移をモデル化するモデルベースでは，教師あり学習ライクに学習でき，データ効率が良い． • 状態遷移確率の予測誤差に対して，方策価値過大評価の上界は以下で与えられ，やはり課題がある． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 63 方策の分布シフトに起因 (2乗オーダーが問題に！) モデル(状態)の分布シフトに起因状態遷移確率予測の最大誤差 [M. Janner+, 2019] When to Trust Your Model: Model-Based Policy Optimization. https://arxiv.org/abs/1906.08253

Slide 64

Slide 64 text

オフライン強化学習の評価 • データセット上ではうまくいくのに，実際の環境では失敗するケースの分析を行いたい． • どのようなbehavior policyを使用するのが良いか議論． • ドメイン毎に評価方法や学習困難性が異なる可能性も．データセット公開やベンチマーキングの動きも． • D4RL • RL Unplugged • NeoRL • DOPE 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 64 [J. Fu+, 2020] D4RL: Datasets for Deep Data-Driven Reinforcement Learning. https://arxiv.org/abs/2004.07219 [C. Gulcehre+, 2020] RL Unplugged: Benchmarks for Offline Reinforcement Learning. https://arxiv.org/abs/2006.13888 [R. Qin+, 2021] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning. https://arxiv.org/abs/2102.00714 [J. Fu+, 2021] Benchmarks for Deep Off-Policy Evaluation. https://openreview.net/forum?id=kWSeGEeHvF8

Slide 65

Slide 65 text

知見の応用が期待される分野 • Causal Inference 状態遷移と報酬がどのように決まるか因果推論 • Uncertainty Estimation 不確実性の効率的な見積もり • Density Estimation 方策や状態の確率分布の密度推定 • Generative Modeling 状態遷移確率のモデリング • Distributional Robustness 方策の分布としてものロバスト化 • Invariance 分散を小さくするための工夫 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 65

Slide 66

Slide 66 text

ちなみに，盛り上がってます！ • NeurIPS’20 Tutorial on OfflineRL • NeurIPS’20 OfflineRL Workshop • Conference on RL4RealLife (2020) • トップ会議のsubmissionも沢山 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 66

Slide 67

Slide 67 text

もっと色々知りたい人へ 2021/03/22 67 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 68

Slide 68 text

強化学習 (1/3) • Reinforcement Learning: An Introduction • R. S. Sutton and A. G. Barto 著． • 強化学習の王道的な教科書．pdfが公開されている． • Reinforcement Learning • Phil Winder 著． • O’Reillyによる，強化学習について基礎から実用的な話題まで網羅的にまとめられている教科書． • 強化学習 (機械学習プロフェッショナルシリーズ) • 森村哲郎著． • 強化学習について基礎から要点を，数式ベースで解説する教科書． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 68

Slide 69

Slide 69 text

強化学習 (2/3) • CS285 Deep Reinforcement Learning • UC Berkeleyの，強化学習について基礎から発展まで網羅的な講義． • オフライン強化学習は第15回． • Reinforcement Learning Lecture Series 2018 • DeepMindが公開する，UCLで行われた，強化学習についての網羅的な講義． • Spinning Up in Deep RL • OpenAIが強化学習の概要や主要論文など幅広くまとめているDocs． • 主要アルゴリズムの実装の演習(と答え)なども用意されている． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 69

Slide 70

Slide 70 text

強化学習 (3/3) • Lil’Log #Reinforcement Learning • Lilian Weng氏が個人的に書きためているブログ． • 特に A (Long) Peek into Reinforcement Learning と Policy Gradient Algorithms はベーシックな強化学習を網羅的にまとめている． • その他の記事は，より発展的な内容をテーマごとに紹介している． • 強化学習の基礎と深層強化学習（東京大学松尾研究室深層強化学習サマースクール講義資料） • Shota Imai氏による強化学習の基礎から発展的な内容まで網羅的にまとめられたスライド． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 70

Slide 71

Slide 71 text

オフライン強化学習 (1/2) • Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems • Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. • オフライン強化学習について王道的なチュートリアル論文． • 本スライドもこの論文を参考に作成した． • Offline Reinforcement Learning: From Algorithms to Practical Challenges • Aviral Kumar and Sergey Levine両氏によるNeurIPS2020でのチュートリアル講演． • オフライン強化学習について網羅的なばかりでなく，Colabでの演習まで公開されている． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 71

Slide 72

Slide 72 text

オフライン強化学習 (2/2) • A Gentle Introduction to Offline Reinforcement Learning • Sergey Levine氏による，“non-technical”な形で (本人tweetより) オフライン強化学習の概観や重要性を解説した講演動画． • d3rlpy: An offline deep reinforcement learning library • Takuma Seno氏による，主要なオフライン強化学習アルゴリズムを実装し公開しているライブラリ． • オフライン強化学習を実際に動かしてみたい人向き． 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 72

Slide 73

Slide 73 text

参考文献 2021/03/22 73 オフライン強化学習チュートリアル @ 強化学習若手の会

Slide 74

Slide 74 text

参考文献 (1/6) Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. “Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”. arXiv preprint, 2020. https://arxiv.org/abs/2005.01643 [A. Kumar+, 2019] Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. “Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction”. NeurIPS, 2019. https://arxiv.org/abs/1906.00949 [S. Ross+, 2011] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning”. AISTATS, 2011. https://arxiv.org/abs/1011.0686 [D. Precup+, 2000] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation”. ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_fac ulty_pubs [N. Jiang & L. Li, 2016] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning”. ICML, 2016. https://arxiv.org/abs/1511.03722 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 74

Slide 75

Slide 75 text

参考文献 (2/6) [R. Sutton+, 2016] Richard S. Sutton, A. Rupam Mahmood, and Martha White. “An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning”. JMLR, 2016. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] Ruiyi Zhang, Bo Dai, Lihong Li, and Dale Schuurmans. “GenDICE: Generalized Offline Estimation of Stationary Values”. ICLR, 2020. https://arxiv.org/abs/2002.09072 [S. Levine & K. Vladlen, 2013] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. ICML, 2013. http://proceedings.mlr.press/v28/levine13.html [N. Jaques+, 2019] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard. “Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog”. arXiv preprint, 2019. https://arxiv.org/abs/1907.00456 [Y. Wu+, 2019] Yifan Wu, George Tucker, and Ofir Nachum. “Behavior Regularized Offline Reinforcement Learning”. arXiv preprint, 2019. https://arxiv.org/abs/1911.11361 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 75

Slide 76

Slide 76 text

参考文献 (3/6) [I. Osband+, 2016] Ian Osband, Charles Blundell, Alexander Pritzel, and Benjamin Van Roy. “Deep Exploration via Bootstrapped DQN”. NeurIPS, 2016. https://arxiv.org/abs/1602.04621 [A. Kumar+, 2020] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning”. ICML, 2020. https://arxiv.org/abs/2006.04779 [M. Janner+, 2019] Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine. “When to Trust Your Model: Model-Based Policy Optimization”. NeurIPS, 2019. https://arxiv.org/abs/1906.08253 [J. Fu+, 2020] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. “D4RL: Datasets for Deep Data-Driven Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2004.07219 [R. Qin+, 2021] Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang, Zewen Li, Weinan Zhang, and Yang Yu. “NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning”. arXiv preprint, 2021. https://arxiv.org/abs/2102.00714 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 76

Slide 77

Slide 77 text

参考文献 (4/6) [C. Gulcehre+, 2020] Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Tom Le Paine, Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi, Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess, and Nando de Freitas. “RL Unplugged: Benchmarks for Offline Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2006.13888 [A. Kumar, 2019] A. Kumar. “Data-Driven Deep Reinforcement Learning”. BAIR blog, 2019. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kendall+, 2019] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur, Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah. “Learning to Drive in a Day”. ICRA, 2019. https://arxiv.org/abs/1807.00412 [H. Zhu+, 2017] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun Gai. “Optimized Cost per Click in Taobao Display Advertising”. KDD, 2017. https://arxiv.org/abs/1703.02091 [B. Zoph & Q. V. Le, 2016] Barret Zoph and Quoc V. Le. “Neural Architecture Search with Reinforcement Learning”. ICLR, 2016. https://arxiv.org/abs/1611.01578 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 77

Slide 78

Slide 78 text

参考文献 (5/6) [D. Sliver+, 2016] David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. “Mastering the game of Go with deep neural networks and tree search”. Nature, 2016. http://airesearch.com/wp- content/uploads/2016/01/deepmind-mastering-go.pdf [J. Gao, 2016] Jim Gao. “Machine Learning Applications for Data Center Optimization”. Google whitepaper, 2016. https://static.googleusercontent.com/media/research.google.com/ja//pubs/archiv e/42542.pdf [B. Baker+, 2016] Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. “Emergent Tool Use From Multi-Agent Autocurricula”. ICLR, 2020. https://arxiv.org/abs/1909.07528 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 78

Slide 79

Slide 79 text

参考文献 (6/6) [J. Fu+, 2021] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, ziyu wang, Alexander Novikov, Mengjiao Yang, Michael R Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Thomas Paine. “Benchmarks for Deep Off-Policy Evaluation”. https://openreview.net/forum?id=kWSeGEeHvF8 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 79