Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Offline Reinforcement Learning

Offline Reinforcement Learning

強化学習若手の会 (https://young-reinforcement.github.io/) での発表資料です.

17c1e4a05739a33e166d1dd982d717ec?s=128

Haruka Kiyohara

March 22, 2021
Tweet

Transcript

  1. 2021/03/22 1 オフライン強化学習チュートリアル @ 強化学習若手の会 オフライン強化学習 Offline Reinforcement Learning: Tutorial,

    Review, and Perspectives on Open Problems 東京工業大学 経営工学系 清原 明加
  2. 自己紹介 研究興味 • Reinforcement Learning • Off-Policy Evaluation 最近の活動 •

    半熟仮想 Research Intern オフ方策評価 (OPE) • negocia Research Intern リアルタイム広告入札 (RTB) • awesome-offline-rl オフライン強化学習とオフ方策評価 について論文まとめてます 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 2 清原 明加 Haruka Kiyohara 東京工業大学 経営工学系 B3 @aiueola_ https://github.com/hanjuku-kaso/awesome-offline-rl https://sites.google.com/view/harukakiyohara
  3. オフライン強化学習 • 強化学習をオフラインデータ上で行う. • 医療・ロボティクスなど実環境との相互作用への リスクの大きい分野で期待. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会

    3 今回紹介する内容
  4. 全体の流れ • 強化学習とオフラインへの導入 • オフライン強化学習の技術課題 • 方策評価と学習上の工夫 • 今後とまとめ 紹介論文

    Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems, Sergey Levine, Aviral Kumar, George Tucker, Justin Fu, 2020 https://arxiv.org/abs/2005.01643 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 4
  5. 強化学習とオフラインへの導入 2021/03/22 5 オフライン強化学習チュートリアル @ 強化学習若手の会

  6. 強化学習とは? 教師あり学習/教師無し学習/強化学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 6 machine learning reinforcement

    supervised unsupervised Cartpole Atari breakout 碁(Go)
  7. 強化学習とは? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 7 状態s 報酬r 行動 a

    エージェント 環境 将来的に得られる報酬を最大化するよう,エージェント が行動方策を学習し,意思決定を最適化する.
  8. 強化学習で可能なこと 深層学習との組み合わせで,ブレイクスルーが起こった. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 8 囲碁で世界チャンピオンに勝利 [D. Sliver+,

    2016] https://www.bbc.com/news/technology-35785875 データセンターの冷却電力効率化 [J. Gao, 2016] https://deepmind.com/blog/article/deepmind-ai- reduces-google-data-centre-cooling-bill-40 ニューラルネットの構造最適化 [B. Zoph & Q. V. Le, 2016] 道具を使ってかくれんぼ [B. Baker+, 2016]
  9. 強化学習の定式化 • 目的関数(最大化) • 履歴(trajectory)確率分布 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 9

    時間割引累積報酬 行動方策 状態遷移確率 総積なのが後々重要に
  10. 強化学習のtaxonomy 今回はモデルフリーを主に扱う. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 10 強化学習 モデルベース モデルフリー

    方策ベース Actor-Critic オンライン オフポリシー 価値ベース
  11. 方策ベース 方策にパラメタを導入し,目的関数の勾配で更新. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 11 行動の相対的な良さ 状態を訪れた時の平均報酬 方策に従ったtrajectoryによる将来報酬

    ・ 現在の方策に従い rolloutでデータ収集
  12. 価値ベース 価値の概念を導入し,価値関数をパラメタ化して近似. (即時報酬にならなくても,将来報酬に繋がる状態/行動には価値がある) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 12 状態価値 行動価値

  13. TD学習 状態と行動の価値の式から,ベルマン方程式が得られる. argmax方策とすると,価値関数はベルマン最適方程式の 右辺左辺の誤差でTD(temporal difference)学習. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 13

    うまく選べているかが重要 buffer 過去の経験からサンプリングして学習
  14. Actor-Critic • 方策と価値関数の両方にパラメタを導入. • 価値関数(Critic)で評価した相対的な方策(Actor)の良さ を基に,目的関数の勾配で方策更新. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会

    14 Criticによる
  15. 強化学習の特徴 • 方策を基にオンラインでのデータ収集が必要. • 貪欲的な方策では局所最適になってしまうので, 適度に探索を行いながら学習.(主に価値ベース) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会

    15 オンライン オフポリシー 活用 1-ε 探索 ε 方策ベース 価値ベース epsilon greedy
  16. 実応用での課題 強化学習を応用したい場面 • 医療 • 自動運転 • ロボティクス • 広告配信

    • オンラインでの探索には危険や経済損失が伴う. • 目的関数を少し変えるたびに学習し直す必要. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 16 [A. Kendall+, 2019] [H. Zhu+, 2017] オンラインではなく,オフラインでやりたい!
  17. オフライン強化学習 強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 17

    オフライン強化学習では,実環境とのインテラクションが不要で, 一度別のポリシーで集めたデータセットのみで学習できる! あり ←オンラインでの環境との作用→ なし オンライン オフポリシー オフライン
  18. オフライン強化学習 強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 18

    オフライン強化学習では,実環境とのインテラクションが不要で, 一度別のポリシーで集めたデータセットのみで学習できる! あり ←オンラインでの環境との作用→ なし オンライン オフポリシー オフライン 以降では,以下の名称で定義: データ収集時の方策 𝝅 𝜷 を behavior policy, 新たに学習/評価したい方策 𝝅(𝝅 𝜽 ) を current policy / evaluation policy.
  19. 使えるデータ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 19 (過去の系列に依存した)状態遷移 次の状態と報酬は選んだ行動に依存 (=選ばれた行動以外の場合が分からない) 行動方策

    状態遷移確率 behavior policyに依存した(i.i.d.でない)偏ったデータ収集に
  20. ここまでのまとめ • 環境との相互作用を行いながら学習 → 従来のオンライン/オフポリシー強化学習 • オンラインでの学習や探索は,リスク/コストの懸念 → オフライン強化学習のモチベーション •

    エージェントの行動に依存した反実仮想な状況 • i.i.d.でない偏ったデータ収集 → オフライン強化学習の技術的課題と面白さ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 20
  21. オフライン強化学習の技術課題 2021/03/22 21 オフライン強化学習チュートリアル @ 強化学習若手の会

  22. オフラインでやりたいこと • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 → 分布シフトの影響により,簡単にはいかない 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 22
  23. オフライン特有の分布シフト 例えば, から始まる10個のログデータがあるとき. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 23 8 2

    5 3 データが多いので 間違えにくい データが少ないので 間違えやすい 2 0 behavior policy current policyが データと違うtrajectoryを選ぶとどうなる?
  24. 分布シフトの発生 1. 方策の分布シフト behavior policyと違う方策を選択 2. 状態の分布シフト behavior policyと状態遷移/生成確率が異なる 3.

    価値関数/期待報酬の予測エラー データが少ないと学習できない 反実仮想 + i.i.d.でない,データの特性に起因. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 24
  25. 評価時の分布シフト 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 25 評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか? オフラインのデータセットでは評価したい方策と確率分布が異なる behavior

    policyが集めたbiasedなデータしか手に入らないので, 単純にrolloutして期待報酬を求めるのはNG!
  26. 学習時の分布シフト • 方策ベース 評価時同様,単純な方法では勾配がbiasedに. • 価値ベース 価値関数の予測誤差の問題が深刻に. 2021/03/22 オフライン強化学習チュートリアル @

    強化学習若手の会 26 out-of-distributionなペアがあると, 過大評価してうまくいかない可能性 そもそもロスを計算するための データサンプルの生成確率も異なる [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kumar, 2019]
  27. 一般的なオフポリシーとの違い • 経験バッファは 𝜋 𝛽 によるデータ(更新されない). • 価値関数を楽観的に見積もった場合,オンラインの データ収集により修正できない. 2021/03/22

    オフライン強化学習チュートリアル @ 強化学習若手の会 27 蓄積 エージェントの行動経験 経験バッファ Q-network サンプリング して学習 推定価値 データ収集はオンライン 分布シフトにより, 楽観的に見積もる可能性 × × オフラインの致命的な欠点
  28. “unlearning” effect 強化学習の場合,強い時系列依存性下で分布シフトが 発生するため,データサイズを増やしても汎化しない. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 28 実際どれくらい

    うまくいっているか エージェントがどれくらい うまくいっていると思っているか (価値関数) データサイズ10万 [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 [A. Kumar+, 2019]
  29. 分布シフトの理論的な深刻さ behavior policyが最適という強い仮定を置いた時, 方策の汎化誤差 に対するリグレットの上界 • 完全オフラインの場合 • オンラインでのデータ収集を許した場合 2021/03/22

    オフライン強化学習チュートリアル @ 強化学習若手の会 29 時系列が長くなるほど2乗オーダーが問題に (一度間違えると以降のステップも間違え続けるため) current policyの選んだ行動が最適解(=behavior policy)と一致しなかった回数 [S. Ross+, 2011] A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. https://arxiv.org/abs/1011.0686
  30. ここまでのまとめ • オフライン強化学習では,分布シフトへの対処が鍵. • 方策の分布シフト (行動選択確率の違い) • 状態の分布シフト (状態生成確率の違い) •

    これは,データの特性に起因. • 方策に対し観測が反実仮想になっている • behavior policyによって集められ偏りがある → 分布シフトがある状況でどうすれば強化学習できる? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 30
  31. 方策評価と学習上の工夫 2021/03/22 31 オフライン強化学習チュートリアル @ 強化学習若手の会

  32. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 → 分布シフトがある中で,うまく行うには? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 32
  33. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 33 まずはオフライン評価について紹介します
  34. 評価したいのは”仮にオンラインで動かしたとしたら” ある方策のパフォーマンスはどの程度になりそうか? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 34 オフラインのデータセットでは確率分布が異なる behavior policyが集めたbiasedなデータで評価する必要

    → データの観測確率をunbiasedに補正したい! 期待報酬のオフライン評価 (再掲)
  35. オフライン評価の手法 あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 35 Importance Sampling Marginalized

    Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正 Many more statistically advanced estimators..
  36. オフライン評価の手法 あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 36 Importance Sampling Marginalized

    Importance Sampling State Marginal Weighted-Importance Sampling Step-Importance Sampling Doubly Robust Estimator State-Action Marginal Many more statistically advanced estimators.. Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正
  37. Importance Sampling (IS) trajectoryの観測確率が方策に依存するため, 報酬観測確率をunbiasedに補正! 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 37

    総積により指数関数的に重みが変化 → varianceが非常に大きいという問題が.. [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  38. Step Importance Sampling (step-IS) 強化学習の状態遷移はそれまでの方策に依存するため, 報酬の観測されるstepまでの確率をunbiasedに補正! → varianceを軽減する方法を考えたい..! 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 38 多少軽減されるが,まだvarianceが大きい [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  39. Weighted Importance Sampling (WIS) self-normalizeすると,varianceが多少小さくなる. (biasedだが,consistent) → unbiasedなままvarianceを小さくできる方法はあるか? 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 39 重み和で割る [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  40. variance軽減のための工夫 再帰的に見たときのstep-IS 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 40 [N. Jiang &

    L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインとの誤差を重みづけ 推定価値 ※t期より先の期待報酬を求める再帰式. t=0のとき,step-ISの式に一致. ベースラインの推定量を導入!
  41. Doubly Robust Estimator (DR) behavior policyが既知 or 推定報酬が正確ならunbiased! さらに,理論的にvarianceも軽減可能. →

    その他にも統計的に優れた推定量が沢山.(今日は割愛) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 41 再帰式を解いて得たもの [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722
  42. DRのvariance比較 再帰式でのstep-ISのvariance 再帰式でのDRのvariance 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 42 [N. Jiang

    & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインの推定価値がaccurateなら分散が小さくなる!
  43. オフライン評価の手法 (再掲) あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 43 Importance Sampling

    Marginalized Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正 Many more statistically advanced estimators..
  44. Marginalized Importance Sampling 方策重みを毎期掛け合わせると指数的にvarianceが増大 するので,周辺化による補正でvarianceを押さえる. • state marginal importance ratio

    • state-action marginal importance ratio 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 44 [R. Sutton+, 2016] An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] GenDICE: Generalized Offline Estimation of Stationary Values. https://arxiv.org/abs/2002.09072 ベルマン方程式の更新式を用いて求められる.
  45. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 45 今回は価値ベースについて紹介します
  46. オフラインでの方策ベース 勾配推定もunbiasedに補正したいが, varianceが問題になるので正則化項を加える. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 46 重みが大きくなりすぎるのを抑制するための正則化項 [S.

    Levine and K. Vladlen, ICML’13] Guided Policy Search. http://proceedings.mlr.press/v28/levine13.pdf
  47. オフラインでの価値ベース 価値関数の近似エラーが問題になるので, 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 47 [A. Kumar, 2019] [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/
  48. オフラインでの価値ベース 価値関数の近似エラーが問題になるので, 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 48
  49. Policy Constraints ダイバージェンスの制約を満たす範囲で方策を最適化. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 49 current policyとbehavior

    policyの乖離を防ぐ ダイバージェンス(分布間距離)制約 [N. Jaques+, 2019] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog. https://arxiv.org/abs/1907.00456 safe! risky..
  50. Policy Penalty 現在の方策だけでなく,将来の方策の乖離を招く行動も 抑制するため,報酬にペナルティ項を追加. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 50 方策乖離ペナルティ

    [Y. Wu+, 2019] Behavior Regularized Offline Reinforcement Learning. https://arxiv.org/abs/1911.11361 将来の分まで加味 safe! risky..
  51. Support • ダイバージェンスだとbehavior policyが uniform randomなどの場合,current policy のエントロピーが必要以上に増大. → current

    policyは最適でない, 過度に確率的な方策に. • 代替案として,behavior policyの確率が閾値以下の場合 のみを制約項に含めるよう,supportを用いる. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 51 behavior policyの経験が少なすぎる 場合だけ方策乖離と見なす [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 緑の確率分布(方策)は 悪くないはずでは? →が,分布間距離は大
  52. オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので, 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 52
  53. Uncertainty Estimation • 直接的な方策制約ではなく,価値関数の予測不確実性 を評価してそれを基に意思決定を行う. • 不確実性を考慮した上で行動価値の推定下界を最大化. 2021/03/22 オフライン強化学習チュートリアル @

    強化学習若手の会 53 不確実性項 bootstrap ensembleによる分散などで評価 [I. Osband+, 2016] Deep Exploration via Bootstrapped DQN. https://arxiv.org/abs/1602.04621
  54. オフラインでの価値ベース(再掲) 価値関数の近似エラーが問題になるので, 1. 分布シフトを抑制する方策を学習したい 2. 価値関数の不確実性を評価して利用したい 3. 価値関数がエラーを起こしにくい学習法を考えたい 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 54
  55. Conservative Q-Learning 価値関数が過度に悲観的にならないよう,過大評価を 抑制しつつもバランスをとる. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 55 ある方策上(最悪ケース)での過大評価を抑制

    観測点では楽観的に TD誤差は最小化 [A. Kumar+, 2020] Conservative Q-Learning for Offline Reinforcement Learning. https://arxiv.org/abs/2006.04779
  56. 今後とまとめ 2021/03/22 56 オフライン強化学習チュートリアル @ 強化学習若手の会

  57. 今後のオフライン強化学習 まだまだ課題が山積み! • オフラインでのハイパラチューニングをどうするか. • オンラインでのデプロイ時に初期挙動が不安定に. • behavior policyにかなり学習結果が依存. しかし,使えると嬉しい応用場面も沢山!

    • 医療の意思決定 • 自動運転やロボット制御 • 推薦システムや広告配信の最適化 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 57
  58. まとめ • 強化学習をonline interactionからdata drivenへ • 反実仮想な条件下での推論問題 ログデータからは,エージェントが違う行動を取った 場合,状態遷移と報酬がどうなっていたか分からない. •

    分布シフトへの対応 • Importance Sampling • Policy Penalty / Uncertainty Estimation / Conservative Q-Learning • 課題も多いが,これからの発展に期待! 今日はオフライン強化学習の導入部分を紹介しました.発展的な内容は, ぜひ awesome-offline-rl の論文/tutorial などチェックしてみてください! 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 58
  59. awesome-offline-rlの紹介 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 59

  60. ありがとうございました! 2021/03/22 60 オフライン強化学習チュートリアル @ 強化学習若手の会

  61. Appendix 2021/03/22 61 オフライン強化学習チュートリアル @ 強化学習若手の会

  62. 分布シフトの発生 方策の分布シフトは,状態の分布シフトにどの程度 影響を与えるのか? つまり,out-of-distributionなデータ領域に行かないため には厳しめに方策の分布シフトを抑制する必要がある. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 62

    2乗オーダーが問題に
  63. モデルベースの分布シフト • 状態遷移をモデル化するモデルベースでは,教師あり 学習ライクに学習でき,データ効率が良い. • 状態遷移確率の予測誤差に対して,方策価値過大評価 の上界は以下で与えられ,やはり課題がある. 2021/03/22 オフライン強化学習チュートリアル @

    強化学習若手の会 63 方策の分布シフトに起因 (2乗オーダーが問題に!) モデル(状態)の 分布シフトに起因 状態遷移確率予測の最大誤差 [M. Janner+, 2019] When to Trust Your Model: Model-Based Policy Optimization. https://arxiv.org/abs/1906.08253
  64. オフライン強化学習の評価 • データセット上ではうまくいくのに,実際の環境では 失敗するケースの分析を行いたい. • どのようなbehavior policyを使用するのが良いか議論. • ドメイン毎に評価方法や学習困難性が異なる可能性も. データセット公開やベンチマーキングの動きも.

    • D4RL • RL Unplugged • NeoRL • DOPE 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 64 [J. Fu+, 2020] D4RL: Datasets for Deep Data-Driven Reinforcement Learning. https://arxiv.org/abs/2004.07219 [C. Gulcehre+, 2020] RL Unplugged: Benchmarks for Offline Reinforcement Learning. https://arxiv.org/abs/2006.13888 [R. Qin+, 2021] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning. https://arxiv.org/abs/2102.00714 [J. Fu+, 2021] Benchmarks for Deep Off-Policy Evaluation. https://openreview.net/forum?id=kWSeGEeHvF8
  65. 知見の応用が期待される分野 • Causal Inference 状態遷移と報酬がどのように決まるか因果推論 • Uncertainty Estimation 不確実性の効率的な見積もり •

    Density Estimation 方策や状態の確率分布の密度推定 • Generative Modeling 状態遷移確率のモデリング • Distributional Robustness 方策の分布としてものロバスト化 • Invariance 分散を小さくするための工夫 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 65
  66. ちなみに,盛り上がってます! • NeurIPS’20 Tutorial on OfflineRL • NeurIPS’20 OfflineRL Workshop

    • Conference on RL4RealLife (2020) • トップ会議のsubmissionも沢山 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 66
  67. もっと色々知りたい人へ 2021/03/22 67 オフライン強化学習チュートリアル @ 強化学習若手の会

  68. 強化学習 (1/3) • Reinforcement Learning: An Introduction • R. S.

    Sutton and A. G. Barto 著. • 強化学習の王道的な教科書.pdfが公開されている. • Reinforcement Learning • Phil Winder 著. • O’Reillyによる,強化学習について基礎から実用的な話題まで網羅的 にまとめられている教科書. • 強化学習 (機械学習プロフェッショナルシリーズ) • 森村 哲郎 著. • 強化学習について基礎から要点を,数式ベースで解説する教科書. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 68
  69. 強化学習 (2/3) • CS285 Deep Reinforcement Learning • UC Berkeleyの,強化学習について基礎から発展まで網羅的な講義.

    • オフライン強化学習は第15回. • Reinforcement Learning Lecture Series 2018 • DeepMindが公開する,UCLで行われた,強化学習についての網羅的 な講義. • Spinning Up in Deep RL • OpenAIが強化学習の概要や主要論文など幅広くまとめているDocs. • 主要アルゴリズムの実装の演習(と答え)なども用意されている. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 69
  70. 強化学習 (3/3) • Lil’Log #Reinforcement Learning • Lilian Weng氏が個人的に書きためているブログ. •

    特に A (Long) Peek into Reinforcement Learning と Policy Gradient Algorithms はベーシックな強化学習を網羅的にまとめている. • その他の記事は,より発展的な内容をテーマごとに紹介している. • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料) • Shota Imai氏による強化学習の基礎から発展的な内容まで網羅的に まとめられたスライド. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 70
  71. オフライン強化学習 (1/2) • Offline Reinforcement Learning: Tutorial, Review, and Perspectives

    on Open Problems • Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. • オフライン強化学習について王道的なチュートリアル論文. • 本スライドもこの論文を参考に作成した. • Offline Reinforcement Learning: From Algorithms to Practical Challenges • Aviral Kumar and Sergey Levine両氏によるNeurIPS2020での チュートリアル講演. • オフライン強化学習について網羅的なばかりでなく,Colabでの演習 まで公開されている. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 71
  72. オフライン強化学習 (2/2) • A Gentle Introduction to Offline Reinforcement Learning

    • Sergey Levine氏による,“non-technical”な形で (本人tweetより) オフライン強化学習の概観や重要性を解説した講演動画. • d3rlpy: An offline deep reinforcement learning library • Takuma Seno氏による,主要なオフライン強化学習アルゴリズムを 実装し公開しているライブラリ. • オフライン強化学習を実際に動かしてみたい人向き. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 72
  73. 参考文献 2021/03/22 73 オフライン強化学習チュートリアル @ 強化学習若手の会

  74. 参考文献 (1/6) Sergey Levine, Aviral Kumar, George Tucker, and Justin

    Fu. “Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”. arXiv preprint, 2020. https://arxiv.org/abs/2005.01643 [A. Kumar+, 2019] Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. “Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction”. NeurIPS, 2019. https://arxiv.org/abs/1906.00949 [S. Ross+, 2011] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning”. AISTATS, 2011. https://arxiv.org/abs/1011.0686 [D. Precup+, 2000] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation”. ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_fac ulty_pubs [N. Jiang & L. Li, 2016] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning”. ICML, 2016. https://arxiv.org/abs/1511.03722 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 74
  75. 参考文献 (2/6) [R. Sutton+, 2016] Richard S. Sutton, A. Rupam

    Mahmood, and Martha White. “An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning”. JMLR, 2016. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] Ruiyi Zhang, Bo Dai, Lihong Li, and Dale Schuurmans. “GenDICE: Generalized Offline Estimation of Stationary Values”. ICLR, 2020. https://arxiv.org/abs/2002.09072 [S. Levine & K. Vladlen, 2013] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. ICML, 2013. http://proceedings.mlr.press/v28/levine13.html [N. Jaques+, 2019] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard. “Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog”. arXiv preprint, 2019. https://arxiv.org/abs/1907.00456 [Y. Wu+, 2019] Yifan Wu, George Tucker, and Ofir Nachum. “Behavior Regularized Offline Reinforcement Learning”. arXiv preprint, 2019. https://arxiv.org/abs/1911.11361 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 75
  76. 参考文献 (3/6) [I. Osband+, 2016] Ian Osband, Charles Blundell, Alexander

    Pritzel, and Benjamin Van Roy. “Deep Exploration via Bootstrapped DQN”. NeurIPS, 2016. https://arxiv.org/abs/1602.04621 [A. Kumar+, 2020] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning”. ICML, 2020. https://arxiv.org/abs/2006.04779 [M. Janner+, 2019] Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine. “When to Trust Your Model: Model-Based Policy Optimization”. NeurIPS, 2019. https://arxiv.org/abs/1906.08253 [J. Fu+, 2020] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. “D4RL: Datasets for Deep Data-Driven Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2004.07219 [R. Qin+, 2021] Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang, Zewen Li, Weinan Zhang, and Yang Yu. “NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning”. arXiv preprint, 2021. https://arxiv.org/abs/2102.00714 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 76
  77. 参考文献 (4/6) [C. Gulcehre+, 2020] Caglar Gulcehre, Ziyu Wang, Alexander

    Novikov, Tom Le Paine, Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi, Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess, and Nando de Freitas. “RL Unplugged: Benchmarks for Offline Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2006.13888 [A. Kumar, 2019] A. Kumar. “Data-Driven Deep Reinforcement Learning”. BAIR blog, 2019. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kendall+, 2019] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur, Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah. “Learning to Drive in a Day”. ICRA, 2019. https://arxiv.org/abs/1807.00412 [H. Zhu+, 2017] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun Gai. “Optimized Cost per Click in Taobao Display Advertising”. KDD, 2017. https://arxiv.org/abs/1703.02091 [B. Zoph & Q. V. Le, 2016] Barret Zoph and Quoc V. Le. “Neural Architecture Search with Reinforcement Learning”. ICLR, 2016. https://arxiv.org/abs/1611.01578 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 77
  78. 参考文献 (5/6) [D. Sliver+, 2016] David Silver, Aja Huang, Chris

    J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. “Mastering the game of Go with deep neural networks and tree search”. Nature, 2016. http://airesearch.com/wp- content/uploads/2016/01/deepmind-mastering-go.pdf [J. Gao, 2016] Jim Gao. “Machine Learning Applications for Data Center Optimization”. Google whitepaper, 2016. https://static.googleusercontent.com/media/research.google.com/ja//pubs/archiv e/42542.pdf [B. Baker+, 2016] Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. “Emergent Tool Use From Multi-Agent Autocurricula”. ICLR, 2020. https://arxiv.org/abs/1909.07528 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 78
  79. 参考文献 (6/6) [J. Fu+, 2021] Justin Fu, Mohammad Norouzi, Ofir

    Nachum, George Tucker, ziyu wang, Alexander Novikov, Mengjiao Yang, Michael R Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Thomas Paine. “Benchmarks for Deep Off-Policy Evaluation”. https://openreview.net/forum?id=kWSeGEeHvF8 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 79