Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Offline Reinforcement Learning

Offline Reinforcement Learning

チュートリアル @ 強化学習若手の会
https://young-reinforcement.github.io/

解説記事(Qiita)
https://qiita.com/aiueola/items/90f635200d808f904daf

Haruka Kiyohara

March 22, 2021
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. 自己紹介 研究興味 • Reinforcement Learning • Off-Policy Evaluation 最近の活動 •

    半熟仮想 Research Intern オフ方策評価 (OPE) • negocia Research Intern リアルタイム広告入札 (RTB) • awesome-offline-rl オフライン強化学習とオフ方策評価 について論文まとめてます 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 2 清原 明加 Haruka Kiyohara 東京工業大学 経営工学系 B3 @aiueola_ https://github.com/hanjuku-kaso/awesome-offline-rl https://sites.google.com/view/harukakiyohara
  2. 全体の流れ • 強化学習とオフラインへの導入 • オフライン強化学習の技術課題 • 方策評価と学習上の工夫 • 今後とまとめ 紹介論文

    Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems, Sergey Levine, Aviral Kumar, George Tucker, Justin Fu, 2020 https://arxiv.org/abs/2005.01643 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 4
  3. 強化学習とは? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 7 状態s 報酬r 行動 a

    エージェント 環境 将来的に得られる報酬を最大化するよう,エージェント が行動方策を学習し,意思決定を最適化する.
  4. 強化学習で可能なこと 深層学習との組み合わせで,ブレイクスルーが起こった. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 8 囲碁で世界チャンピオンに勝利 [D. Sliver+,

    2016] https://www.bbc.com/news/technology-35785875 データセンターの冷却電力効率化 [J. Gao, 2016] https://deepmind.com/blog/article/deepmind-ai- reduces-google-data-centre-cooling-bill-40 ニューラルネットの構造最適化 [B. Zoph & Q. V. Le, 2016] 道具を使ってかくれんぼ [B. Baker+, 2016]
  5. 実応用での課題 強化学習を応用したい場面 • 医療 • 自動運転 • ロボティクス • 広告配信

    • オンラインでの探索には危険や経済損失が伴う. • 目的関数を少し変えるたびに学習し直す必要. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 16 [A. Kendall+, 2019] [H. Zhu+, 2017] オンラインではなく,オフラインでやりたい!
  6. オフライン強化学習 強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 17

    オフライン強化学習では,実環境とのインテラクションが不要で, 一度別のポリシーで集めたデータセットのみで学習できる! あり ←オンラインでの環境との作用→ なし オンライン オフポリシー オフライン
  7. オフライン強化学習 強化学習デプロイ時にリスク(e.g., 安全面の懸念)/ コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 18

    オフライン強化学習では,実環境とのインテラクションが不要で, 一度別のポリシーで集めたデータセットのみで学習できる! あり ←オンラインでの環境との作用→ なし オンライン オフポリシー オフライン 以降では,以下の名称で定義: データ収集時の方策 𝝅 𝜷 を behavior policy, 新たに学習/評価したい方策 𝝅(𝝅 𝜽 ) を current policy / evaluation policy.
  8. ここまでのまとめ • 環境との相互作用を行いながら学習 → 従来のオンライン/オフポリシー強化学習 • オンラインでの学習や探索は,リスク/コストの懸念 → オフライン強化学習のモチベーション •

    エージェントの行動に依存した反実仮想な状況 • i.i.d.でない偏ったデータ収集 → オフライン強化学習の技術的課題と面白さ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 20
  9. オフラインでやりたいこと • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 → 分布シフトの影響により,簡単にはいかない 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 22
  10. オフライン特有の分布シフト 例えば, から始まる10個のログデータがあるとき. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 23 8 2

    5 3 データが多いので 間違えにくい データが少ないので 間違えやすい 2 0 behavior policy current policyが データと違うtrajectoryを選ぶとどうなる?
  11. 分布シフトの発生 1. 方策の分布シフト behavior policyと違う方策を選択 2. 状態の分布シフト behavior policyと状態遷移/生成確率が異なる 3.

    価値関数/期待報酬の予測エラー データが少ないと学習できない 反実仮想 + i.i.d.でない,データの特性に起因. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 24
  12. 学習時の分布シフト • 方策ベース 評価時同様,単純な方法では勾配がbiasedに. • 価値ベース 価値関数の予測誤差の問題が深刻に. 2021/03/22 オフライン強化学習チュートリアル @

    強化学習若手の会 26 out-of-distributionなペアがあると, 過大評価してうまくいかない可能性 そもそもロスを計算するための データサンプルの生成確率も異なる [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kumar, 2019]
  13. 一般的なオフポリシーとの違い • 経験バッファは 𝜋 𝛽 によるデータ(更新されない). • 価値関数を楽観的に見積もった場合,オンラインの データ収集により修正できない. 2021/03/22

    オフライン強化学習チュートリアル @ 強化学習若手の会 27 蓄積 エージェントの行動経験 経験バッファ Q-network サンプリング して学習 推定価値 データ収集はオンライン 分布シフトにより, 楽観的に見積もる可能性 × × オフラインの致命的な欠点
  14. “unlearning” effect 強化学習の場合,強い時系列依存性下で分布シフトが 発生するため,データサイズを増やしても汎化しない. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 28 実際どれくらい

    うまくいっているか エージェントがどれくらい うまくいっていると思っているか (価値関数) データサイズ10万 [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 [A. Kumar+, 2019]
  15. 分布シフトの理論的な深刻さ behavior policyが最適という強い仮定を置いた時, 方策の汎化誤差 に対するリグレットの上界 • 完全オフラインの場合 • オンラインでのデータ収集を許した場合 2021/03/22

    オフライン強化学習チュートリアル @ 強化学習若手の会 29 時系列が長くなるほど2乗オーダーが問題に (一度間違えると以降のステップも間違え続けるため) current policyの選んだ行動が最適解(=behavior policy)と一致しなかった回数 [S. Ross+, 2011] A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning. https://arxiv.org/abs/1011.0686
  16. ここまでのまとめ • オフライン強化学習では,分布シフトへの対処が鍵. • 方策の分布シフト (行動選択確率の違い) • 状態の分布シフト (状態生成確率の違い) •

    これは,データの特性に起因. • 方策に対し観測が反実仮想になっている • behavior policyによって集められ偏りがある → 分布シフトがある状況でどうすれば強化学習できる? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 30
  17. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 → 分布シフトがある中で,うまく行うには? 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 32
  18. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 33 まずはオフライン評価について紹介します
  19. オフライン評価の手法 あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 35 Importance Sampling Marginalized

    Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正 Many more statistically advanced estimators..
  20. オフライン評価の手法 あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 36 Importance Sampling Marginalized

    Importance Sampling State Marginal Weighted-Importance Sampling Step-Importance Sampling Doubly Robust Estimator State-Action Marginal Many more statistically advanced estimators.. Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正
  21. Importance Sampling (IS) trajectoryの観測確率が方策に依存するため, 報酬観測確率をunbiasedに補正! 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 37

    総積により指数関数的に重みが変化 → varianceが非常に大きいという問題が.. [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  22. Step Importance Sampling (step-IS) 強化学習の状態遷移はそれまでの方策に依存するため, 報酬の観測されるstepまでの確率をunbiasedに補正! → varianceを軽減する方法を考えたい..! 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 38 多少軽減されるが,まだvarianceが大きい [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  23. Weighted Importance Sampling (WIS) self-normalizeすると,varianceが多少小さくなる. (biasedだが,consistent) → unbiasedなままvarianceを小さくできる方法はあるか? 2021/03/22 オフライン強化学習チュートリアル

    @ 強化学習若手の会 39 重み和で割る [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs
  24. variance軽減のための工夫 再帰的に見たときのstep-IS 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 40 [N. Jiang &

    L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインとの誤差を重みづけ 推定価値 ※t期より先の期待報酬を求める再帰式. t=0のとき,step-ISの式に一致. ベースラインの推定量を導入!
  25. Doubly Robust Estimator (DR) behavior policyが既知 or 推定報酬が正確ならunbiased! さらに,理論的にvarianceも軽減可能. →

    その他にも統計的に優れた推定量が沢山.(今日は割愛) 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 41 再帰式を解いて得たもの [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722
  26. DRのvariance比較 再帰式でのstep-ISのvariance 再帰式でのDRのvariance 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 42 [N. Jiang

    & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. https://arxiv.org/abs/1511.03722 ベースラインの推定価値がaccurateなら分散が小さくなる!
  27. オフライン評価の手法 (再掲) あ 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 43 Importance Sampling

    Marginalized Importance Sampling State Marginal Step-Importance Sampling Weighted-Importance Sampling Doubly Robust Estimator State-Action Marginal Many methods to acquire marginal distribution.. 𝝅による補正 データ生成確率 による補正 Many more statistically advanced estimators..
  28. Marginalized Importance Sampling 方策重みを毎期掛け合わせると指数的にvarianceが増大 するので,周辺化による補正でvarianceを押さえる. • state marginal importance ratio

    • state-action marginal importance ratio 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 44 [R. Sutton+, 2016] An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] GenDICE: Generalized Offline Estimation of Stationary Values. https://arxiv.org/abs/2002.09072 ベルマン方程式の更新式を用いて求められる.
  29. オフラインでやりたいこと(再掲) • 方策の評価 / 最適方策の選択 複数の与えられた方策に対し”仮にオンラインで動かし た”ときの方策のパフォーマンスをオフラインで評価 • 新たな方策の学習 behavior

    policyによって集められたデータのみを使って, オフラインで新たな(より良い)方策を学習 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 45 今回は価値ベースについて紹介します
  30. Policy Constraints ダイバージェンスの制約を満たす範囲で方策を最適化. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 49 current policyとbehavior

    policyの乖離を防ぐ ダイバージェンス(分布間距離)制約 [N. Jaques+, 2019] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog. https://arxiv.org/abs/1907.00456 safe! risky..
  31. Support • ダイバージェンスだとbehavior policyが uniform randomなどの場合,current policy のエントロピーが必要以上に増大. → current

    policyは最適でない, 過度に確率的な方策に. • 代替案として,behavior policyの確率が閾値以下の場合 のみを制約項に含めるよう,supportを用いる. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 51 behavior policyの経験が少なすぎる 場合だけ方策乖離と見なす [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949 緑の確率分布(方策)は 悪くないはずでは? →が,分布間距離は大
  32. まとめ • 強化学習をonline interactionからdata drivenへ • 反実仮想な条件下での推論問題 ログデータからは,エージェントが違う行動を取った 場合,状態遷移と報酬がどうなっていたか分からない. •

    分布シフトへの対応 • Importance Sampling • Policy Penalty / Uncertainty Estimation / Conservative Q-Learning • 課題も多いが,これからの発展に期待! 今日はオフライン強化学習の導入部分を紹介しました.発展的な内容は, ぜひ awesome-offline-rl の論文/tutorial などチェックしてみてください! 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 58
  33. モデルベースの分布シフト • 状態遷移をモデル化するモデルベースでは,教師あり 学習ライクに学習でき,データ効率が良い. • 状態遷移確率の予測誤差に対して,方策価値過大評価 の上界は以下で与えられ,やはり課題がある. 2021/03/22 オフライン強化学習チュートリアル @

    強化学習若手の会 63 方策の分布シフトに起因 (2乗オーダーが問題に!) モデル(状態)の 分布シフトに起因 状態遷移確率予測の最大誤差 [M. Janner+, 2019] When to Trust Your Model: Model-Based Policy Optimization. https://arxiv.org/abs/1906.08253
  34. オフライン強化学習の評価 • データセット上ではうまくいくのに,実際の環境では 失敗するケースの分析を行いたい. • どのようなbehavior policyを使用するのが良いか議論. • ドメイン毎に評価方法や学習困難性が異なる可能性も. データセット公開やベンチマーキングの動きも.

    • D4RL • RL Unplugged • NeoRL • DOPE 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 64 [J. Fu+, 2020] D4RL: Datasets for Deep Data-Driven Reinforcement Learning. https://arxiv.org/abs/2004.07219 [C. Gulcehre+, 2020] RL Unplugged: Benchmarks for Offline Reinforcement Learning. https://arxiv.org/abs/2006.13888 [R. Qin+, 2021] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning. https://arxiv.org/abs/2102.00714 [J. Fu+, 2021] Benchmarks for Deep Off-Policy Evaluation. https://openreview.net/forum?id=kWSeGEeHvF8
  35. 知見の応用が期待される分野 • Causal Inference 状態遷移と報酬がどのように決まるか因果推論 • Uncertainty Estimation 不確実性の効率的な見積もり •

    Density Estimation 方策や状態の確率分布の密度推定 • Generative Modeling 状態遷移確率のモデリング • Distributional Robustness 方策の分布としてものロバスト化 • Invariance 分散を小さくするための工夫 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 65
  36. ちなみに,盛り上がってます! • NeurIPS’20 Tutorial on OfflineRL • NeurIPS’20 OfflineRL Workshop

    • Conference on RL4RealLife (2020) • トップ会議のsubmissionも沢山 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 66
  37. 強化学習 (1/3) • Reinforcement Learning: An Introduction • R. S.

    Sutton and A. G. Barto 著. • 強化学習の王道的な教科書.pdfが公開されている. • Reinforcement Learning • Phil Winder 著. • O’Reillyによる,強化学習について基礎から実用的な話題まで網羅的 にまとめられている教科書. • 強化学習 (機械学習プロフェッショナルシリーズ) • 森村 哲郎 著. • 強化学習について基礎から要点を,数式ベースで解説する教科書. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 68
  38. 強化学習 (2/3) • CS285 Deep Reinforcement Learning • UC Berkeleyの,強化学習について基礎から発展まで網羅的な講義.

    • オフライン強化学習は第15回. • Reinforcement Learning Lecture Series 2018 • DeepMindが公開する,UCLで行われた,強化学習についての網羅的 な講義. • Spinning Up in Deep RL • OpenAIが強化学習の概要や主要論文など幅広くまとめているDocs. • 主要アルゴリズムの実装の演習(と答え)なども用意されている. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 69
  39. 強化学習 (3/3) • Lil’Log #Reinforcement Learning • Lilian Weng氏が個人的に書きためているブログ. •

    特に A (Long) Peek into Reinforcement Learning と Policy Gradient Algorithms はベーシックな強化学習を網羅的にまとめている. • その他の記事は,より発展的な内容をテーマごとに紹介している. • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料) • Shota Imai氏による強化学習の基礎から発展的な内容まで網羅的に まとめられたスライド. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 70
  40. オフライン強化学習 (1/2) • Offline Reinforcement Learning: Tutorial, Review, and Perspectives

    on Open Problems • Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. • オフライン強化学習について王道的なチュートリアル論文. • 本スライドもこの論文を参考に作成した. • Offline Reinforcement Learning: From Algorithms to Practical Challenges • Aviral Kumar and Sergey Levine両氏によるNeurIPS2020での チュートリアル講演. • オフライン強化学習について網羅的なばかりでなく,Colabでの演習 まで公開されている. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 71
  41. オフライン強化学習 (2/2) • A Gentle Introduction to Offline Reinforcement Learning

    • Sergey Levine氏による,“non-technical”な形で (本人tweetより) オフライン強化学習の概観や重要性を解説した講演動画. • d3rlpy: An offline deep reinforcement learning library • Takuma Seno氏による,主要なオフライン強化学習アルゴリズムを 実装し公開しているライブラリ. • オフライン強化学習を実際に動かしてみたい人向き. 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 72
  42. 参考文献 (1/6) Sergey Levine, Aviral Kumar, George Tucker, and Justin

    Fu. “Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”. arXiv preprint, 2020. https://arxiv.org/abs/2005.01643 [A. Kumar+, 2019] Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine. “Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction”. NeurIPS, 2019. https://arxiv.org/abs/1906.00949 [S. Ross+, 2011] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning”. AISTATS, 2011. https://arxiv.org/abs/1011.0686 [D. Precup+, 2000] Doina Precup, Richard S. Sutton, and Satinder P. Singh. “Eligibility Traces for Off-Policy Policy Evaluation”. ICML, 2000. https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_fac ulty_pubs [N. Jiang & L. Li, 2016] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value Evaluation for Reinforcement Learning”. ICML, 2016. https://arxiv.org/abs/1511.03722 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 74
  43. 参考文献 (2/6) [R. Sutton+, 2016] Richard S. Sutton, A. Rupam

    Mahmood, and Martha White. “An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning”. JMLR, 2016. https://arxiv.org/abs/1503.04269 [R. Zhang+, 2020] Ruiyi Zhang, Bo Dai, Lihong Li, and Dale Schuurmans. “GenDICE: Generalized Offline Estimation of Stationary Values”. ICLR, 2020. https://arxiv.org/abs/2002.09072 [S. Levine & K. Vladlen, 2013] Sergey Levine and Vladlen Koltun. “Guided Policy Search”. ICML, 2013. http://proceedings.mlr.press/v28/levine13.html [N. Jaques+, 2019] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard. “Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog”. arXiv preprint, 2019. https://arxiv.org/abs/1907.00456 [Y. Wu+, 2019] Yifan Wu, George Tucker, and Ofir Nachum. “Behavior Regularized Offline Reinforcement Learning”. arXiv preprint, 2019. https://arxiv.org/abs/1911.11361 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 75
  44. 参考文献 (3/6) [I. Osband+, 2016] Ian Osband, Charles Blundell, Alexander

    Pritzel, and Benjamin Van Roy. “Deep Exploration via Bootstrapped DQN”. NeurIPS, 2016. https://arxiv.org/abs/1602.04621 [A. Kumar+, 2020] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. “Conservative Q-Learning for Offline Reinforcement Learning”. ICML, 2020. https://arxiv.org/abs/2006.04779 [M. Janner+, 2019] Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine. “When to Trust Your Model: Model-Based Policy Optimization”. NeurIPS, 2019. https://arxiv.org/abs/1906.08253 [J. Fu+, 2020] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. “D4RL: Datasets for Deep Data-Driven Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2004.07219 [R. Qin+, 2021] Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai Huang, Zewen Li, Weinan Zhang, and Yang Yu. “NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning”. arXiv preprint, 2021. https://arxiv.org/abs/2102.00714 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 76
  45. 参考文献 (4/6) [C. Gulcehre+, 2020] Caglar Gulcehre, Ziyu Wang, Alexander

    Novikov, Tom Le Paine, Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi, Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess, and Nando de Freitas. “RL Unplugged: Benchmarks for Offline Reinforcement Learning”. arXiv preprint, 2020. https://arxiv.org/abs/2006.13888 [A. Kumar, 2019] A. Kumar. “Data-Driven Deep Reinforcement Learning”. BAIR blog, 2019. https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kendall+, 2019] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur, Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah. “Learning to Drive in a Day”. ICRA, 2019. https://arxiv.org/abs/1807.00412 [H. Zhu+, 2017] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun Gai. “Optimized Cost per Click in Taobao Display Advertising”. KDD, 2017. https://arxiv.org/abs/1703.02091 [B. Zoph & Q. V. Le, 2016] Barret Zoph and Quoc V. Le. “Neural Architecture Search with Reinforcement Learning”. ICLR, 2016. https://arxiv.org/abs/1611.01578 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 77
  46. 参考文献 (5/6) [D. Sliver+, 2016] David Silver, Aja Huang, Chris

    J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. “Mastering the game of Go with deep neural networks and tree search”. Nature, 2016. http://airesearch.com/wp- content/uploads/2016/01/deepmind-mastering-go.pdf [J. Gao, 2016] Jim Gao. “Machine Learning Applications for Data Center Optimization”. Google whitepaper, 2016. https://static.googleusercontent.com/media/research.google.com/ja//pubs/archiv e/42542.pdf [B. Baker+, 2016] Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. “Emergent Tool Use From Multi-Agent Autocurricula”. ICLR, 2020. https://arxiv.org/abs/1909.07528 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 78
  47. 参考文献 (6/6) [J. Fu+, 2021] Justin Fu, Mohammad Norouzi, Ofir

    Nachum, George Tucker, ziyu wang, Alexander Novikov, Mengjiao Yang, Michael R Zhang, Yutian Chen, Aviral Kumar, Cosmin Paduraru, Sergey Levine, and Thomas Paine. “Benchmarks for Deep Off-Policy Evaluation”. https://openreview.net/forum?id=kWSeGEeHvF8 2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 79