Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Offline Reinforcement Learning

Offline Reinforcement Learning

チュートリアル @ 強化学習若手の会
https://young-reinforcement.github.io/

解説記事(Qiita)
https://qiita.com/aiueola/items/90f635200d808f904daf

Haruka Kiyohara

March 22, 2021
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. 2021/03/22 1
    オフライン強化学習チュートリアル @ 強化学習若手の会
    オフライン強化学習
    Offline Reinforcement Learning:
    Tutorial, Review, and Perspectives on Open Problems
    東京工業大学 経営工学系
    清原 明加

    View Slide

  2. 自己紹介
    研究興味
    • Reinforcement Learning
    • Off-Policy Evaluation
    最近の活動
    • 半熟仮想 Research Intern
    オフ方策評価 (OPE)
    • negocia Research Intern
    リアルタイム広告入札 (RTB)
    • awesome-offline-rl
    オフライン強化学習とオフ方策評価
    について論文まとめてます
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 2
    清原 明加
    Haruka Kiyohara
    東京工業大学 経営工学系 B3
    @aiueola_
    https://github.com/hanjuku-kaso/awesome-offline-rl
    https://sites.google.com/view/harukakiyohara

    View Slide

  3. オフライン強化学習
    • 強化学習をオフラインデータ上で行う.
    • 医療・ロボティクスなど実環境との相互作用への
    リスクの大きい分野で期待.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 3
    今回紹介する内容

    View Slide

  4. 全体の流れ
    • 強化学習とオフラインへの導入
    • オフライン強化学習の技術課題
    • 方策評価と学習上の工夫
    • 今後とまとめ
    紹介論文
    Offline Reinforcement Learning:
    Tutorial, Review, and Perspectives on Open Problems,
    Sergey Levine, Aviral Kumar, George Tucker, Justin Fu, 2020
    https://arxiv.org/abs/2005.01643
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 4

    View Slide

  5. 強化学習とオフラインへの導入
    2021/03/22 5
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  6. 強化学習とは?
    教師あり学習/教師無し学習/強化学習
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 6
    machine learning
    reinforcement
    supervised unsupervised
    Cartpole
    Atari breakout
    碁(Go)

    View Slide

  7. 強化学習とは?
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 7
    状態s
    報酬r
    行動 a
    エージェント 環境
    将来的に得られる報酬を最大化するよう,エージェント
    が行動方策を学習し,意思決定を最適化する.

    View Slide

  8. 強化学習で可能なこと
    深層学習との組み合わせで,ブレイクスルーが起こった.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 8
    囲碁で世界チャンピオンに勝利
    [D. Sliver+, 2016]
    https://www.bbc.com/news/technology-35785875
    データセンターの冷却電力効率化
    [J. Gao, 2016]
    https://deepmind.com/blog/article/deepmind-ai-
    reduces-google-data-centre-cooling-bill-40
    ニューラルネットの構造最適化
    [B. Zoph & Q. V. Le, 2016]
    道具を使ってかくれんぼ
    [B. Baker+, 2016]

    View Slide

  9. 強化学習の定式化
    • 目的関数(最大化)
    • 履歴(trajectory)確率分布
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 9
    時間割引累積報酬
    行動方策 状態遷移確率
    総積なのが後々重要に

    View Slide

  10. 強化学習のtaxonomy
    今回はモデルフリーを主に扱う.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 10
    強化学習
    モデルベース
    モデルフリー
    方策ベース
    Actor-Critic
    オンライン
    オフポリシー
    価値ベース

    View Slide

  11. 方策ベース
    方策にパラメタを導入し,目的関数の勾配で更新.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 11
    行動の相対的な良さ
    状態を訪れた時の平均報酬
    方策に従ったtrajectoryによる将来報酬
    ・ 現在の方策に従い
    rolloutでデータ収集

    View Slide

  12. 価値ベース
    価値の概念を導入し,価値関数をパラメタ化して近似.
    (即時報酬にならなくても,将来報酬に繋がる状態/行動には価値がある)
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 12
    状態価値
    行動価値

    View Slide

  13. TD学習
    状態と行動の価値の式から,ベルマン方程式が得られる.
    argmax方策とすると,価値関数はベルマン最適方程式の
    右辺左辺の誤差でTD(temporal difference)学習.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 13
    うまく選べているかが重要
    buffer
    過去の経験からサンプリングして学習

    View Slide

  14. Actor-Critic
    • 方策と価値関数の両方にパラメタを導入.
    • 価値関数(Critic)で評価した相対的な方策(Actor)の良さ
    を基に,目的関数の勾配で方策更新.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 14
    Criticによる

    View Slide

  15. 強化学習の特徴
    • 方策を基にオンラインでのデータ収集が必要.
    • 貪欲的な方策では局所最適になってしまうので,
    適度に探索を行いながら学習.(主に価値ベース)
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 15
    オンライン オフポリシー
    活用
    1-ε
    探索
    ε
    方策ベース 価値ベース
    epsilon greedy

    View Slide

  16. 実応用での課題
    強化学習を応用したい場面
    • 医療
    • 自動運転
    • ロボティクス
    • 広告配信
    • オンラインでの探索には危険や経済損失が伴う.
    • 目的関数を少し変えるたびに学習し直す必要.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 16
    [A. Kendall+, 2019] [H. Zhu+, 2017]
    オンラインではなく,オフラインでやりたい!

    View Slide

  17. オフライン強化学習
    強化学習デプロイ時にリスク(e.g., 安全面の懸念)/
    コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 17
    オフライン強化学習では,実環境とのインテラクションが不要で,
    一度別のポリシーで集めたデータセットのみで学習できる!
    あり ←オンラインでの環境との作用→ なし
    オンライン オフポリシー オフライン

    View Slide

  18. オフライン強化学習
    強化学習デプロイ時にリスク(e.g., 安全面の懸念)/
    コスト(e.g., 潜在顧客への機会損失)が大きい分野で期待.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 18
    オフライン強化学習では,実環境とのインテラクションが不要で,
    一度別のポリシーで集めたデータセットのみで学習できる!
    あり ←オンラインでの環境との作用→ なし
    オンライン オフポリシー オフライン
    以降では,以下の名称で定義:
    データ収集時の方策 𝝅
    𝜷

    behavior policy,
    新たに学習/評価したい方策 𝝅(𝝅
    𝜽
    ) を
    current policy / evaluation policy.

    View Slide

  19. 使えるデータ
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 19
    (過去の系列に依存した)状態遷移
    次の状態と報酬は選んだ行動に依存
    (=選ばれた行動以外の場合が分からない)
    行動方策 状態遷移確率
    behavior policyに依存した(i.i.d.でない)偏ったデータ収集に

    View Slide

  20. ここまでのまとめ
    • 環境との相互作用を行いながら学習
    → 従来のオンライン/オフポリシー強化学習
    • オンラインでの学習や探索は,リスク/コストの懸念
    → オフライン強化学習のモチベーション
    • エージェントの行動に依存した反実仮想な状況
    • i.i.d.でない偏ったデータ収集
    → オフライン強化学習の技術的課題と面白さ
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 20

    View Slide

  21. オフライン強化学習の技術課題
    2021/03/22 21
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  22. オフラインでやりたいこと
    • 方策の評価 / 最適方策の選択
    複数の与えられた方策に対し”仮にオンラインで動かし
    た”ときの方策のパフォーマンスをオフラインで評価
    • 新たな方策の学習
    behavior policyによって集められたデータのみを使って,
    オフラインで新たな(より良い)方策を学習
    → 分布シフトの影響により,簡単にはいかない
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 22

    View Slide

  23. オフライン特有の分布シフト
    例えば, から始まる10個のログデータがあるとき.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 23
    8
    2
    5
    3
    データが多いので
    間違えにくい
    データが少ないので
    間違えやすい
    2
    0
    behavior policy
    current policyが
    データと違うtrajectoryを選ぶとどうなる?

    View Slide

  24. 分布シフトの発生
    1. 方策の分布シフト
    behavior policyと違う方策を選択
    2. 状態の分布シフト
    behavior policyと状態遷移/生成確率が異なる
    3. 価値関数/期待報酬の予測エラー
    データが少ないと学習できない
    反実仮想 + i.i.d.でない,データの特性に起因.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 24

    View Slide

  25. 評価時の分布シフト
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 25
    評価したいのは”仮にオンラインで動かしたとしたら”
    ある方策のパフォーマンスはどの程度になりそうか?
    オフラインのデータセットでは評価したい方策と確率分布が異なる
    behavior policyが集めたbiasedなデータしか手に入らないので,
    単純にrolloutして期待報酬を求めるのはNG!

    View Slide

  26. 学習時の分布シフト
    • 方策ベース
    評価時同様,単純な方法では勾配がbiasedに.
    • 価値ベース
    価値関数の予測誤差の問題が深刻に.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 26
    out-of-distributionなペアがあると,
    過大評価してうまくいかない可能性
    そもそもロスを計算するための
    データサンプルの生成確率も異なる
    [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning.
    https://bair.berkeley.edu/blog/2019/12/05/bear/ [A. Kumar, 2019]

    View Slide

  27. 一般的なオフポリシーとの違い
    • 経験バッファは 𝜋
    𝛽
    によるデータ(更新されない).
    • 価値関数を楽観的に見積もった場合,オンラインの
    データ収集により修正できない.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 27
    蓄積
    エージェントの行動経験 経験バッファ Q-network
    サンプリング
    して学習 推定価値
    データ収集はオンライン
    分布シフトにより,
    楽観的に見積もる可能性
    ×
    ×
    オフラインの致命的な欠点

    View Slide

  28. “unlearning” effect
    強化学習の場合,強い時系列依存性下で分布シフトが
    発生するため,データサイズを増やしても汎化しない.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 28
    実際どれくらい
    うまくいっているか
    エージェントがどれくらい
    うまくいっていると思っているか (価値関数)
    データサイズ10万
    [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949
    [A. Kumar+, 2019]

    View Slide

  29. 分布シフトの理論的な深刻さ
    behavior policyが最適という強い仮定を置いた時,
    方策の汎化誤差 に対するリグレットの上界
    • 完全オフラインの場合
    • オンラインでのデータ収集を許した場合
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 29
    時系列が長くなるほど2乗オーダーが問題に
    (一度間違えると以降のステップも間違え続けるため)
    current policyの選んだ行動が最適解(=behavior policy)と一致しなかった回数
    [S. Ross+, 2011] A Reduction of Imitation Learning and Structured
    Prediction to No-Regret Online Learning. https://arxiv.org/abs/1011.0686

    View Slide

  30. ここまでのまとめ
    • オフライン強化学習では,分布シフトへの対処が鍵.
    • 方策の分布シフト (行動選択確率の違い)
    • 状態の分布シフト (状態生成確率の違い)
    • これは,データの特性に起因.
    • 方策に対し観測が反実仮想になっている
    • behavior policyによって集められ偏りがある
    → 分布シフトがある状況でどうすれば強化学習できる?
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 30

    View Slide

  31. 方策評価と学習上の工夫
    2021/03/22 31
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  32. オフラインでやりたいこと(再掲)
    • 方策の評価 / 最適方策の選択
    複数の与えられた方策に対し”仮にオンラインで動かし
    た”ときの方策のパフォーマンスをオフラインで評価
    • 新たな方策の学習
    behavior policyによって集められたデータのみを使って,
    オフラインで新たな(より良い)方策を学習
    → 分布シフトがある中で,うまく行うには?
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 32

    View Slide

  33. オフラインでやりたいこと(再掲)
    • 方策の評価 / 最適方策の選択
    複数の与えられた方策に対し”仮にオンラインで動かし
    た”ときの方策のパフォーマンスをオフラインで評価
    • 新たな方策の学習
    behavior policyによって集められたデータのみを使って,
    オフラインで新たな(より良い)方策を学習
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 33
    まずはオフライン評価について紹介します

    View Slide

  34. 評価したいのは”仮にオンラインで動かしたとしたら”
    ある方策のパフォーマンスはどの程度になりそうか?
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 34
    オフラインのデータセットでは確率分布が異なる
    behavior policyが集めたbiasedなデータで評価する必要
    → データの観測確率をunbiasedに補正したい!
    期待報酬のオフライン評価 (再掲)

    View Slide

  35. オフライン評価の手法

    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 35
    Importance Sampling
    Marginalized
    Importance Sampling
    State Marginal
    Step-Importance
    Sampling
    Weighted-Importance
    Sampling
    Doubly Robust
    Estimator
    State-Action Marginal
    Many methods to acquire
    marginal distribution..
    𝝅による補正 データ生成確率
    による補正
    Many more statistically
    advanced estimators..

    View Slide

  36. オフライン評価の手法

    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 36
    Importance Sampling
    Marginalized
    Importance Sampling
    State Marginal
    Weighted-Importance
    Sampling
    Step-Importance
    Sampling
    Doubly Robust
    Estimator
    State-Action Marginal
    Many more statistically
    advanced estimators..
    Many methods to acquire
    marginal distribution..
    𝝅による補正 データ生成確率
    による補正

    View Slide

  37. Importance Sampling (IS)
    trajectoryの観測確率が方策に依存するため,
    報酬観測確率をunbiasedに補正!
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 37
    総積により指数関数的に重みが変化
    → varianceが非常に大きいという問題が..
    [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

    View Slide

  38. Step Importance Sampling (step-IS)
    強化学習の状態遷移はそれまでの方策に依存するため,
    報酬の観測されるstepまでの確率をunbiasedに補正!
    → varianceを軽減する方法を考えたい..!
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 38
    多少軽減されるが,まだvarianceが大きい
    [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

    View Slide

  39. Weighted Importance Sampling (WIS)
    self-normalizeすると,varianceが多少小さくなる.
    (biasedだが,consistent)
    → unbiasedなままvarianceを小さくできる方法はあるか?
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 39
    重み和で割る
    [D. Precup+, 2000] Eligibility Traces for Off-Policy Policy Evaluation.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_faculty_pubs

    View Slide

  40. variance軽減のための工夫
    再帰的に見たときのstep-IS
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 40
    [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.
    https://arxiv.org/abs/1511.03722
    ベースラインとの誤差を重みづけ 推定価値
    ※t期より先の期待報酬を求める再帰式.
    t=0のとき,step-ISの式に一致.
    ベースラインの推定量を導入!

    View Slide

  41. Doubly Robust Estimator (DR)
    behavior policyが既知 or 推定報酬が正確ならunbiased!
    さらに,理論的にvarianceも軽減可能.
    → その他にも統計的に優れた推定量が沢山.(今日は割愛)
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 41
    再帰式を解いて得たもの
    [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.
    https://arxiv.org/abs/1511.03722

    View Slide

  42. DRのvariance比較
    再帰式でのstep-ISのvariance
    再帰式でのDRのvariance
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 42
    [N. Jiang & L. Li, 2016] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning.
    https://arxiv.org/abs/1511.03722
    ベースラインの推定価値がaccurateなら分散が小さくなる!

    View Slide

  43. オフライン評価の手法 (再掲)

    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 43
    Importance Sampling
    Marginalized
    Importance Sampling
    State Marginal
    Step-Importance
    Sampling
    Weighted-Importance
    Sampling
    Doubly Robust
    Estimator
    State-Action Marginal
    Many methods to acquire
    marginal distribution..
    𝝅による補正 データ生成確率
    による補正
    Many more statistically
    advanced estimators..

    View Slide

  44. Marginalized Importance Sampling
    方策重みを毎期掛け合わせると指数的にvarianceが増大
    するので,周辺化による補正でvarianceを押さえる.
    • state marginal importance ratio
    • state-action marginal importance ratio
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 44
    [R. Sutton+, 2016] An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning.
    https://arxiv.org/abs/1503.04269
    [R. Zhang+, 2020] GenDICE: Generalized Offline Estimation of Stationary Values. https://arxiv.org/abs/2002.09072
    ベルマン方程式の更新式を用いて求められる.

    View Slide

  45. オフラインでやりたいこと(再掲)
    • 方策の評価 / 最適方策の選択
    複数の与えられた方策に対し”仮にオンラインで動かし
    た”ときの方策のパフォーマンスをオフラインで評価
    • 新たな方策の学習
    behavior policyによって集められたデータのみを使って,
    オフラインで新たな(より良い)方策を学習
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 45
    今回は価値ベースについて紹介します

    View Slide

  46. オフラインでの方策ベース
    勾配推定もunbiasedに補正したいが,
    varianceが問題になるので正則化項を加える.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 46
    重みが大きくなりすぎるのを抑制するための正則化項
    [S. Levine and K. Vladlen, ICML’13] Guided Policy Search. http://proceedings.mlr.press/v28/levine13.pdf

    View Slide

  47. オフラインでの価値ベース
    価値関数の近似エラーが問題になるので,
    1. 分布シフトを抑制する方策を学習したい
    2. 価値関数の不確実性を評価して利用したい
    3. 価値関数がエラーを起こしにくい学習法を考えたい
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 47
    [A. Kumar, 2019]
    [A. Kumar, 2019] Data-Driven Deep Reinforcement Learning.
    https://bair.berkeley.edu/blog/2019/12/05/bear/

    View Slide

  48. オフラインでの価値ベース
    価値関数の近似エラーが問題になるので,
    1. 分布シフトを抑制する方策を学習したい
    2. 価値関数の不確実性を評価して利用したい
    3. 価値関数がエラーを起こしにくい学習法を考えたい
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 48

    View Slide

  49. Policy Constraints
    ダイバージェンスの制約を満たす範囲で方策を最適化.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 49
    current policyとbehavior policyの乖離を防ぐ
    ダイバージェンス(分布間距離)制約
    [N. Jaques+, 2019] Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog.
    https://arxiv.org/abs/1907.00456
    safe! risky..

    View Slide

  50. Policy Penalty
    現在の方策だけでなく,将来の方策の乖離を招く行動も
    抑制するため,報酬にペナルティ項を追加.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 50
    方策乖離ペナルティ
    [Y. Wu+, 2019] Behavior Regularized Offline Reinforcement Learning. https://arxiv.org/abs/1911.11361
    将来の分まで加味
    safe! risky..

    View Slide

  51. Support
    • ダイバージェンスだとbehavior policyが
    uniform randomなどの場合,current policy
    のエントロピーが必要以上に増大.
    → current policyは最適でない,
    過度に確率的な方策に.
    • 代替案として,behavior policyの確率が閾値以下の場合
    のみを制約項に含めるよう,supportを用いる.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 51
    behavior policyの経験が少なすぎる
    場合だけ方策乖離と見なす
    [A. Kumar+, 2019] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. https://arxiv.org/abs/1906.00949
    緑の確率分布(方策)は
    悪くないはずでは?
    →が,分布間距離は大

    View Slide

  52. オフラインでの価値ベース(再掲)
    価値関数の近似エラーが問題になるので,
    1. 分布シフトを抑制する方策を学習したい
    2. 価値関数の不確実性を評価して利用したい
    3. 価値関数がエラーを起こしにくい学習法を考えたい
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 52

    View Slide

  53. Uncertainty Estimation
    • 直接的な方策制約ではなく,価値関数の予測不確実性
    を評価してそれを基に意思決定を行う.
    • 不確実性を考慮した上で行動価値の推定下界を最大化.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 53
    不確実性項
    bootstrap ensembleによる分散などで評価
    [I. Osband+, 2016] Deep Exploration via Bootstrapped DQN. https://arxiv.org/abs/1602.04621

    View Slide

  54. オフラインでの価値ベース(再掲)
    価値関数の近似エラーが問題になるので,
    1. 分布シフトを抑制する方策を学習したい
    2. 価値関数の不確実性を評価して利用したい
    3. 価値関数がエラーを起こしにくい学習法を考えたい
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 54

    View Slide

  55. Conservative Q-Learning
    価値関数が過度に悲観的にならないよう,過大評価を
    抑制しつつもバランスをとる.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 55
    ある方策上(最悪ケース)での過大評価を抑制 観測点では楽観的に
    TD誤差は最小化
    [A. Kumar+, 2020] Conservative Q-Learning for Offline Reinforcement Learning. https://arxiv.org/abs/2006.04779

    View Slide

  56. 今後とまとめ
    2021/03/22 56
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  57. 今後のオフライン強化学習
    まだまだ課題が山積み!
    • オフラインでのハイパラチューニングをどうするか.
    • オンラインでのデプロイ時に初期挙動が不安定に.
    • behavior policyにかなり学習結果が依存.
    しかし,使えると嬉しい応用場面も沢山!
    • 医療の意思決定
    • 自動運転やロボット制御
    • 推薦システムや広告配信の最適化
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 57

    View Slide

  58. まとめ
    • 強化学習をonline interactionからdata drivenへ
    • 反実仮想な条件下での推論問題
    ログデータからは,エージェントが違う行動を取った
    場合,状態遷移と報酬がどうなっていたか分からない.
    • 分布シフトへの対応
    • Importance Sampling
    • Policy Penalty / Uncertainty Estimation /
    Conservative Q-Learning
    • 課題も多いが,これからの発展に期待!
    今日はオフライン強化学習の導入部分を紹介しました.発展的な内容は,
    ぜひ awesome-offline-rl の論文/tutorial などチェックしてみてください!
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 58

    View Slide

  59. awesome-offline-rlの紹介
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 59

    View Slide

  60. ありがとうございました!
    2021/03/22 60
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  61. Appendix
    2021/03/22 61
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  62. 分布シフトの発生
    方策の分布シフトは,状態の分布シフトにどの程度
    影響を与えるのか?
    つまり,out-of-distributionなデータ領域に行かないため
    には厳しめに方策の分布シフトを抑制する必要がある.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 62
    2乗オーダーが問題に

    View Slide

  63. モデルベースの分布シフト
    • 状態遷移をモデル化するモデルベースでは,教師あり
    学習ライクに学習でき,データ効率が良い.
    • 状態遷移確率の予測誤差に対して,方策価値過大評価
    の上界は以下で与えられ,やはり課題がある.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 63
    方策の分布シフトに起因
    (2乗オーダーが問題に!)
    モデル(状態)の
    分布シフトに起因
    状態遷移確率予測の最大誤差
    [M. Janner+, 2019] When to Trust Your Model: Model-Based Policy Optimization. https://arxiv.org/abs/1906.08253

    View Slide

  64. オフライン強化学習の評価
    • データセット上ではうまくいくのに,実際の環境では
    失敗するケースの分析を行いたい.
    • どのようなbehavior policyを使用するのが良いか議論.
    • ドメイン毎に評価方法や学習困難性が異なる可能性も.
    データセット公開やベンチマーキングの動きも.
    • D4RL
    • RL Unplugged
    • NeoRL
    • DOPE
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 64
    [J. Fu+, 2020] D4RL: Datasets for Deep Data-Driven Reinforcement Learning.
    https://arxiv.org/abs/2004.07219
    [C. Gulcehre+, 2020] RL Unplugged: Benchmarks for Offline Reinforcement Learning.
    https://arxiv.org/abs/2006.13888
    [R. Qin+, 2021] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning.
    https://arxiv.org/abs/2102.00714
    [J. Fu+, 2021] Benchmarks for Deep Off-Policy Evaluation.
    https://openreview.net/forum?id=kWSeGEeHvF8

    View Slide

  65. 知見の応用が期待される分野
    • Causal Inference 状態遷移と報酬がどのように決まるか因果推論
    • Uncertainty Estimation 不確実性の効率的な見積もり
    • Density Estimation 方策や状態の確率分布の密度推定
    • Generative Modeling 状態遷移確率のモデリング
    • Distributional Robustness 方策の分布としてものロバスト化
    • Invariance 分散を小さくするための工夫
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 65

    View Slide

  66. ちなみに,盛り上がってます!
    • NeurIPS’20 Tutorial on OfflineRL
    • NeurIPS’20 OfflineRL Workshop
    • Conference on RL4RealLife (2020)
    • トップ会議のsubmissionも沢山
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 66

    View Slide

  67. もっと色々知りたい人へ
    2021/03/22 67
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  68. 強化学習 (1/3)
    • Reinforcement Learning: An Introduction
    • R. S. Sutton and A. G. Barto 著.
    • 強化学習の王道的な教科書.pdfが公開されている.
    • Reinforcement Learning
    • Phil Winder 著.
    • O’Reillyによる,強化学習について基礎から実用的な話題まで網羅的
    にまとめられている教科書.
    • 強化学習 (機械学習プロフェッショナルシリーズ)
    • 森村 哲郎 著.
    • 強化学習について基礎から要点を,数式ベースで解説する教科書.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 68

    View Slide

  69. 強化学習 (2/3)
    • CS285 Deep Reinforcement Learning
    • UC Berkeleyの,強化学習について基礎から発展まで網羅的な講義.
    • オフライン強化学習は第15回.
    • Reinforcement Learning Lecture Series 2018
    • DeepMindが公開する,UCLで行われた,強化学習についての網羅的
    な講義.
    • Spinning Up in Deep RL
    • OpenAIが強化学習の概要や主要論文など幅広くまとめているDocs.
    • 主要アルゴリズムの実装の演習(と答え)なども用意されている.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 69

    View Slide

  70. 強化学習 (3/3)
    • Lil’Log #Reinforcement Learning
    • Lilian Weng氏が個人的に書きためているブログ.
    • 特に A (Long) Peek into Reinforcement Learning と Policy Gradient
    Algorithms はベーシックな強化学習を網羅的にまとめている.
    • その他の記事は,より発展的な内容をテーマごとに紹介している.
    • 強化学習の基礎と深層強化学習(東京大学 松尾研究室
    深層強化学習サマースクール講義資料)
    • Shota Imai氏による強化学習の基礎から発展的な内容まで網羅的に
    まとめられたスライド.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 70

    View Slide

  71. オフライン強化学習 (1/2)
    • Offline Reinforcement Learning: Tutorial, Review, and
    Perspectives on Open Problems
    • Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu.
    • オフライン強化学習について王道的なチュートリアル論文.
    • 本スライドもこの論文を参考に作成した.
    • Offline Reinforcement Learning: From Algorithms to
    Practical Challenges
    • Aviral Kumar and Sergey Levine両氏によるNeurIPS2020での
    チュートリアル講演.
    • オフライン強化学習について網羅的なばかりでなく,Colabでの演習
    まで公開されている.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 71

    View Slide

  72. オフライン強化学習 (2/2)
    • A Gentle Introduction to Offline Reinforcement Learning
    • Sergey Levine氏による,“non-technical”な形で (本人tweetより)
    オフライン強化学習の概観や重要性を解説した講演動画.
    • d3rlpy: An offline deep reinforcement learning library
    • Takuma Seno氏による,主要なオフライン強化学習アルゴリズムを
    実装し公開しているライブラリ.
    • オフライン強化学習を実際に動かしてみたい人向き.
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 72

    View Slide

  73. 参考文献
    2021/03/22 73
    オフライン強化学習チュートリアル @ 強化学習若手の会

    View Slide

  74. 参考文献 (1/6)
    Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. “Offline Reinforcement
    Learning: Tutorial, Review, and Perspectives on Open Problems”. arXiv preprint,
    2020. https://arxiv.org/abs/2005.01643
    [A. Kumar+, 2019] Aviral Kumar, Justin Fu, George Tucker, and Sergey Levine.
    “Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction”. NeurIPS,
    2019. https://arxiv.org/abs/1906.00949
    [S. Ross+, 2011] Stephane Ross, Geoffrey J. Gordon, and J. Andrew Bagnell. “A
    Reduction of Imitation Learning and Structured Prediction to No-Regret Online
    Learning”. AISTATS, 2011. https://arxiv.org/abs/1011.0686
    [D. Precup+, 2000] Doina Precup, Richard S. Sutton, and Satinder P. Singh.
    “Eligibility Traces for Off-Policy Policy Evaluation”. ICML, 2000.
    https://scholarworks.umass.edu/cgi/viewcontent.cgi?article=1079&context=cs_fac
    ulty_pubs
    [N. Jiang & L. Li, 2016] Nan Jiang and Lihong Li. “Doubly Robust Off-policy Value
    Evaluation for Reinforcement Learning”. ICML, 2016.
    https://arxiv.org/abs/1511.03722
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 74

    View Slide

  75. 参考文献 (2/6)
    [R. Sutton+, 2016] Richard S. Sutton, A. Rupam Mahmood, and Martha White. “An
    Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning”.
    JMLR, 2016. https://arxiv.org/abs/1503.04269
    [R. Zhang+, 2020] Ruiyi Zhang, Bo Dai, Lihong Li, and Dale Schuurmans. “GenDICE:
    Generalized Offline Estimation of Stationary Values”. ICLR, 2020.
    https://arxiv.org/abs/2002.09072
    [S. Levine & K. Vladlen, 2013] Sergey Levine and Vladlen Koltun. “Guided Policy
    Search”. ICML, 2013. http://proceedings.mlr.press/v28/levine13.html
    [N. Jaques+, 2019] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen,
    Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard.
    “Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human
    Preferences in Dialog”. arXiv preprint, 2019. https://arxiv.org/abs/1907.00456
    [Y. Wu+, 2019] Yifan Wu, George Tucker, and Ofir Nachum. “Behavior Regularized
    Offline Reinforcement Learning”. arXiv preprint, 2019.
    https://arxiv.org/abs/1911.11361
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 75

    View Slide

  76. 参考文献 (3/6)
    [I. Osband+, 2016] Ian Osband, Charles Blundell, Alexander Pritzel, and Benjamin
    Van Roy. “Deep Exploration via Bootstrapped DQN”. NeurIPS, 2016.
    https://arxiv.org/abs/1602.04621
    [A. Kumar+, 2020] Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine.
    “Conservative Q-Learning for Offline Reinforcement Learning”. ICML, 2020.
    https://arxiv.org/abs/2006.04779
    [M. Janner+, 2019] Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine.
    “When to Trust Your Model: Model-Based Policy Optimization”. NeurIPS, 2019.
    https://arxiv.org/abs/1906.08253
    [J. Fu+, 2020] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey
    Levine. “D4RL: Datasets for Deep Data-Driven Reinforcement Learning”. arXiv
    preprint, 2020. https://arxiv.org/abs/2004.07219
    [R. Qin+, 2021] Rongjun Qin, Songyi Gao, Xingyuan Zhang, Zhen Xu, Shengkai
    Huang, Zewen Li, Weinan Zhang, and Yang Yu. “NeoRL: A Near Real-World
    Benchmark for Offline Reinforcement Learning”. arXiv preprint, 2021.
    https://arxiv.org/abs/2102.00714
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 76

    View Slide

  77. 参考文献 (4/6)
    [C. Gulcehre+, 2020] Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Tom Le Paine,
    Sergio Gomez Colmenarejo, Konrad Zolna, Rishabh Agarwal, Josh Merel, Daniel
    Mankowitz, Cosmin Paduraru, Gabriel Dulac-Arnold, Jerry Li, Mohammad Norouzi,
    Matt Hoffman, Ofir Nachum, George Tucker, Nicolas Heess, and Nando de Freitas.
    “RL Unplugged: Benchmarks for Offline Reinforcement Learning”. arXiv preprint,
    2020. https://arxiv.org/abs/2006.13888
    [A. Kumar, 2019] A. Kumar. “Data-Driven Deep Reinforcement Learning”. BAIR blog,
    2019. https://bair.berkeley.edu/blog/2019/12/05/bear/
    [A. Kendall+, 2019] Alex Kendall, Jeffrey Hawke, David Janz, Przemyslaw Mazur,
    Daniele Reda, John-Mark Allen, Vinh-Dieu Lam, Alex Bewley, and Amar Shah.
    “Learning to Drive in a Day”. ICRA, 2019. https://arxiv.org/abs/1807.00412
    [H. Zhu+, 2017] Han Zhu, Junqi Jin, Chang Tan, Fei Pan, Yifan Zeng, Han Li, and Kun
    Gai. “Optimized Cost per Click in Taobao Display Advertising”. KDD, 2017.
    https://arxiv.org/abs/1703.02091
    [B. Zoph & Q. V. Le, 2016] Barret Zoph and Quoc V. Le. “Neural Architecture Search
    with Reinforcement Learning”. ICLR, 2016. https://arxiv.org/abs/1611.01578
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 77

    View Slide

  78. 参考文献 (5/6)
    [D. Sliver+, 2016] David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent
    Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda
    Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal
    Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray
    Kavukcuoglu, Thore Graepel, and Demis Hassabis. “Mastering the game of Go with
    deep neural networks and tree search”. Nature, 2016. http://airesearch.com/wp-
    content/uploads/2016/01/deepmind-mastering-go.pdf
    [J. Gao, 2016] Jim Gao. “Machine Learning Applications for Data Center
    Optimization”. Google whitepaper, 2016.
    https://static.googleusercontent.com/media/research.google.com/ja//pubs/archiv
    e/42542.pdf
    [B. Baker+, 2016] Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn
    Powell, Bob McGrew, and Igor Mordatch. “Emergent Tool Use From Multi-Agent
    Autocurricula”. ICLR, 2020. https://arxiv.org/abs/1909.07528
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 78

    View Slide

  79. 参考文献 (6/6)
    [J. Fu+, 2021] Justin Fu, Mohammad Norouzi, Ofir Nachum, George Tucker, ziyu
    wang, Alexander Novikov, Mengjiao Yang, Michael R Zhang, Yutian Chen, Aviral
    Kumar, Cosmin Paduraru, Sergey Levine, and Thomas Paine. “Benchmarks for Deep
    Off-Policy Evaluation”. https://openreview.net/forum?id=kWSeGEeHvF8
    2021/03/22 オフライン強化学習チュートリアル @ 強化学習若手の会 79

    View Slide