Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

RecSys読み会2021での発表スライドです.
論文: https://arxiv.org/abs/2109.08331
SimuRec workshop: https://simurec.piret.info/

17c1e4a05739a33e166d1dd982d717ec?s=128

Haruka Kiyohara

October 23, 2021
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1 Accelerating

    Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation Haruka Kiyohara1, Kosuke Kawakami12, Yuta Saito34 1 Tokyo Institute of Technology, 2 negocia, Inc., 3 Hanjuku-Kaso Co., Ltd., 4 Cornell University 清原 明加 (@aiueola_) https://sites.google.com/view/harukakiyohara 1
  2. 自己紹介 • 名前: 清原 明加 (Haruka Kiyohara) • 所属: 東京工業大学

    経営工学系 B4 • 興味: 強化学習 / オフ方策評価 / 推薦 / 広告 • 最近の活動: • インターン @ negocia, 半熟仮想, Yahoo Japan! 研究所 • WSDM (主著), RecSys (共著) • awesome-offline-rl October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 2 @aiueola_
  3. SimuRec workshop • 推薦システムにおけるシミュレーションの活用に関するworkshop. • ポジションペーパーを投稿し,みんなで今後のシミュレーションの 方向性についてディスカッションを行う. • 8月中旬~現在まで mtg

    + slack上でやり取りが続いていて, 最終的には全体で一本のサーベイ論文(?)を書き上げることが目標. (有名なシミュレーションを作った人と協働できる) October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 3 https://simurec.piret.info/
  4. ポジションペーパー テーマ シミュレーションはオフライン学習やオフライン評価の研究を 促進することができる? 内容 • 強化学習とオフライン学習/評価 • 「オフライン学習/評価の手法」の評価をしたい •

    シミュレーションは評価実験にどう活用できる? October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 4 negociaで書いた論文
  5. 広告入札で行っていること October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5

    ①オークション情報/残り予算(状態) ③クリック(報酬) ②入札額(行動) 意思決定方策 プラットフォーム(環境) ※ 実際はちょっと違うが,イメージとしてはこんな感じ 強化学習により環境とインテラクションしながら学習できる! (長期的な視点で)クリック数を最大化する方策を獲得したい.
  6. 強化学習を使ってみたいが.. 1. 導入先のプラットフォーム上で新たに方策を学習する and / or 2. デプロイする方策の性能をA/Bテストで評価する必要 October 2021

    Accelerating Offline RL Application @ RecSys2021論文読み会 6 しかし,学習や評価の過程で方策が非最適な行動をしてしまう懸念 = 売上やクライアントの満足への損害に繋がってしまうかも..
  7. オフライン強化学習 過去に集めたログデータを使い,オフラインで方策学習や評価を行う. 1. ログデータから新たな方策を学習. 2. (別の)ログデータを使って,新たな方策の性能をオフライン評価. October 2021 Accelerating Offline

    RL Application @ RecSys2021論文読み会 7 オフライン強化学習に期待!
  8. オフライン強化学習の実験 実験で知りたいこと • ログデータから学習した方策がオンラインでどのような性能になるのか? • オフラインでの方策の性能推定は,どれくらい正確なのか? これらを知るためには,オンラインで方策を動かす必要がある..! (しかし,リスクが大きいのでしたくない..) October 2021

    Accelerating Offline RL Application @ RecSys2021論文読み会 8 アルゴリズムの適用 アルゴリズムの評価..?
  9. シミュレーションの導入 シミュレーションをオンライン環境と仮想的に見なすことで, オフライン強化学習の学習/評価手法の評価が可能に! October 2021 Accelerating Offline RL Application @

    RecSys2021論文読み会 9 アルゴリズムの適用 アルゴリズムの評価..? ログデータ シミュレーション
  10. シミュレーションの活用方法 利点 • 様々に実験条件を変化させて沢山実験できる.(safe) (comprehensive) • 同じシミュレータを使えば,他の研究者が再現可能.(reproducible) 欠点 • オンライン実験と比べると,人工的な設定に.(unrealistic)

    豊富なシミュレーション実験 + 少量のオンライン実験と,役割分担が大切. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 10
  11. まとめ • オフライン強化学習では過去のデータを使って方策を学習/評価. • 評価実験を行うために方策をオンラインで動かしたいが,リスクの懸念が. • そこで,シミュレーションを使ってオフライン強化学習の評価フローを再現. • 様々な実験条件のシミュレーション環境を使えば,手法の利点/欠点を知れる. シミュレーションはオフライン強化学習の研究を促進!

    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 11
  12. ありがとうございました! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 12

  13. オフライン強化学習に興味ある方へ • 今日はお気持ちを話したので,もう少し技術的なことに興味ある方は, 以下のスライドと記事も参考になるかもしれません.(拙作で恐縮ですが..) • 強化学習若手の会 オフライン強化学習チュートリアル • ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する

    • オフ方策評価(評価側の話)については,バンディット(強化学習の特殊ケース)の 設定で齋藤さんが書かれている記事が分かりやすいです. • より発展的な内容に興味ある方は,論文やチュートリアルなどをまとめた awesome-offline-rl のレポジトリを見てみてください! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 13