Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Accelerating Offline RL Application in Real Tim...

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

arXiv: https://arxiv.org/abs/2109.08331

SimuRec WS @ RecSys2021
About WS: https://simurec.piret.info/

RecSys読み会2021
https://connpass.com/event/226873/

Haruka Kiyohara

October 23, 2021
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1 Accelerating

    Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation Haruka Kiyohara1, Kosuke Kawakami12, Yuta Saito34 1 Tokyo Institute of Technology, 2 negocia, Inc., 3 Hanjuku-Kaso Co., Ltd., 4 Cornell University 清原 明加 (@aiueola_) https://sites.google.com/view/harukakiyohara 1
  2. 自己紹介 • 名前: 清原 明加 (Haruka Kiyohara) • 所属: 東京工業大学

    経営工学系 B4 • 興味: 強化学習 / オフ方策評価 / 推薦 / 広告 • 最近の活動: • インターン @ negocia, 半熟仮想, Yahoo Japan! 研究所 • WSDM (主著), RecSys (共著) • awesome-offline-rl October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 2 @aiueola_
  3. SimuRec workshop • 推薦システムにおけるシミュレーションの活用に関するworkshop. • ポジションペーパーを投稿し,みんなで今後のシミュレーションの 方向性についてディスカッションを行う. • 8月中旬~現在まで mtg

    + slack上でやり取りが続いていて, 最終的には全体で一本のサーベイ論文(?)を書き上げることが目標. (有名なシミュレーションを作った人と協働できる) October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 3 https://simurec.piret.info/
  4. 広告入札で行っていること October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5

    ①オークション情報/残り予算(状態) ③クリック(報酬) ②入札額(行動) 意思決定方策 プラットフォーム(環境) ※ 実際はちょっと違うが,イメージとしてはこんな感じ 強化学習により環境とインテラクションしながら学習できる! (長期的な視点で)クリック数を最大化する方策を獲得したい.
  5. 強化学習を使ってみたいが.. 1. 導入先のプラットフォーム上で新たに方策を学習する and / or 2. デプロイする方策の性能をA/Bテストで評価する必要 October 2021

    Accelerating Offline RL Application @ RecSys2021論文読み会 6 しかし,学習や評価の過程で方策が非最適な行動をしてしまう懸念 = 売上やクライアントの満足への損害に繋がってしまうかも..
  6. オフライン強化学習に興味ある方へ • 今日はお気持ちを話したので,もう少し技術的なことに興味ある方は, 以下のスライドと記事も参考になるかもしれません.(拙作で恐縮ですが..) • 強化学習若手の会 オフライン強化学習チュートリアル • ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する

    • オフ方策評価(評価側の話)については,バンディット(強化学習の特殊ケース)の 設定で齋藤さんが書かれている記事が分かりやすいです. • より発展的な内容に興味ある方は,論文やチュートリアルなどをまとめた awesome-offline-rl のレポジトリを見てみてください! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 13