Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1 Accelerating
Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation Haruka Kiyohara1, Kosuke Kawakami12, Yuta Saito34 1 Tokyo Institute of Technology, 2 negocia, Inc., 3 Hanjuku-Kaso Co., Ltd., 4 Cornell University 清原明加 (@aiueola_) https://sites.google.com/view/harukakiyohara 1

自己紹介 • 名前: 清原明加 (Haruka Kiyohara) • 所属: 東京工業大学
経営工学系 B4 • 興味: 強化学習 / オフ方策評価 / 推薦 / 広告 • 最近の活動: • インターン @ negocia, 半熟仮想, Yahoo Japan! 研究所 • WSDM (主著), RecSys (共著) • awesome-offline-rl October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 2 @aiueola_

SimuRec workshop • 推薦システムにおけるシミュレーションの活用に関するworkshop． • ポジションペーパーを投稿し，みんなで今後のシミュレーションの方向性についてディスカッションを行う． • 8月中旬～現在まで mtg
+ slack上でやり取りが続いていて，最終的には全体で一本のサーベイ論文(?)を書き上げることが目標． (有名なシミュレーションを作った人と協働できる) October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 3 https://simurec.piret.info/

ポジションペーパーテーマシミュレーションはオフライン学習やオフライン評価の研究を促進することができる？内容 • 強化学習とオフライン学習/評価 • 「オフライン学習/評価の手法」の評価をしたい •
シミュレーションは評価実験にどう活用できる？ October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 4 negociaで書いた論文

広告入札で行っていること October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5
①オークション情報/残り予算(状態) ③クリック(報酬) ②入札額(行動) 意思決定方策プラットフォーム(環境) ※ 実際はちょっと違うが，イメージとしてはこんな感じ強化学習により環境とインテラクションしながら学習できる！ (長期的な視点で)クリック数を最大化する方策を獲得したい．

強化学習を使ってみたいが.. 1. 導入先のプラットフォーム上で新たに方策を学習する and / or 2. デプロイする方策の性能をA/Bテストで評価する必要 October 2021
Accelerating Offline RL Application @ RecSys2021論文読み会 6 しかし，学習や評価の過程で方策が非最適な行動をしてしまう懸念 = 売上やクライアントの満足への損害に繋がってしまうかも..

オフライン強化学習過去に集めたログデータを使い，オフラインで方策学習や評価を行う． 1. ログデータから新たな方策を学習． 2. (別の)ログデータを使って，新たな方策の性能をオフライン評価． October 2021 Accelerating Offline
RL Application @ RecSys2021論文読み会 7 オフライン強化学習に期待！

オフライン強化学習の実験実験で知りたいこと • ログデータから学習した方策がオンラインでどのような性能になるのか？ • オフラインでの方策の性能推定は，どれくらい正確なのか？これらを知るためには，オンラインで方策を動かす必要がある..！ (しかし，リスクが大きいのでしたくない..) October 2021
Accelerating Offline RL Application @ RecSys2021論文読み会 8 アルゴリズムの適用アルゴリズムの評価..?

シミュレーションの導入シミュレーションをオンライン環境と仮想的に見なすことで，オフライン強化学習の学習/評価手法の評価が可能に！ October 2021 Accelerating Offline RL Application @
RecSys2021論文読み会 9 アルゴリズムの適用アルゴリズムの評価..? ログデータシミュレーション

シミュレーションの活用方法利点 • 様々に実験条件を変化させて沢山実験できる．(safe) (comprehensive) • 同じシミュレータを使えば，他の研究者が再現可能．(reproducible) 欠点 • オンライン実験と比べると，人工的な設定に．(unrealistic)
豊富なシミュレーション実験 + 少量のオンライン実験と，役割分担が大切． October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 10

まとめ • オフライン強化学習では過去のデータを使って方策を学習/評価． • 評価実験を行うために方策をオンラインで動かしたいが，リスクの懸念が． • そこで，シミュレーションを使ってオフライン強化学習の評価フローを再現． • 様々な実験条件のシミュレーション環境を使えば，手法の利点/欠点を知れる．シミュレーションはオフライン強化学習の研究を促進！
October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 11

ありがとうございました！ October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 12

オフライン強化学習に興味ある方へ • 今日はお気持ちを話したので，もう少し技術的なことに興味ある方は，以下のスライドと記事も参考になるかもしれません．(拙作で恐縮ですが..) • 強化学習若手の会オフライン強化学習チュートリアル • ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する
• オフ方策評価(評価側の話)については，バンディット(強化学習の特殊ケース)の設定で齋藤さんが書かれている記事が分かりやすいです． • より発展的な内容に興味ある方は，論文やチュートリアルなどをまとめた awesome-offline-rl のレポジトリを見てみてください！ October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 13

Accelerating Offline RL Application in Real Tim...

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

Haruka Kiyohara

More Decks by Haruka Kiyohara

Other Decks in Research

Featured

Transcript

October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1 Accelerating

自己紹介 • 名前: 清原明加 (Haruka Kiyohara) • 所属: 東京工業大学

SimuRec workshop • 推薦システムにおけるシミュレーションの活用に関するworkshop． • ポジションペーパーを投稿し，みんなで今後のシミュレーションの方向性についてディスカッションを行う． • 8月中旬～現在まで mtg

ポジションペーパーテーマシミュレーションはオフライン学習やオフライン評価の研究を促進することができる？内容 • 強化学習とオフライン学習/評価 • 「オフライン学習/評価の手法」の評価をしたい •

広告入札で行っていること October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5

強化学習を使ってみたいが.. 1. 導入先のプラットフォーム上で新たに方策を学習する and / or 2. デプロイする方策の性能をA/Bテストで評価する必要 October 2021

シミュレーションの導入シミュレーションをオンライン環境と仮想的に見なすことで，オフライン強化学習の学習/評価手法の評価が可能に！ October 2021 Accelerating Offline RL Application @

ありがとうございました！ October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 12