Slide 1

Slide 1 text

October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1 Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation Haruka Kiyohara1, Kosuke Kawakami12, Yuta Saito34 1 Tokyo Institute of Technology, 2 negocia, Inc., 3 Hanjuku-Kaso Co., Ltd., 4 Cornell University 清原 明加 (@aiueola_) https://sites.google.com/view/harukakiyohara 1

Slide 2

Slide 2 text

自己紹介 • 名前: 清原 明加 (Haruka Kiyohara) • 所属: 東京工業大学 経営工学系 B4 • 興味: 強化学習 / オフ方策評価 / 推薦 / 広告 • 最近の活動: • インターン @ negocia, 半熟仮想, Yahoo Japan! 研究所 • WSDM (主著), RecSys (共著) • awesome-offline-rl October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 2 @aiueola_

Slide 3

Slide 3 text

SimuRec workshop • 推薦システムにおけるシミュレーションの活用に関するworkshop. • ポジションペーパーを投稿し,みんなで今後のシミュレーションの 方向性についてディスカッションを行う. • 8月中旬~現在まで mtg + slack上でやり取りが続いていて, 最終的には全体で一本のサーベイ論文(?)を書き上げることが目標. (有名なシミュレーションを作った人と協働できる) October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 3 https://simurec.piret.info/

Slide 4

Slide 4 text

ポジションペーパー テーマ シミュレーションはオフライン学習やオフライン評価の研究を 促進することができる? 内容 • 強化学習とオフライン学習/評価 • 「オフライン学習/評価の手法」の評価をしたい • シミュレーションは評価実験にどう活用できる? October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 4 negociaで書いた論文

Slide 5

Slide 5 text

広告入札で行っていること October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5 ①オークション情報/残り予算(状態) ③クリック(報酬) ②入札額(行動) 意思決定方策 プラットフォーム(環境) ※ 実際はちょっと違うが,イメージとしてはこんな感じ 強化学習により環境とインテラクションしながら学習できる! (長期的な視点で)クリック数を最大化する方策を獲得したい.

Slide 6

Slide 6 text

強化学習を使ってみたいが.. 1. 導入先のプラットフォーム上で新たに方策を学習する and / or 2. デプロイする方策の性能をA/Bテストで評価する必要 October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 6 しかし,学習や評価の過程で方策が非最適な行動をしてしまう懸念 = 売上やクライアントの満足への損害に繋がってしまうかも..

Slide 7

Slide 7 text

オフライン強化学習 過去に集めたログデータを使い,オフラインで方策学習や評価を行う. 1. ログデータから新たな方策を学習. 2. (別の)ログデータを使って,新たな方策の性能をオフライン評価. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 7 オフライン強化学習に期待!

Slide 8

Slide 8 text

オフライン強化学習の実験 実験で知りたいこと • ログデータから学習した方策がオンラインでどのような性能になるのか? • オフラインでの方策の性能推定は,どれくらい正確なのか? これらを知るためには,オンラインで方策を動かす必要がある..! (しかし,リスクが大きいのでしたくない..) October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 8 アルゴリズムの適用 アルゴリズムの評価..?

Slide 9

Slide 9 text

シミュレーションの導入 シミュレーションをオンライン環境と仮想的に見なすことで, オフライン強化学習の学習/評価手法の評価が可能に! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 9 アルゴリズムの適用 アルゴリズムの評価..? ログデータ シミュレーション

Slide 10

Slide 10 text

シミュレーションの活用方法 利点 • 様々に実験条件を変化させて沢山実験できる.(safe) (comprehensive) • 同じシミュレータを使えば,他の研究者が再現可能.(reproducible) 欠点 • オンライン実験と比べると,人工的な設定に.(unrealistic) 豊富なシミュレーション実験 + 少量のオンライン実験と,役割分担が大切. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 10

Slide 11

Slide 11 text

まとめ • オフライン強化学習では過去のデータを使って方策を学習/評価. • 評価実験を行うために方策をオンラインで動かしたいが,リスクの懸念が. • そこで,シミュレーションを使ってオフライン強化学習の評価フローを再現. • 様々な実験条件のシミュレーション環境を使えば,手法の利点/欠点を知れる. シミュレーションはオフライン強化学習の研究を促進! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 11

Slide 12

Slide 12 text

ありがとうございました! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 12

Slide 13

Slide 13 text

オフライン強化学習に興味ある方へ • 今日はお気持ちを話したので,もう少し技術的なことに興味ある方は, 以下のスライドと記事も参考になるかもしれません.(拙作で恐縮ですが..) • 強化学習若手の会 オフライン強化学習チュートリアル • ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する • オフ方策評価(評価側の話)については,バンディット(強化学習の特殊ケース)の 設定で齋藤さんが書かれている記事が分かりやすいです. • より発展的な内容に興味ある方は,論文やチュートリアルなどをまとめた awesome-offline-rl のレポジトリを見てみてください! October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 13