$30 off During Our Annual Pro Sale. View Details »

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

Accelerating Offline RL Application in Real Time Bidding and Recommendation: Potential Use of Simulation

arXiv: https://arxiv.org/abs/2109.08331

SimuRec WS @ RecSys2021
About WS: https://simurec.piret.info/

RecSys読み会2021
https://connpass.com/event/226873/

Haruka Kiyohara

October 23, 2021
Tweet

More Decks by Haruka Kiyohara

Other Decks in Research

Transcript

  1. October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 1
    Accelerating Offline Reinforcement Learning Application
    in Real-Time Bidding and Recommendation:
    Potential Use of Simulation
    Haruka Kiyohara1, Kosuke Kawakami12, Yuta Saito34
    1 Tokyo Institute of Technology, 2 negocia, Inc., 3 Hanjuku-Kaso Co., Ltd., 4 Cornell University
    清原 明加 (@aiueola_)
    https://sites.google.com/view/harukakiyohara
    1

    View Slide

  2. 自己紹介
    • 名前: 清原 明加 (Haruka Kiyohara)
    • 所属: 東京工業大学 経営工学系 B4
    • 興味: 強化学習 / オフ方策評価 / 推薦 / 広告
    • 最近の活動:
    • インターン @ negocia, 半熟仮想, Yahoo Japan! 研究所
    • WSDM (主著), RecSys (共著)
    • awesome-offline-rl
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 2
    @aiueola_

    View Slide

  3. SimuRec workshop
    • 推薦システムにおけるシミュレーションの活用に関するworkshop.
    • ポジションペーパーを投稿し,みんなで今後のシミュレーションの
    方向性についてディスカッションを行う.
    • 8月中旬~現在まで mtg + slack上でやり取りが続いていて,
    最終的には全体で一本のサーベイ論文(?)を書き上げることが目標.
    (有名なシミュレーションを作った人と協働できる)
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 3
    https://simurec.piret.info/

    View Slide

  4. ポジションペーパー
    テーマ
    シミュレーションはオフライン学習やオフライン評価の研究を
    促進することができる?
    内容
    • 強化学習とオフライン学習/評価
    • 「オフライン学習/評価の手法」の評価をしたい
    • シミュレーションは評価実験にどう活用できる?
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 4
    negociaで書いた論文

    View Slide

  5. 広告入札で行っていること
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 5
    ①オークション情報/残り予算(状態)
    ③クリック(報酬)
    ②入札額(行動)
    意思決定方策 プラットフォーム(環境)
    ※ 実際はちょっと違うが,イメージとしてはこんな感じ
    強化学習により環境とインテラクションしながら学習できる!
    (長期的な視点で)クリック数を最大化する方策を獲得したい.

    View Slide

  6. 強化学習を使ってみたいが..
    1. 導入先のプラットフォーム上で新たに方策を学習する
    and / or
    2. デプロイする方策の性能をA/Bテストで評価する必要
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 6
    しかし,学習や評価の過程で方策が非最適な行動をしてしまう懸念
    = 売上やクライアントの満足への損害に繋がってしまうかも..

    View Slide

  7. オフライン強化学習
    過去に集めたログデータを使い,オフラインで方策学習や評価を行う.
    1. ログデータから新たな方策を学習.
    2. (別の)ログデータを使って,新たな方策の性能をオフライン評価.
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 7
    オフライン強化学習に期待!

    View Slide

  8. オフライン強化学習の実験
    実験で知りたいこと
    • ログデータから学習した方策がオンラインでどのような性能になるのか?
    • オフラインでの方策の性能推定は,どれくらい正確なのか?
    これらを知るためには,オンラインで方策を動かす必要がある..!
    (しかし,リスクが大きいのでしたくない..)
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 8
    アルゴリズムの適用 アルゴリズムの評価..?

    View Slide

  9. シミュレーションの導入
    シミュレーションをオンライン環境と仮想的に見なすことで,
    オフライン強化学習の学習/評価手法の評価が可能に!
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 9
    アルゴリズムの適用 アルゴリズムの評価..?
    ログデータ
    シミュレーション

    View Slide

  10. シミュレーションの活用方法
    利点
    • 様々に実験条件を変化させて沢山実験できる.(safe) (comprehensive)
    • 同じシミュレータを使えば,他の研究者が再現可能.(reproducible)
    欠点
    • オンライン実験と比べると,人工的な設定に.(unrealistic)
    豊富なシミュレーション実験 + 少量のオンライン実験と,役割分担が大切.
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 10

    View Slide

  11. まとめ
    • オフライン強化学習では過去のデータを使って方策を学習/評価.
    • 評価実験を行うために方策をオンラインで動かしたいが,リスクの懸念が.
    • そこで,シミュレーションを使ってオフライン強化学習の評価フローを再現.
    • 様々な実験条件のシミュレーション環境を使えば,手法の利点/欠点を知れる.
    シミュレーションはオフライン強化学習の研究を促進!
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 11

    View Slide

  12. ありがとうございました!
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 12

    View Slide

  13. オフライン強化学習に興味ある方へ
    • 今日はお気持ちを話したので,もう少し技術的なことに興味ある方は,
    以下のスライドと記事も参考になるかもしれません.(拙作で恐縮ですが..)
    • 強化学習若手の会 オフライン強化学習チュートリアル
    • ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する
    • オフ方策評価(評価側の話)については,バンディット(強化学習の特殊ケース)の
    設定で齋藤さんが書かれている記事が分かりやすいです.
    • より発展的な内容に興味ある方は,論文やチュートリアルなどをまとめた
    awesome-offline-rl のレポジトリを見てみてください!
    October 2021 Accelerating Offline RL Application @ RecSys2021論文読み会 13

    View Slide