Upgrade to Pro — share decks privately, control downloads, hide ads and more …

REVEAL Workshopの紹介

usaito
October 05, 2019

REVEAL Workshopの紹介

ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), Copenhagen, Denmark, Sep. 20, 2019.

https://sites.google.com/view/reveal2019/home

usaito

October 05, 2019
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. Outline • Workshopの概要 • Metrics, Engagement, and Recommenders (Invited Talk)

    • Marginal Posterior Sampling for Slate Bandit (Oral Presentation) • Posterから2つの論⽂を軽く紹介 (Poster Presentation) • RecoGym Challenge (Competition) • 類似Workshopの紹介 (NeurIPSʼ19)
  2. そもそもRecSysの⽇程・構成って︖ • Main Conference: 9⽉16⽇ ~ 9⽉18⽇ ◦ long・short paperのoral

    presentationやposter presentation ◦ Industry sessionやPanel discussion • Tutorial: 9⽉19⽇午前 ◦ 推薦におけるバンディットやグラフ等の話 • Workshop: 9⽉19⽇午後 ~ 9⽉20⽇ ◦ 9⽉19⽇の午後にhalf-day workshop ◦ 9⽉20⽇は基本的にfull-day workshop ◦ 今回紹介するREVEALは学会最終⽇のfull-day workshop
  3. REVEAL Workshop 概要 • 推薦システムに潜在するバイアスの存在の指摘やその除去⽅法、 バンディット・強化学習との関連に特化したWorkshop • organizersやtalkersがall-star級に豪華 • 2018年に続いて2回⽬の開催

    • 4 invited talks + 7 oral presentations + 23 poster presentations • CAからはADEcon Teamが2本のポスター発表 (⾃分のやつ、Yale⼤学成⽥先⽣との共同研究) • その他Criteoから5本, Google・Netflixから2本. ⽇本からは富⼠通の今井さん
  4. Metrics, Engagement and Recommenders (Invited Talk) 概要 • onlineのuser engagementを測定するための

    指標(metric)として何が適しているかについて議論(本当にclickでいいの︖) • 例えば, clickよりもそのpageやappでどれくらいの時間を消費したか (dwell time)で 最適化した⽅が, 結果的にCTRの改善につながるなど, spotifyの事例を交えて紹介 • 関連する本会議論⽂. clickのあとの⾏動によってlabelを定義して学習. ( Leveraging Post-click Feedback for Content Recommendations )
  5. Metrics, Engagement and Recommenders (Invited Talk) Deriving User- and Content-specific

    Rewards for Contextual Bandit (WWWʼ19) • spotifyのplaylist recommendationにおける報酬の定義をどうすべきか︖ baselineは閾値を決めてのbinalize bandit policy
  6. Metrics, Engagement and Recommenders (Invited Talk) • しかしstreaming timeの分布はuserやplaylistの性質によって⼤きく異なる sleep

    playlist (緑) のstream timeが⻑い jazz listener (緑) のstream timeが⻑い Deriving User- and Content-specific Rewards for Contextual Bandit (WWWʼ19)
  7. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 概要 •

    複数のarmの組み合わせに対して1つのrewardが与えられる slate的な状況における新たなbanditアルゴリズムを提案 • 通常のバンディットよりも応⽤場⾯が多そうな問題設定 • 提案⼿法は既存のbaselineの精度と共に意思決定にかかる時間を改善 • long versionは, IJCAI19にfull paperとして採択済み
  8. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 研究の背景 •

    click確率を最⼤化する各slot配置の 組み合わせ(slate)の最適解は︖ • action数が組み合わせの数 だけあり学習の効率化が難 • 既存⼿法は、学習が⾮効率的で cold-startに対応できなかったり rewardに対する仮定がきつかったりした
  9. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 既存⼿法1: K-armed

    Bernoulli Bandit • 最も単純な⽅法. 1つのSlateを1つのactionと⾒て Tompson Samplingに当てはめる • 選択肢が⼀部被っている他のSlateの試⾏情報を 取り⼊れることができず, 学習が遅い • Slateの数だけパラメータをサンプリングする 必要がありarm選択に時間がかかる
  10. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 既存⼿法2: Generalized

    Linear Bandit • 各slotがrewardに対して線形に貢献しているという 仮定に基づいたバンディットモデル • 選択肢が⼀部被っている他のSlateの試⾏情報は モデルパラメータの学習を通して取り⼊れる • Rewardのモデルが線形というのは強い仮定 • Slateの数だけパラメータをサンプリングする 必要がありarm選択に時間がかかる
  11. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 提案⼿法: Marginal

    Posterior Sampling • 前述の課題を解決したTompson Sampling -basedのアルゴリズム • Arm選択をslateごとではなくslotごとに⾏う • rewardの発⽣過程に対する緩い仮定に基づく • 別のslateの情報もうまい具合に活⽤ • パラメータサンプリングの回数が少なく済むため arm選択にかかる時間も短縮
  12. Marginal Posterior Sampling for Slate Bandit (Oral Presentation) 提案⼿法: Marginal

    Posterior Sampling • Slateバンディットの状況を模倣した⼈⼯データでの実験において 累積報酬とarmの選択にかかる時間でBaselinesを上回る 選択肢の数が多い場合に提案⼿法が特に強い 10-70倍の⾼速化
  13. How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? (Poster)

    概要 • ItemのpopularityがRecommenderのoffline評価に与える影響を評価 • Popularityの層別によって性能の順位が変わるという事実を指摘 ◦ Itemの全て使った時はBPRなどのPairwise algorithmが良い性能 ◦ ⼀⽅で、test dataをrare itemのみに絞った場合はPointwiseのMFが強かったり • ⾃分の隣でポスター発表をしていてだいぶ⼈を持って⾏かれた。。。 Popularityの違い
  14. How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? (Poster)

    全itemに対する推薦精度はPairwiseの⽅が強い (⼀般にそう⾔われているはず) ただしtestをrare itemに絞っていくと 徐々にMFが優勢に
  15. 概要 • コンペ期間は10/01 – 11/30で 優勝賞⾦3,000ユーロ(約35万円) • criteoが実装したRecoGymを⽤いる • 強化学習で推薦すべきアイテムを決め,

    CTRで競う • 与えられるデータは何れかのpolicyで集められたデータなので バイアスがあり, それをいかにして取り除くかが鍵(なっているはず) RecoGym Challenge (Competition)
  16. 類似のWorkshopの紹介 Causal Machine Learning Workshop @NeurIPSʼ19 • 因果推論やバンディットに関する話題 • NeurIPSでは実は2017年から3年連続の開催

    • 毎回1年後のICMLやNeurIPSにfull paper論⽂の short versionが多く採択されている印象 • REVEALよりはちょっと理論寄り • 超豪華なInvited Speakers (今年はSusan Atheyとか) • ここでも発表してきます︕
  17. Reference • REVEAL Workshop 2019: https://sites.google.com/view/reveal2019/home • RecoGeym Challenge: https://sites.google.com/view/recogymchallenge/home

    • Metrics, Engagement & “Recommenders”. Mounia Lalmas. : https://www.slideshare.net/mounialalmas/engagement- metrics-and-recommenders • Marginal Posterior Sampling for the Slate Bandits. Maria Dimakopoulou, Nikos Vlassis, and Tony Jebara. In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI), 2019. • Deriving User- and Content- specific Rewards for Contextual Bandits. Paolo Dragone, Rishabh Mehrotra, and Mounia Lalmas. In Proceedings of the International World Wide Web Conference (WWW), 2019. • How Sensitive is Recommendation Systemʼs Offline Evaluation to Popularity? Amir H Jadidinejad, Craig Macdonald, and Iadh Ounis. ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), 2019. • Counterfactual Cross-Validation. Yuta Saito and Shota Yasui. ACM RecSys Workshop on Reinforcement and Robust Estimators for Recommendation (REVEAL), 2019.