Unbiased Recommender Learning from Biased Implicit Feedback

6e166ed0b8cf24a9d5aef105dacf5db7?s=47 usaito
December 23, 2019

Unbiased Recommender Learning from Biased Implicit Feedback

CFML勉強会#4 (https://cfml.connpass.com/event/155167/) で使用した発表資料

発表内容: ユーザー体験を高める推薦を達成するために、推薦システムの学習や評価におけるバイアスの除去手法が盛んに議論され始めています。 この発表では主にimplicit feedbackに基づく推薦システムの学習に際して発生する問題をexplicit feedbackの場合と比較しながら整理します。特にExposure Modelというシンプルなfeedback発生モデルに基づき既存手法を複数の視点から解釈し直します。また既存研究が解決しきれていない問題に取り組んだ私自身の研究についても簡単に紹介します。

6e166ed0b8cf24a9d5aef105dacf5db7?s=128

usaito

December 23, 2019
Tweet

Transcript

  1. Unbiased Recommender Learning from Biased Implicit Feedback CFML勉強会#4(公開版資料) 19/12/23 (Mon)

    齋藤 優太
  2. 自己紹介 • 所属 ◦ 東京工業大学 経営工学系 B4 ◦ CyberAgent, Inc.,

    AI Lab. ADEcon Team (Research Intern) ◦ ZOZO Technologies (Research Intern) ◦ Jinch Co., Ltd. (Work with Yusuke Narita) • 興味 ◦ Counterfactual Machine Learning ◦ Information Retrieval • 研究実績 ◦ Full paper x 3 (SDM’19, SDM’20, WSDM’20) ◦ Workshop x 4 (RecSys’19, NeurIPS’19) usaito Website: usaito.github.io Twitter: @moshumoshu1205 北海道根室市出身
  3. イントロダクション

  4. 推薦システム バイアス除去関連 盛り上がり 推薦システム オフライン評価
 オフライン学習アルゴリズム
 情報検索・推薦系 Top Conferenceで高く評価

  5. 推薦システム バイアス除去関連 盛り上がり 推薦周り 5つ トレンド 一つ Recent Trend in

    Personalization A Netflix Perspective @ ICML’19 Artwork Personalization at Netflix 推薦 バンディット オフライン評価
  6. Why Implicit Feedback? • 先 例などExplicit Feedback バイアス除去 研究が蓄積されつつある ◦

    CFML勉強会#1でもExplicit Feedbackを用いた時 バイアス除去 話をした • しかし現実的に活用可能なデータ ほとんど Implicit Feedback • にも関わらず不偏推定アプローチ 2019年時点で皆無・・・ つまり、 • かなり実用的な問題設定でインパクトが大きそう • 未だきちんと解かれた例 なし • Matrix Factorization 実装でほぼ十分
  7. 今日 流れ • Implicit Feedback 定式化 ◦ ExplicitとImplicit Feedback 概念的・定式化的な違い

    ◦ Exposure Model (Liang et al., WWW’16) によるImplicit Feedback 定式化 • 既存手法 紹介 ◦ Weighted Matrix Factorization (Hu et al., ICDM’08) ◦ Bayesian Personalized Ranking (Rendle et al., UAI’09) ◦ Exposure Matrix Factorization (Liang et al., WWW’16) • Unbiased Recommender Learning ◦ Relevance Matrix Factorization (Saito et al., WSDM’20) ◦ Unbiased Bayesian Personalized Ranking (Saito, NeurIPS’19 CausaML WS)
  8. Implicit Feedback 定式化

  9. 推薦システム 目的 それぞれ Userに対し関連性(R) があるItemを推薦したい 例)あるUserに対して3つ Itemをレコメンドするとき (Top-3推薦) 推薦有無 Recommender

    1 Recommender 2 有 R=1 R=0 有 R=1 R=1 有 R=1 R=0 ーーー ーーー ーーー 無 R=0 R=1 無 R=0 R=1 Recommender 1 ように RelevantなItemをTop-Kリストに入れたい • User-Itemペア Relevanceを予測 • Relevance 順位を正確に並べる ことが重要
  10. 理想的な損失関数 (Pointwise) Pointwise Loss 最も単純な損失 設計方法でRelevanceを点予測する Relevanceに対して最適化したい で損失 Relevanceを用いて定義されるべき 例え

    以下 ような関数を用いるとbinary cross-entropy lossとなる user-item relevanceを表す2値変数
  11. 理想的な損失関数 (Pairwise) Top-Kリストを作るにあたってRelevanceを知っている必要 必ずしもない よってアイテムを双対比較するPairwise Lossもよく用いられる 選好順序がついている データ 予測スコア 差に

    対して損失を換算
  12. 安価に手に入るImplicit Feedback 理想的な損失関数を計算するために Relevance情報が必要不可欠 しかし、Relevance 情報 なかなか手に入らない(annotationが必要) 一方で、Click (Implicit Feedback)

    情報 安価に大量に手に入る Implicit Feedbackを使って良いレコメンドを達成したいという Tech企業でよくあるモチベーション(な ず) をImplicit Feedbackとする (e.g., click有無, 閲覧有無) • user 自然な行動履歴 • 能動的に好き嫌いを表したも で ない • 多く 実サービスで安価に手に入る情報
  13. 観測されるFeedbackをそ まま突っ込んで良い か? Implicit Feedbackをそ ままRelevance 代わりに用いることで ナイーブに 次 ような損失関数を考えられそう...

    だけどこれで良いんだっけ? ナイーブ pointwise ナイーブ pairwise Rel 部分をClickにそ まま入れ替えて大丈夫?
  14. Implicit Feedback ≠ Relevance 例)あるUserにMost Popular基準によるTop-2推薦をした場合 アイテム 人気順位 推薦有無 Relvance

    (R) ??? Click (Y) 1 有 R=1 Y=1 2 有 R=0 Y=0 ーーー ーーー ーーー ーーー ーーー 100 無 R=1 Y=0 500 無 R=1 Y=0 1000 無 R=0 Y=0 Relevance = Click (implicit feedback) と 言えなさそう... 損失設計において 特別な対処が必要 Spotify ホーム画面
  15. Exposure Model 導入 (Liang et al., WWW’16) RelevanceとClick 間に次 関係を仮定する

    User-Itemに関連性がありかつItemがUserに暴露されていれ Interactionが発生 (そして, Interactionが発生する そ 時 み) Interaction (Click) 有無 Exposure (暴露・認知) 有無 Relevance (関連性) 有無
  16. Exposure Model 導入 (Liang et al., WWW’16) RelevanceとClick 間に次 関係を仮定する

    Click確率 , Exposure確率とRelevance度合い 積に分解される (未観測交絡因子 存在しない, と同等)
  17. Implicit Feedback ≠ Relevance 例)あるUserにMost Popular基準によるTop-2推薦をした場合 アイテム 人気順位 推薦有無 Relvance

    (R) Exposure (O) Click (Y) 1 有 R=1 O=1 Y=1 2 有 R=0 O=1 Y=0 ーーー ーーー ーーー ーーー ーーー 100 無 R=1 O=0 Y=0 500 無 R=1 O=0 Y=0 1000 無 R=0 O=0 Y=0 実 Exposure変数を入れると 綺麗に説明がつく Click情報 みを使って Relevanceを当てる問題 2つ 大きな困難が存在
  18. Positive-Unlabeled Problem Implicit Feedbackを扱うために対処すべき問題点をExposure Modelから説明 まずImplicit Feedbackに固有 問題としてPositive-Unlabeled Problemがある つまり、Clickが観測されなかった場合

    (Y=0)、それが気づかれなかったから(O=0)な か興味がなかったから(R=0)な かがわからない そ ため、Y=0 Negativeで なくUnlabeled Feedbackである
  19. Missing-Not-At-Random Problem Implicit Feedbackを扱うために対処すべき問題点をExposure Modelから説明 またExplicit Feedback 場合にも発生するMissing-Not-At-Random Problem すなわち、Relevantなペア

    Clickがちゃんと観測される確率 ここ 通常一様で なく、PopularなItem Clickが観測されやすかったりする
  20. Missing-Not-At-Random Problem Implicit Feedbackを扱うために対処すべき問題点をExposure Modelから説明 またExplicit Feedback 場合にも発生するMissing-Not-At-Random Problem すなわち、Relevantなペア

    Clickがちゃんと観測される確率 ここ 通常一様で なく、PopularなItem Clickが観測されやすかったりする Yang et al. (2018)
  21. Implicit Feedback問題 視覚的解釈 Implicit Feedback 問題設定を視覚的に理解してみる exposure probability relevance level

    高Expo x 高Rel 低Expo x 高Rel 高Expo x 低Rel 低Expo x 低Rel Exposure model
  22. Implicit Feedback問題 視覚的解釈 Implicit Feedback 問題設定を視覚的に理解してみる exposure probability relevance level

    高Expo x 高Rel 低Expo x 高Rel 高Expo x 低Rel 低Expo x 低Rel Exposure model Implicit Feedbackにおいて 正例として観測される部分 ナイーブにYを予測するモデル ここを識別境界とする
  23. Implicit Feedback問題 視覚的解釈 Implicit Feedback 問題設定を視覚的に理解してみる exposure probability relevance level

    高Expo x 高Rel 低Expo x 高Rel 高Expo x 低Rel 低Expo x 低Rel Exposure model 本当 正例として見なしたい部分 低Expo x 高Relを抽出するに ど lossを最適化すれ 良いか?
  24. 既存手法 紹介と整理

  25. Weighted Matrix Factorization (WMF) • WMF (Hu et al., ICDM’08)

    , Implicit Feedbackにおける最もベーシックな手法 • WMF Ideal Pointwise Lossに対する次 推定量を最適化する • Clickが発生しているデータ (Y=1) を一様に定数c (>= 1) で重み付け • Clickが発生していれ 必ずRelevantだから?
  26. Bayesian Personalized Ranking (BPR) • BPR (Rendle et al., UAI’09)

    最もベーシックなPairwise手法 • BPR Ideal Pairwise Lossに対する次 推定量を最適化する • Clickデータ (Y=1)を正例、Unclickデータ (Y=0)を単に負例として扱う • もちろんY=0 なかにもRel=1が含まれるため Positive-Unlabeled問題に取り組めていない 解説ブログ記事
  27. MF・BPR Estimator 視覚的解釈 exposure probability relevance level Exposure model MF・BPR

    正例 MF・BPR 負例 高Expo x 高Relデータ みを 正例として扱う Positive-Unlabeled 問題 に取り組めていない
  28. Exposure Matrix Factorization (ExpoMF) • ExpoMF (Liang et al., WWW’16)

    , Positive-Unlabeled 問題に取り組んだ • ExpoMF Ideal Pointwise Lossに対する次 推定量を最適化する • 各データをPosterior Exposure Probabilityで重み付け • Expo = 1なら , Click = Relだから 解説ブログ記事
  29. ExpoMF Estimator 視覚的解釈 exposure probability relevance level Exposure model Missing-Not-At-Random

    問題 に取り組めていない ExpoMF 正例 ExpoMF 負例 ExpoMFが無視する領域 (正例でも負例でもない ) ExpoMF 高Expo x 高Relを正例 高Expo x 低Relを負例として扱うが低 Expoデータ 一様に扱う
  30. 提案手法 紹介と整理

  31. Relevance Matrix Factorization (Rel-MF) • Rel-MF (Saito et al., WSDM’20)

    初めてUnbiasedな推定量を採用 • Rel-MF Ideal Pointwise Lossに対する次 推定量を最適化する • Click発生有無 indicatorをExpo確率 逆数で重み付ける (低Expoに大きな重み) • Exposure indicatorであるOが推定量に現れないため Explicit とき Inverse Propensity Score (IPS)と 異なる推定量
  32. Relevance Matrix Factorization (Rel-MF) • Rel-MF (Saito et al., WSDM’20)

    初めてUnbiasedな推定量を採用 • Rel-MF Ideal Pointwise Lossに対する次 推定量を最適化する • Clickデータに対してpositive lossとnegative loss 両方を適用 • Unclickデータに対して negative lossをそ まま適用 click発生データに対する loss click未発生データに対する loss
  33. Relevance Matrix Factorization (Rel-MF) • Rel-MF (Saito et al., WSDM’20)

    初めてUnbiasedな推定量を採用 • Rel-MF Ideal Pointwise Lossに対する次 推定量を最適化する • Rel-MF 推定量 Ideal Pointwise Lossに対して不偏性を持つ
  34. Unbiased Bayesian Personalized Ranking (UBPR) • UBPR (Saito, NeurIPS’19 CausalML

    WS) Rel-MF 推定量をpairへ拡張 • UBPR Ideal Pairwise Lossに対する次 推定量を最適化する • 2つ アイテムに対してClick発生有無 indicatorを Expo確率 逆数で重み付ける (低Expoに大きな重み)
  35. Unbiased Bayesian Personalized Ranking (UBPR) • UBPR (Saito, NeurIPS’19 CausalML

    WS) Rel-MF 推定量をpairへ拡張 • UBPR Ideal Pairwise Lossに対する次 推定量を最適化する • ナイーブなBPR click発生アイテム (Y=1)と未発生アイテム(Y=0)を比べていた • UBPR click発生アイテム同士 ペア比較も損失に加算される (よってデータサンプリング方法がnaive BPRと異なる) click発生アイテム click未発生アイテム
  36. Unbiased Bayesian Personalized Ranking (UBPR) • UBPR (Saito, NeurIPS’19 CausalML

    WS) Rel-MF 推定量をpairへ拡張 • UBPR Ideal Pairwise Lossに対する次 推定量を最適化する • UBPR 推定量 Ideal Pairwise Lossに対して不偏性を持つ click発生アイテム click未発生アイテム
  37. Unbiased Estimators 視覚的解釈 exposure probability relevance level Exposure model Positive-Unlabeled

    問題・ Missing-Not-At-Random 問題 両方に取り組めている ず! Rel-MF・UBPR 正例 Rel-MF・UBPR 負例 Expo確率 逆数で重み付ける で 低Expoデータも判別可能に
  38. 既存・提案手法 まとめ Approach Technique Unbiased? WMF Pointwise Naive NO BPR

    Pairwise Naive NO ExpoMF Pointwise EM Algorithm NO Rel-MF (proposed) Pointwise Propensity Weighting YES UBPR (proposed) Pairwise Propensity Weighting YES ここまでに登場した5つ 手法を3つ 観点からざっと整理
  39. (余談)Exposure確率 推定方法 実 論文で 特に議論していないが次 方法を転用できそう • 単純なItem Popularity (Yang

    et al., RecSys’18) [解説ブログ記事] • EM-Algorithm (Liang et al., WWW’16) • Regression-EM (Wang et al., WSDM’18) • Dual Learning Algorithm (Ai et al., SIGIR’18) *実験で とりあえず楽で既存研究 (Yang et al., RecSys’18)でうまくいっているitem popularityを使用 **ベーシックなレコメン 設定だと user-item implicit feedback matrix みが与えられる で Exposure確率 推定 無理ゲーに近い Exposure model
  40. (余談)Exposure確率 推定方法 例え 同じimplicit feedback バイアス除去が主題 Unbiased Learning-to-Rank で ランキング構造を利用したモデルを仮定する

    Search Engine exposure (examination) positionに大きく依存 Exposure model (行列 存在 み) Exposure model (明らかなposition bias 仮定下) 妥当そうな仮定によりパラメータ数が大幅に減少
  41. On-going & Future work • と いうも 、(fully) implicit feedback

    観測できる情報が少なすぎて 現状実用レベルに なさそうという が個人的な印象 (実際 weight clippingやnon-negative lossなど practicalなテクを使っている) • ただし実務上、(fully) implicit feedback 問題を解かなけれ ならない 場面 実 そんなに多くない • 現在 implicit feedbackと同じくらいたくさん収集できるがより簡単に 活用できるfeedback型に着目した手法を開発中 (実用的に こ あたり 手法 方を参照していただく が良いかと )
  42. まとめ • Explicit Feedback Relevanceが直接観測される で、そ 観測確率が一様で ないというMNAR問題を排除することが目標(CFML勉強会#1 資料) •

    一方でImplicit Feedback MNAR問題に加えてPU問題も解く必要がある • 既存研究 どれも最適化したい ず 損失に対してbiasがあった で PointwiseとPairwise 両方でUnbiasedな損失関数を提案してみた ご静聴ありがとうございました!
  43. References (Liang et al., WWW’16): Dawen Liang, Laurent Charlin, James

    McInerney, and David M Blei. 2016. Modeling user exposure in recommendation. In Proceedings of the 25th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 951–961. (Saito et al., WSDM’20): Yuta Saito, Suguru Yaginuma, Yuta Nishino, Hayato Sakata, and Kazuhide Nakata. 2020. Unbiased Recommender Learning from Missing-Not-At-Random Implicit Feedback. In The Thirteenth ACM International Conference on Web Search and Data Mining (WSDM’20), February 3–7, 2020, Houston, TX, USA. ACM, New York, NY, USA. (Saito, NeurIPS’19 CausalML WS): Yuta Saito. 2019. Unbiased Pairwise Learning from Implicit Feedback. (Saito et al., NeurIPS’19 CausalML WS): Yuta Saito, Gota Morishita, and Shota Yasui. 2019. Dual Learning Algorithm for Delayed Feedback in Display Advertising. (Hu et al., ICDM’08): Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative filtering for implicit feedback datasets. In 2008 Eighth IEEE International Conference on Data Mining. Ieee, 263–272. (Schnabel et al., ICML’16) : Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, and Thorsten Joachims. 2016. Recommendations as Treatments: Debiasing Learning and Evaluation. In International Conference on Machine Learning. 1670–1679 (Rendle et al., UAI’09) : Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. In Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 452–461.
  44. References (Yang et al., RecSys’18): Longqi Yang, Yin Cui, Yuan

    Xuan, Chenyang Wang, Serge Belongie, and Deborah Estrin. 2018. Unbiased offline recommender evaluation for missing-not-atrandom implicit feedback. In Proceedings of RecSys ’18. ACM, 279–287. (Wang et al., WSDM’18): Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias Estimation for Unbiased Learning to Rank in Personal Search. In Proc. of the 11th ACM International Conference on Web Search and Data Mining (WSDM). 610–618. (Ai et al., SIGIR’18): Qingyao Ai, Keping Bi, Cheng Luo, Jiafeng Guo, and W Bruce Croft. 2018. Unbiased Learning to Rank with Unbiased Propensity Estimation. In Proc. of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (SIGIR). 385–394. (Marlin et al., RecSys’09): Benjamin M Marlin and Richard S Zemel. 2009. Collaborative prediction and ranking with non-random missing data. (Bonner et al., RecSys’18): Causal Embeddings for Recommendation. In Proceedings of the 12th ACM Conference on Recommender Systems (RecSys ’18). ACM, New York, NY, USA, 104–112. (Wang et al., ICML’19): Xiaojie Wang, Rui Zhang, Yu Sun, and Jianzhong Qi. 2019. Doubly robust joint learning for recommendation on data missing not at random. In International Conference on Machine Learning, pages 6638–6647. (Liang et al., UAI’16 Causal WS): Dawen Liang, Laurent Charlin, and David M Blei. 2016. In Causation: Foundation to Application, Workshop at UAI.