Slide 1

Slide 1 text

ランダム⽋損データに依存しない 推薦システムのバイアス除去 野村 将寛 (Masahiro Nomura) CyberAgent AI Lab 07/02(Sat)@CFML勉強会 https://cfml.connpass.com/event/249531/ 1

Slide 2

Slide 2 text

名前: • 野村 将寛 所属: • CyberAgent AI Lab: Creative Research Team 研究: • ハイパーパラメータ最適化 • 進化計算 • ベイズ最適化 • 推薦システム • バンディット • ⾃然⾔語処理 2 ⾃⼰紹介

Slide 3

Slide 3 text

Towards Resolving Propensity Contradiction in Offline Recommender Learning Yuta Saito (Cornell) and Masahiro Nomura (CyberAgent) IJCAI’22 (Long Talk) Acceptance rate=15%, Long Talk (top 4% of submissions) 3

Slide 4

Slide 4 text

推薦システムは⾄るところで使われている Netflix, Spotify, Amazonなどのオンラインプラットフォームでは アルゴリズム的な推薦によりアイテムを⾃動的に推薦している 4 Spotify Netflix

Slide 5

Slide 5 text

協調フィルタリング ユーザのそれぞれのアイテムに対する選好を観測された評価から学習する 5 Users Matrix Factorization - 1 3 4 5 - - - 3 Items

Slide 6

Slide 6 text

真の評価分布と観測される評価分布のズレ 6 選択バイアス • 過去の推薦⽅法 • ユーザの選択⾏動 真の評価分布 (Marlin et al., UAIʼ07) Figure 2. Marlin, B., Zemel, R. S., Roweis, S., and Slaney, M. Collaborative filtering and the missing at random assumption. In UAI, 2007. 観測された評価分布

Slide 7

Slide 7 text

理想的な評価指標 ユーザ/アイテム対 が与えられたもとで, 7 局所損失 (⼆乗損失, 絶対値損失等) ⼀様なユーザ/アイテム分布のもとでの 経験平均

Slide 8

Slide 8 text

観測情報から理想的な損失をどう推定するか 8 観測から計算可能な損失 理想的な損失 ︖ 推定

Slide 9

Slide 9 text

ナイーブ推定量 9 観測データ上の局所損失の経験平均としてナイーブ推定量を定義 多くの推薦システムではこのナイーブ損失を最適化しようとしている 観測データ

Slide 10

Slide 10 text

ナイーブ推定量は”バイアス”されている 10 ナイーブ推定量の期待値は理想的な損失と⼀致しない バイアスが存在

Slide 11

Slide 11 text

逆傾向スコア (IPS) 推定量 11 IPS推定量は傾向スコアの逆数で重みづけることでバイアスを除去している 観測データ 傾向スコア

Slide 12

Slide 12 text

IPS推定量は”バイアス”されていない 12 IPS推定量は理想的な損失を期待値の点でうまく近似する バイアスなし IPSを使えばよい︖

Slide 13

Slide 13 text

傾向スコアの推定とその⽭盾 13 IPS推定量には傾向スコアの推定が必要 • しかし,真の傾向スコアは実⽤上⼿に⼊らない 既存研究では傾向スコアを⼗分に推定するため,真の分布からのランダムな (Missing-completely-at-random; MCAR) データを必要としている • 元々はMCARデータを使わずにうまく推定するのが⽬的だった • モチベーションと⽭盾することが起こっている

Slide 14

Slide 14 text

傾向スコアの推定とその⽭盾 14 IPS推定量には傾向スコアの推定が必要 • しかし,真の傾向スコアは実⽤上⼿に⼊らない 既存研究では傾向スコアを⼗分に推定するため,真の分布からのランダムな (Missing-completely-at-random; MCAR) データを必要としている • 元々はMCARデータを使わずにうまく推定するのが⽬的だった • モチベーションと⽭盾することが起こっている 傾向スコアに依存しない形で正確な評価予測器を学習することは可能だろうか︖

Slide 15

Slide 15 text

Propensity Matrix Divergenceの導⼊ 15 傾向スコアの代わりに,Propensity Matrix Divergenceを定義する MNARとMCAR⽋損メ カニズム間の違いを計測

Slide 16

Slide 16 text

理想的損失の理論的上界 16 PMDを使うことで,傾向スコアに依存しない理想的損失の上界を導出する With probability at least 1-δ: Propensity Matrix Divergence (PMD) ナイーブ損失 ラデマッハ複雑度

Slide 17

Slide 17 text

Domain Adversarial Matrix Factorization (DAMF) 17 理論的上界から⽰唆された損失を最⼩化する:

Slide 18

Slide 18 text

Domain Adversarial Matrix Factorization (DAMF) 18 PMDを経験的に近似する: 得られたR*を使って損失関数を最⼩化:

Slide 19

Slide 19 text

実験: データセット 19 真の分布と観測分布にズレのある2つのデータセットを使⽤ Yahoo! R3: ⾳楽の評価データセット(15400 users) Coat: ショッピングデータセット(300 users)

Slide 20

Slide 20 text

実験: ⽐較⼿法 ⾏列分解を以下の損失関数によって最適化: • ナイーブ損失 • IPS損失 [Schnabel et al.2016] • Doubly Robust(DR)損失 [Wang et al.2019] • CauseE [Bonner and Vasile.2018] • DAMF (our proposal) 20 傾向スコアが必要 MCARデータが必要& 理論的解釈が困難 傾向スコアは不必要 & 理論的妥当性を有する

Slide 21

Slide 21 text

実験: ⽐較⼿法 IPS損失とDR損失については,傾向スコアとして以下を使⽤: 21 真の傾向スコアを使った場合についても参考として報告

Slide 22

Slide 22 text

実験: 傾向スコアベースの⽅法の問題点 IPS/DRを⽤いた⽅法は,MCARデータが使えない場合には性能が低下 22 傾向スコアベース⼿法の問題を実験的に確認

Slide 23

Slide 23 text

実験: 予測の評価 DAMFは予測の評価において,現実的なベースラインより良い性能を⽰す 23

Slide 24

Slide 24 text

実験: ランキング性能 DAMFはランキング指標において,全てのベースラインより良い性能を⽰す 24

Slide 25

Slide 25 text

実験: 理論的上界 傾向スコアに独⽴な理論的上界は概ね適切に機能している 25

Slide 26

Slide 26 text

• 選択バイアス下における傾向スコアに依存した既存⼿法の問題点を指摘 • 適切な推定のためには実⽤上得ることの難しいMCARデータが必要 • 本研究: MNARデータのみから学習を⾏う推薦システムを構築する • 傾向スコアに依存しない汎化誤差バウンドを導出 • そのバウンドを最⼩化する⼿法を提案 • MNARデータのみの設定でも優れた性能を⽰すことを実験で確認 26 まとめ

Slide 27

Slide 27 text

Thank you for listening! 27