[論文紹介]Content-based recommendations with Poisson Factorization

Slide 1

Slide 1 text

[論文紹介] Content-‐based recommenda1ons with Poisson factoriza1on Prem Gopalan,Laurent Charlin, David M. Blei (Princeton University) NIPS2015 Yoshifumi Seki (Gunosy Inc) 2015.01.20 @NIPS読み会

Slide 2

Slide 2 text

概要 •  ユーザの購読履歴と文書情報から文書を推薦する手法 •  LDAの開祖であるBlei先生のグループ •  Poisson Factoriza1onとCollabora1ve topic regressionを組み合わせた手法 –  両方ともBlei先生のグループによる –  前者はCFの次元圧縮，後者は文書情報とユーザアイテム行列の最適化 •  過去の手法を上回る結果を残した –  arXiv全体のデータセットによる実験 –  購読情報(implicit feedback)

Slide 3

Slide 3 text

Poisson Factoriza1on(1/2) •  Scalable Recommenda1on with Poisson Factoriza1on –  Prem Gopalan, Jake M. Hofman, David M. Blei (arXiv1311.1704v3, 2014) –  cited 21 •  ユーザ-‐アイテム行列の評価値をポアソン分布に従うとする –  probabilis1c matrix factoriza1onではガウス分布として扱われている． •  Rusian Salakhutdinov and Andriy Minih, NIPS(2008) •  ポアソン分布の利点 –  各属性のユーザの好みのような一部だけが大きくなりほかが小さくなる情報を扱うのに事前分布としてガンマ分布が有効である –  Long-‐tailをうまく扱える •  ユーザが何回行動するかを事前分布がどれだけうまく扱えているかをみるとポアソン分布がよりよく再現できていた –  implict-‐feedbackをうまく扱える •  MFではアイテムを消費したことと，消費しなかったことを同じ重みで扱う –  みていないことのマイナスが大きくなる=>そのためいろいろ工夫をしてきた •  ポアソン分布はその属性のアイテムを消費したことを扱える． •  ヒューリステクスなしに最適化できる –  スパースなデータに対して高速に計算できる

Slide 4

Slide 4 text

Poisson Factoriza1on(2/2) •  Implicitなデータでもexplicitなデータでも高いパフォーマンスを示している •  様々なデータの規模でも高いパフォーマンスを示している •  Cold-‐Start問題については特に何もしていない

Slide 5

Slide 5 text

Collabora1ve Topic Regression(1/2) •  Collabora1ve Topic Modeling for Recommending Scien1ﬁc Ar1cles –  Chong Wang, David M. Blei, KDD2011 –  Cited 203 •  評価値が全く未知のアイテムの評価値をアイテム情報から予測したい． •  アイテムの潜在変数とアイテム-‐ユーザ行列の潜在変数を同時に最適化することで新しいアイテムをうまく推薦したい

Slide 6

Slide 6 text

Collabora1ve Topic Regression(2/2) •  うまく最適化すればコールドスタート問題を単純にLDAを使うよりよりよく，そしてin-‐matrixもCFよりよくなる •  しかし計算モデルが複雑で拡張したり，スパースなデータに適用するのが難しい

Slide 7

Slide 7 text

Collabora1ve Topic Poisson Factoriza1on(CTPF)

Slide 8

Slide 8 text

　Maximum Likelihood from Incomplete Data via the EM Algorithmのトピック分布とそれを読んだユーザのトピック分布．　論文のトピックのほうはアルゴリズムなどに偏っているが，ユーザのほうは画像処理やネットワークなど他の分野における興味も観測される

Slide 9

Slide 9 text

Dataset •  Mendeley –  80,000 users, 260,000 ar1cles –  5 million observa1on •  arXiv –  120,297 users, 825,707 ar1cles –  43 million observa1on –  10 years(2003-‐2012) –  [test data]64,978 users, 636,978 ar1cles, 7.6 million click(2012) •  treat user click as binary data •  remove stop words •  top 10,000(14,000 for arXiv) dis1nct words as the vocabulary (use g-‐idf)

Slide 10

Slide 10 text

Compe1ng methods •  CTPF –  提案手法 •  Content Only –  CTPF without document topic oﬀset –  LDA using Poisson genera1ng distribu1on •  Ra1ngs Only –  Poisson Factoriza1on •  CTR •  Decoupled Poisson Factoriza1on

Slide 11

Slide 11 text

Decoupled Poisson Factoriza1on •  Porteous et al. AAAI 2010 •  user preferences into pu, qu – pu: content – qu: ra1ng •  independent of topic •  less interpretable than CTPF

Slide 12

Slide 12 text

モデル生成 •  Hyper parameter – Gamma shape and rate at 0.3 – β, θはLDAをやった値を最初に与える •  20%の評価データと1%の文書データを用いてトレーニングする •  1%をバリデーションに用いる •  たった4,500行のC++コードで書けるぜ HAHAHAみたいなこと書いてある – hpps://github.com/premgopalan/collabtm

Slide 13

Slide 13 text

Evalua1on

Slide 14

Slide 14 text

Evalua1on A) topicが最も大きい B) topicは大きくないがtopic oﬀsetが大きい C) 他のtopicのtopic oﬀsetが大きい

Slide 15

Slide 15 text

まとめ