[論文紹介]Content-based recommendations with Poisson Factorization

[論文紹介] Content-‐based recommenda1ons with Poisson factoriza1on
Prem Gopalan,Laurent Charlin, David M. Blei (Princeton University) NIPS2015 Yoshifumi Seki (Gunosy Inc) 2015.01.20 @NIPS読み会

概要 •  ユーザの購読履歴と文書情報から文書を推薦する手法 •  LDAの開祖であるBlei先生のグループ •  Poisson
Factoriza1onとCollabora1ve topic regressionを組み合わせた手法 –  両方ともBlei先生のグループによる –  前者はCFの次元圧縮，後者は文書情報とユーザアイテム行列の最適化 •  過去の手法を上回る結果を残した –  arXiv全体のデータセットによる実験 –  購読情報(implicit feedback)

Poisson Factoriza1on(1/2) •  Scalable Recommenda1on with Poisson Factoriza1on – 
Prem Gopalan, Jake M. Hofman, David M. Blei (arXiv1311.1704v3, 2014) –  cited 21 •  ユーザ-‐アイテム行列の評価値をポアソン分布に従うとする –  probabilis1c matrix factoriza1onではガウス分布として扱われている． •  Rusian Salakhutdinov and Andriy Minih, NIPS(2008) •  ポアソン分布の利点 –  各属性のユーザの好みのような一部だけが大きくなりほかが小さくなる情報を扱うのに事前分布としてガンマ分布が有効である –  Long-‐tailをうまく扱える •  ユーザが何回行動するかを事前分布がどれだけうまく扱えているかをみるとポアソン分布がよりよく再現できていた –  implict-‐feedbackをうまく扱える •  MFではアイテムを消費したことと，消費しなかったことを同じ重みで扱う –  みていないことのマイナスが大きくなる=>そのためいろいろ工夫をしてきた •  ポアソン分布はその属性のアイテムを消費したことを扱える． •  ヒューリステクスなしに最適化できる –  スパースなデータに対して高速に計算できる

Poisson Factoriza1on(2/2) •  Implicitなデータでもexplicitなデータでも高いパフォーマンスを示している •  様々なデータの規模でも高いパフォーマンスを示している
•  Cold-‐Start問題については特に何もしていない

Collabora1ve Topic Regression(1/2) •  Collabora1ve Topic Modeling for Recommending Scien1ﬁc
Ar1cles –  Chong Wang, David M. Blei, KDD2011 –  Cited 203 •  評価値が全く未知のアイテムの評価値をアイテム情報から予測したい． •  アイテムの潜在変数とアイテム-‐ユーザ行列の潜在変数を同時に最適化することで新しいアイテムをうまく推薦したい

Collabora1ve Topic Regression(2/2) •  うまく最適化すればコールドスタート問題を単純にLDAを使うよりよりよく，そしてin-‐matrixもCFよりよくなる •  しかし計算モデルが複雑で拡張したり，スパースなデータに適用するのが難しい

Collabora1ve Topic Poisson Factoriza1on(CTPF)

　Maximum Likelihood from Incomplete Data via the EM Algorithmのトピック分布とそれを読んだユーザのトピック分
布．　論文のトピックのほうはアルゴリズムなどに偏っているが，ユーザのほうは画像処理やネットワークなど他の分野における興味も観測される

Dataset •  Mendeley –  80,000 users, 260,000 ar1cles
–  5 million observa1on •  arXiv –  120,297 users, 825,707 ar1cles –  43 million observa1on –  10 years(2003-‐2012) –  [test data]64,978 users, 636,978 ar1cles, 7.6 million click(2012) •  treat user click as binary data •  remove stop words •  top 10,000(14,000 for arXiv) dis1nct words as the vocabulary (use g-‐idf)

Compe1ng methods •  CTPF –  提案手法 •  Content
Only –  CTPF without document topic oﬀset –  LDA using Poisson genera1ng distribu1on •  Ra1ngs Only –  Poisson Factoriza1on •  CTR •  Decoupled Poisson Factoriza1on

Decoupled Poisson Factoriza1on •  Porteous et al. AAAI 2010
•  user preferences into pu, qu – pu: content – qu: ra1ng •  independent of topic •  less interpretable than CTPF

モデル生成 •  Hyper parameter – Gamma shape and rate at
0.3 – β, θはLDAをやった値を最初に与える •  20%の評価データと1%の文書データを用いてトレーニングする •  1%をバリデーションに用いる •  たった4,500行のC++コードで書けるぜ HAHAHAみたいなこと書いてある – hpps://github.com/premgopalan/collabtm

Evalua1on

Evalua1on A) topicが最も大きい B) topicは大きくないがtopic oﬀsetが大きい C) 他のtopicのtopic oﬀsetが大きい

まとめ

[論文紹介]Content-based recommendations with Poisso...

[論文紹介]Content-based recommendations with Poisson Factorization

ysekky

More Decks by ysekky

Other Decks in Programming

Featured

Transcript

[論文紹介] Content-‐based recommenda1ons with Poisson factoriza1on

概要 •  ユーザの購読履歴と文書情報から文書を推薦する手法 •  LDAの開祖であるBlei先生のグループ •  Poisson

Poisson Factoriza1on(1/2) •  Scalable Recommenda1on with Poisson Factoriza1on –

Poisson Factoriza1on(2/2) •  Implicitなデータでもexplicitなデータでも高いパフォーマンスを示している •  様々なデータの規模でも高いパフォーマンスを示している

Collabora1ve Topic Regression(1/2) •  Collabora1ve Topic Modeling for Recommending Scien1ﬁc

Collabora1ve Topic Poisson Factoriza1on(CTPF)

Maximum Likelihood from Incomplete Data via the EM Algorithmのトピック分布とそれを読んだユーザのトピック分

Dataset •  Mendeley –  80,000 users, 260,000 ar1cles

Compe1ng methods •  CTPF –  提案手法 •  Content

Decoupled Poisson Factoriza1on •  Porteous et al. AAAI 2010

モデル生成 •  Hyper parameter – Gamma shape and rate at

Evalua1on

Evalua1on A) topicが最も大きい B) topicは大きくないがtopic oﬀsetが大きい C) 他のtopicのtopic oﬀsetが大きい

まとめ