Slide 1

Slide 1 text

[論文紹介]     Content-­‐based  recommenda1ons   with  Poisson  factoriza1on     Prem  Gopalan,Laurent  Charlin,  David  M.  Blei   (Princeton  University)   NIPS2015 Yoshifumi  Seki  (Gunosy  Inc)   2015.01.20  @NIPS読み会

Slide 2

Slide 2 text

概要 •  ユーザの購読履歴と文書情報から文書を推薦 する手法   •  LDAの開祖であるBlei先生のグループ   •  Poisson  Factoriza1onとCollabora1ve  topic   regressionを組み合わせた手法   –  両方ともBlei先生のグループによる   –  前者はCFの次元圧縮,後者は文書情報とユーザアイ テム行列の最適化   •  過去の手法を上回る結果を残した   –  arXiv全体のデータセットによる実験   –  購読情報(implicit  feedback)  

Slide 3

Slide 3 text

Poisson  Factoriza1on(1/2) •  Scalable  Recommenda1on  with  Poisson  Factoriza1on   –  Prem  Gopalan,  Jake  M.  Hofman,  David  M.  Blei  (arXiv1311.1704v3,   2014)   –  cited  21   •  ユーザ-­‐アイテム行列の評価値をポアソン分布に従うとする   –  probabilis1c  matrix  factoriza1onではガウス分布として扱われている.   •  Rusian  Salakhutdinov  and  Andriy  Minih,  NIPS(2008)   •  ポアソン分布の利点   –  各属性のユーザの好みのような一部だけが大きくなりほかが小さくな る情報を扱うのに事前分布としてガンマ分布が有効である   –  Long-­‐tailをうまく扱える   •  ユーザが何回行動するかを事前分布がどれだけうまく扱えているかをみると ポアソン分布がよりよく再現できていた   –  implict-­‐feedbackをうまく扱える   •  MFではアイテムを消費したことと,消費しなかったことを同じ重みで扱う   –  みていないことのマイナスが大きくなる=>そのためいろいろ工夫をしてきた   •  ポアソン分布はその属性のアイテムを消費したことを扱える.   •  ヒューリステクスなしに最適化できる   –  スパースなデータに対して高速に計算できる  

Slide 4

Slide 4 text

Poisson  Factoriza1on(2/2) •  Implicitなデータでもexplicitなデータでも高いパ フォーマンスを示している   •  様々なデータの規模でも高いパフォーマンスを示し ている   •  Cold-­‐Start問題については特に何もしていない  

Slide 5

Slide 5 text

Collabora1ve  Topic  Regression(1/2) •  Collabora1ve  Topic  Modeling  for  Recommending  Scien1fic  Ar1cles   –  Chong  Wang,  David  M.  Blei,  KDD2011   –  Cited  203   •  評価値が全く未知のアイテムの評価値をアイテム情報から予測し たい.   •  アイテムの潜在変数とアイテム-­‐ユーザ行列の潜在変数を同時に 最適化することで新しいアイテムをうまく推薦したい  

Slide 6

Slide 6 text

Collabora1ve  Topic  Regression(2/2) •  うまく最適化すればコールドスタート問題を単純にLDAを 使うよりよりよく,そしてin-­‐matrixもCFよりよくなる   •  しかし計算モデルが複雑で拡張したり,スパースなデー タに適用するのが難しい

Slide 7

Slide 7 text

Collabora1ve  Topic  Poisson  Factoriza1on(CTPF)

Slide 8

Slide 8 text

 Maximum  Likelihood  from  Incomplete  Data  via  the  EM   Algorithmのトピック分布とそれを読んだユーザのトピック分 布.    論文のトピックのほうはアルゴリズムなどに偏っているが, ユーザのほうは画像処理やネットワークなど他の分野にお ける興味も観測される

Slide 9

Slide 9 text

Dataset •  Mendeley   –  80,000  users,  260,000  ar1cles   –  5  million  observa1on   •  arXiv   –  120,297  users,  825,707  ar1cles   –  43  million  observa1on   –  10  years(2003-­‐2012)   –  [test  data]64,978  users,  636,978  ar1cles,  7.6  million  click(2012)   •  treat  user  click  as  binary  data   •  remove  stop  words   •  top  10,000(14,000  for  arXiv)  dis1nct  words  as  the   vocabulary  (use  g-­‐idf)    

Slide 10

Slide 10 text

Compe1ng  methods •  CTPF   –  提案手法   •  Content  Only   –  CTPF  without  document  topic  offset   –  LDA  using  Poisson  genera1ng  distribu1on   •  Ra1ngs  Only   –  Poisson  Factoriza1on   •  CTR   •  Decoupled  Poisson  Factoriza1on  

Slide 11

Slide 11 text

Decoupled  Poisson  Factoriza1on •  Porteous  et  al.  AAAI  2010   •  user  preferences  into  pu,  qu   – pu:  content   – qu:  ra1ng   •  independent  of  topic   •  less  interpretable  than  CTPF  

Slide 12

Slide 12 text

モデル生成 •  Hyper  parameter   – Gamma  shape  and  rate  at  0.3   – β,  θはLDAをやった値を最初に与える   •  20%の評価データと1%の文書データを用いて トレーニングする   •  1%をバリデーションに用いる   •  たった4,500行のC++コードで書けるぜ HAHAHAみたいなこと書いてある   – hpps://github.com/premgopalan/collabtm  

Slide 13

Slide 13 text

Evalua1on

Slide 14

Slide 14 text

Evalua1on A) topicが最も大きい   B) topicは大きくないがtopic  offsetが大きい   C) 他のtopicのtopic  offsetが大きい

Slide 15

Slide 15 text

まとめ