Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介]Content-based recommendations with Poisso...

ysekky
January 20, 2015

[論文紹介]Content-based recommendations with Poisson Factorization

ysekky

January 20, 2015
Tweet

More Decks by ysekky

Other Decks in Programming

Transcript

  1. [論文紹介]     Content-­‐based  recommenda1ons   with  Poisson  factoriza1on  

      Prem  Gopalan,Laurent  Charlin,  David  M.  Blei   (Princeton  University)   NIPS2015 Yoshifumi  Seki  (Gunosy  Inc)   2015.01.20  @NIPS読み会
  2. 概要 •  ユーザの購読履歴と文書情報から文書を推薦 する手法   •  LDAの開祖であるBlei先生のグループ   •  Poisson

     Factoriza1onとCollabora1ve  topic   regressionを組み合わせた手法   –  両方ともBlei先生のグループによる   –  前者はCFの次元圧縮,後者は文書情報とユーザアイ テム行列の最適化   •  過去の手法を上回る結果を残した   –  arXiv全体のデータセットによる実験   –  購読情報(implicit  feedback)  
  3. Poisson  Factoriza1on(1/2) •  Scalable  Recommenda1on  with  Poisson  Factoriza1on   – 

    Prem  Gopalan,  Jake  M.  Hofman,  David  M.  Blei  (arXiv1311.1704v3,   2014)   –  cited  21   •  ユーザ-­‐アイテム行列の評価値をポアソン分布に従うとする   –  probabilis1c  matrix  factoriza1onではガウス分布として扱われている.   •  Rusian  Salakhutdinov  and  Andriy  Minih,  NIPS(2008)   •  ポアソン分布の利点   –  各属性のユーザの好みのような一部だけが大きくなりほかが小さくな る情報を扱うのに事前分布としてガンマ分布が有効である   –  Long-­‐tailをうまく扱える   •  ユーザが何回行動するかを事前分布がどれだけうまく扱えているかをみると ポアソン分布がよりよく再現できていた   –  implict-­‐feedbackをうまく扱える   •  MFではアイテムを消費したことと,消費しなかったことを同じ重みで扱う   –  みていないことのマイナスが大きくなる=>そのためいろいろ工夫をしてきた   •  ポアソン分布はその属性のアイテムを消費したことを扱える.   •  ヒューリステクスなしに最適化できる   –  スパースなデータに対して高速に計算できる  
  4. Collabora1ve  Topic  Regression(1/2) •  Collabora1ve  Topic  Modeling  for  Recommending  Scien1fic

     Ar1cles   –  Chong  Wang,  David  M.  Blei,  KDD2011   –  Cited  203   •  評価値が全く未知のアイテムの評価値をアイテム情報から予測し たい.   •  アイテムの潜在変数とアイテム-­‐ユーザ行列の潜在変数を同時に 最適化することで新しいアイテムをうまく推薦したい  
  5.  Maximum  Likelihood  from  Incomplete  Data  via  the  EM   Algorithmのトピック分布とそれを読んだユーザのトピック分

    布.    論文のトピックのほうはアルゴリズムなどに偏っているが, ユーザのほうは画像処理やネットワークなど他の分野にお ける興味も観測される
  6. Dataset •  Mendeley   –  80,000  users,  260,000  ar1cles  

    –  5  million  observa1on   •  arXiv   –  120,297  users,  825,707  ar1cles   –  43  million  observa1on   –  10  years(2003-­‐2012)   –  [test  data]64,978  users,  636,978  ar1cles,  7.6  million  click(2012)   •  treat  user  click  as  binary  data   •  remove  stop  words   •  top  10,000(14,000  for  arXiv)  dis1nct  words  as  the   vocabulary  (use  g-­‐idf)    
  7. Compe1ng  methods •  CTPF   –  提案手法   •  Content

     Only   –  CTPF  without  document  topic  offset   –  LDA  using  Poisson  genera1ng  distribu1on   •  Ra1ngs  Only   –  Poisson  Factoriza1on   •  CTR   •  Decoupled  Poisson  Factoriza1on  
  8. Decoupled  Poisson  Factoriza1on •  Porteous  et  al.  AAAI  2010  

    •  user  preferences  into  pu,  qu   – pu:  content   – qu:  ra1ng   •  independent  of  topic   •  less  interpretable  than  CTPF  
  9. モデル生成 •  Hyper  parameter   – Gamma  shape  and  rate  at

     0.3   – β,  θはLDAをやった値を最初に与える   •  20%の評価データと1%の文書データを用いて トレーニングする   •  1%をバリデーションに用いる   •  たった4,500行のC++コードで書けるぜ HAHAHAみたいなこと書いてある   – hpps://github.com/premgopalan/collabtm