[Gunosy研究会]Personalized Collaborative Clustering

D490d541e3d1ab04d5203e8b210b2233?s=47 ysekky
April 10, 2014

[Gunosy研究会]Personalized Collaborative Clustering

D490d541e3d1ab04d5203e8b210b2233?s=128

ysekky

April 10, 2014
Tweet

Transcript

  1. 論文紹介:   Personalized  Collabora0ve  Clustering Yisong  Yue,  Ching  Wang,  Khalid

     El-­‐Arini,  Carlos  Guestrin   WWW  2014     Yoshifumi  Seki@Gunosy研究会   2014.04.02  
  2. クラスタリングの基準は人によって異なる スポーツ系 時代劇系 ホモ 萌え

  3. 目的 •  クラスタリングをユーザごとに最適化したい   – あるアイテムをどのように分類するかはユーザに よって異なる   – ユーザごとにモデルをつくろうとするとユーザごと に多くのデータ量が必要になる  

    •  あるユーザにとってのアイテム同士の類似度 を他のユーザのクラスタも含めて推測する   – 協調フィルタリングのように定式化する  
  4. やっていること •  アイテムの特徴量と、ユーザごとのアイテム 間類似度計算行列を、教師データから学習 する   – 教師データはユーザが何と何を同一クラスタとし て、何と何を同一クラスタとしなかったか   – アイテムの特徴量はD次元で共通化。

      – 類似度計算行列をユーザごとに設計することで ユーザごとにクラスタリングの基準を変える
  5. 教師データ •  対象   –  M人のユーザ (u1  ~  uM)  

    •  各ユーザがCm個のクラスタを持つ   –  N個のアイテム   •  クラスタ   –  y  =  {ym}    (1):  各ユーザごとのクラスタ集合   •  ym  =  {Ym^1,…,  Ym^Cm}    (2):  ユーザmのクラスタ集合   •  Ym^i:  ユーザmのクラスタiのアイテム集合   •  表現方法   –  y_{m,i,j}     •  ユーザmにおいてアイテムi,  jが同じクラスタ=>  1   •  アイテムi,  jが同じクラスタにない=>  -­‐1  
  6. 定式化 •  F(m,  i,  Ym^c)  =  mean{F(m,  i,  j)  :

     j∈Ym^c}  (3)   – F:  類似度計算関数   – アイテムiとクラスタcの類似度はそのクラスタに属 するアイテムとの類似度の平均   •  c_mi  =  argmax  F(m,  I,  Ym^c)  (4)   – 類似度が最も大きいものを所属クラスタとする     •  p(i|m,  ym)     – c_mi  if  F(m,  I,  Ym^{c_mi})  >  0   – 新しいクラスタ  or  クラスタに属しない  if  otherwise
  7. 学習 X: 各アイテムの特徴ベクトル。D次元   Um:  ユーザmの類似度計算用行列.  D*D   b:  パラメータ 具体的な最適化式は論文のAppendixを参照

    求めたいもの 最適化するもの 正規化項 誤差項
  8. 実験 •  250のパリの観光地を218人のユーザにクラ スタリングをさせた   – 1ユーザあたり4.5個のクラスタができた   – 18.7個のアイテムが1クラスタにはある   • 

    125ユーザでパラメータ調整,  50ユーザでバリ デーション,  43ユーザで評価
  9. 実験 •  Hold  50%   –  50%のアイテムをクラスタ済みのものとして残りの50%を 予測   – 

    目的:  一般的な精度検証   •   Hold  25%  per  Cluster   –  25%のアイテムを各クラスタから除いてモデルをつくって 評価   –  目的:  各クラスタのデータを欠損させた時の検証   •  Hold  One  Cluster   –  一つのクラスタを取り除いて評価する   –  目的:  クラスタの情報がない中で他のユーザの情報から 再現できるかの検証
  10. 比較手法 •  Feature-­‐based  Model   – zは各item固有のfeature,  Vはfeatureの次元数分 ある。Vとbを学習する   • 

    Transeformed  Feature-­‐based  Model   – VはD次元,  Sにより次元圧縮をする   •  Augmented  LCC  Model
  11. Features •  Feature1   – 建物のWikipediaの記事から獲得したTF-­‐IDFスコ ア   •  Feature2  

    – クラウドソーシングでつけたタグ   – 39種から付けさせた  
  12. 比較結果 •  提案モデルがもっとも精度が高い   •  Featureとの混合モデルの精度が低い   •  Featureが貢献しなかった理由  

    •  Feature1:次元数が大きすぎる(単語数分次元がある)   •  Feature2:ユーザの意志をくみとるにはタグは十分では ない   •  データが非常にスパースである  
  13. パラメータの学習 •  目標としている精度に対してチューニングすると、その 精度に最適化される   •  そのためタスクに応じてパラメータチューニングの方法 は変えるべき

  14. 逐次的に学習させる

  15. まとめ •  ユーザごとのクラスタリングを他のユーザの情報と組みあ わせて潜在変数を学習することで最適化することができて いる   –  未知のクラスタを推定できるのは非常に興味深い   • 

    ただ協調フィルタリングと同等の課題は抱えていると考え られる   –  新規アイテムや新規ユーザには活用できない、各アイテムに 十分な評価データがないといけないなど協調フィルタリングと 同じような課題はある   –  コンテンツ情報とのハイブリッドはシンプルな方法では無理。工 夫が必要。   •  アイテム数やクラスタ数が大きくなるととてもつらくなりそう