[Gunosy研究会]Personalized Collaborative Clustering

論文紹介: Personalized Collabora0ve Clustering Yisong Yue, Ching Wang, Khalid
El-‐Arini, Carlos Guestrin WWW 2014 Yoshifumi Seki@Gunosy研究会 2014.04.02

クラスタリングの基準は人によって異なるスポーツ系時代劇系ホモ萌え

目的 •  クラスタリングをユーザごとに最適化したい – あるアイテムをどのように分類するかはユーザによって異なる – ユーザごとにモデルをつくろうとするとユーザごとに多くのデータ量が必要になる
•  あるユーザにとってのアイテム同士の類似度を他のユーザのクラスタも含めて推測する – 協調フィルタリングのように定式化する

やっていること •  アイテムの特徴量と、ユーザごとのアイテム間類似度計算行列を、教師データから学習する – 教師データはユーザが何と何を同一クラスタとして、何と何を同一クラスタとしなかったか – アイテムの特徴量はD次元で共通化。
– 類似度計算行列をユーザごとに設計することでユーザごとにクラスタリングの基準を変える

教師データ •  対象 –  M人のユーザ (u1 ~ uM)
•  各ユーザがCm個のクラスタを持つ –  N個のアイテム •  クラスタ –  y = {ym} (1): 各ユーザごとのクラスタ集合 •  ym = {Ym^1,…, Ym^Cm} (2): ユーザmのクラスタ集合 •  Ym^i: ユーザmのクラスタiのアイテム集合 •  表現方法 –  y_{m,i,j} •  ユーザmにおいてアイテムi, jが同じクラスタ=> 1 •  アイテムi, jが同じクラスタにない=> -‐1

定式化 •  F(m, i, Ym^c) = mean{F(m, i, j) :
j∈Ym^c} (3) – F: 類似度計算関数 – アイテムiとクラスタcの類似度はそのクラスタに属するアイテムとの類似度の平均 •  c_mi = argmax F(m, I, Ym^c) (4) – 類似度が最も大きいものを所属クラスタとする •  p(i|m, ym) – c_mi if F(m, I, Ym^{c_mi}) > 0 – 新しいクラスタ or クラスタに属しない if otherwise

学習 X:　各アイテムの特徴ベクトル。D次元 Um: ユーザmの類似度計算用行列. D*D b: パラメータ具体的な最適化式は論文のAppendixを参照
求めたいもの最適化するもの正規化項誤差項

実験 •  250のパリの観光地を218人のユーザにクラスタリングをさせた – 1ユーザあたり4.5個のクラスタができた – 18.7個のアイテムが1クラスタにはある • 
125ユーザでパラメータ調整, 50ユーザでバリデーション, 43ユーザで評価

実験 •  Hold 50% –  50%のアイテムをクラスタ済みのものとして残りの50%を予測 – 
目的: 一般的な精度検証 •  Hold 25% per Cluster –  25％のアイテムを各クラスタから除いてモデルをつくって評価 –  目的: 各クラスタのデータを欠損させた時の検証 •  Hold One Cluster –  一つのクラスタを取り除いて評価する –  目的: クラスタの情報がない中で他のユーザの情報から再現できるかの検証

比較手法 •  Feature-‐based Model – zは各item固有のfeature, Vはfeatureの次元数分ある。Vとbを学習する • 
Transeformed Feature-‐based Model – VはD次元, Sにより次元圧縮をする •  Augmented LCC Model

Features •  Feature1 – 建物のWikipediaの記事から獲得したTF-‐IDFスコア •  Feature2
– クラウドソーシングでつけたタグ – 39種から付けさせた

比較結果 •  提案モデルがもっとも精度が高い •  Featureとの混合モデルの精度が低い •  Featureが貢献しなかった理由
•  Feature1:次元数が大きすぎる(単語数分次元がある) •  Feature2:ユーザの意志をくみとるにはタグは十分ではない •  データが非常にスパースである

パラメータの学習 •  目標としている精度に対してチューニングすると、その精度に最適化される •  そのためタスクに応じてパラメータチューニングの方法は変えるべき

逐次的に学習させる

まとめ •  ユーザごとのクラスタリングを他のユーザの情報と組みあわせて潜在変数を学習することで最適化することができている –  未知のクラスタを推定できるのは非常に興味深い • 
ただ協調フィルタリングと同等の課題は抱えていると考えられる –  新規アイテムや新規ユーザには活用できない、各アイテムに十分な評価データがないといけないなど協調フィルタリングと同じような課題はある –  コンテンツ情報とのハイブリッドはシンプルな方法では無理。工夫が必要。 •  アイテム数やクラスタ数が大きくなるととてもつらくなりそう

[Gunosy研究会]Personalized Collaborative Clustering

[Gunosy研究会]Personalized Collaborative Clustering

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

論文紹介: Personalized Collabora0ve Clustering Yisong Yue, Ching Wang, Khalid

クラスタリングの基準は人によって異なるスポーツ系時代劇系ホモ萌え

目的 •  クラスタリングをユーザごとに最適化したい – あるアイテムをどのように分類するかはユーザによって異なる – ユーザごとにモデルをつくろうとするとユーザごとに多くのデータ量が必要になる

教師データ •  対象 –  M人のユーザ (u1 ~ uM)

定式化 •  F(m, i, Ym^c) = mean{F(m, i, j) :

学習 X:　各アイテムの特徴ベクトル。D次元 Um: ユーザmの類似度計算用行列. D*D b: パラメータ具体的な最適化式は論文のAppendixを参照

実験 •  250のパリの観光地を218人のユーザにクラスタリングをさせた – 1ユーザあたり4.5個のクラスタができた – 18.7個のアイテムが1クラスタにはある •

実験 •  Hold 50% –  50%のアイテムをクラスタ済みのものとして残りの50%を予測 –

比較手法 •  Feature-‐based Model – zは各item固有のfeature, Vはfeatureの次元数分ある。Vとbを学習する •

Features •  Feature1 – 建物のWikipediaの記事から獲得したTF-‐IDFスコア •  Feature2

比較結果 •  提案モデルがもっとも精度が高い •  Featureとの混合モデルの精度が低い •  Featureが貢献しなかった理由

パラメータの学習 •  目標としている精度に対してチューニングすると、その精度に最適化される •  そのためタスクに応じてパラメータチューニングの方法は変えるべき

逐次的に学習させる

まとめ •  ユーザごとのクラスタリングを他のユーザの情報と組みあわせて潜在変数を学習することで最適化することができている –  未知のクラスタを推定できるのは非常に興味深い •