Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Gunosy研究会]Personalized Collaborative Clustering
Search
ysekky
April 10, 2014
Research
1
1.4k
[Gunosy研究会]Personalized Collaborative Clustering
ysekky
April 10, 2014
Tweet
Share
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.3k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.8k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
800
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
2.9k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.5k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.2k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.4k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
4k
Other Decks in Research
See All in Research
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
410
AI in Enterprises - Java and Open Source to the Rescue
ivargrimstad
0
1.1k
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
260
生成AI による論文執筆サポート・ワークショップ ─ サーベイ/リサーチクエスチョン編 / Workshop on AI-Assisted Paper Writing Support: Survey/Research Question Edition
ks91
PRO
0
130
Nullspace MPC
mizuhoaoki
1
540
空間音響処理における物理法則に基づく機械学習
skoyamalab
0
140
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
2
140
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
790
若手研究者が国際会議(例えばIROS)でワークショップを企画するメリットと成功法!
tanichu
0
130
大学見本市2025 JSTさきがけ事業セミナー「顔の見えないセンシング技術:多様なセンサにもとづく個人情報に配慮した人物状態推定」
miso2024
0
200
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
1.1k
Agentic AI Era におけるサプライチェーン最適化
mickey_kubo
0
110
Featured
See All Featured
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.3k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
More Than Pixels: Becoming A User Experience Designer
marktimemedia
2
260
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
170
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
73
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
0
210
AI Search: Where Are We & What Can We Do About It?
aleyda
0
6.7k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Darren the Foodie - Storyboard
khoart
PRO
0
2k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
150
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
論文紹介: Personalized Collabora0ve Clustering Yisong Yue, Ching Wang, Khalid
El-‐Arini, Carlos Guestrin WWW 2014 Yoshifumi Seki@Gunosy研究会 2014.04.02
クラスタリングの基準は人によって異なる スポーツ系 時代劇系 ホモ 萌え
目的 • クラスタリングをユーザごとに最適化したい – あるアイテムをどのように分類するかはユーザに よって異なる – ユーザごとにモデルをつくろうとするとユーザごと に多くのデータ量が必要になる
• あるユーザにとってのアイテム同士の類似度 を他のユーザのクラスタも含めて推測する – 協調フィルタリングのように定式化する
やっていること • アイテムの特徴量と、ユーザごとのアイテム 間類似度計算行列を、教師データから学習 する – 教師データはユーザが何と何を同一クラスタとし て、何と何を同一クラスタとしなかったか – アイテムの特徴量はD次元で共通化。
– 類似度計算行列をユーザごとに設計することで ユーザごとにクラスタリングの基準を変える
教師データ • 対象 – M人のユーザ (u1 ~ uM)
• 各ユーザがCm個のクラスタを持つ – N個のアイテム • クラスタ – y = {ym} (1): 各ユーザごとのクラスタ集合 • ym = {Ym^1,…, Ym^Cm} (2): ユーザmのクラスタ集合 • Ym^i: ユーザmのクラスタiのアイテム集合 • 表現方法 – y_{m,i,j} • ユーザmにおいてアイテムi, jが同じクラスタ=> 1 • アイテムi, jが同じクラスタにない=> -‐1
定式化 • F(m, i, Ym^c) = mean{F(m, i, j) :
j∈Ym^c} (3) – F: 類似度計算関数 – アイテムiとクラスタcの類似度はそのクラスタに属 するアイテムとの類似度の平均 • c_mi = argmax F(m, I, Ym^c) (4) – 類似度が最も大きいものを所属クラスタとする • p(i|m, ym) – c_mi if F(m, I, Ym^{c_mi}) > 0 – 新しいクラスタ or クラスタに属しない if otherwise
学習 X: 各アイテムの特徴ベクトル。D次元 Um: ユーザmの類似度計算用行列. D*D b: パラメータ 具体的な最適化式は論文のAppendixを参照
求めたいもの 最適化するもの 正規化項 誤差項
実験 • 250のパリの観光地を218人のユーザにクラ スタリングをさせた – 1ユーザあたり4.5個のクラスタができた – 18.7個のアイテムが1クラスタにはある •
125ユーザでパラメータ調整, 50ユーザでバリ デーション, 43ユーザで評価
実験 • Hold 50% – 50%のアイテムをクラスタ済みのものとして残りの50%を 予測 –
目的: 一般的な精度検証 • Hold 25% per Cluster – 25%のアイテムを各クラスタから除いてモデルをつくって 評価 – 目的: 各クラスタのデータを欠損させた時の検証 • Hold One Cluster – 一つのクラスタを取り除いて評価する – 目的: クラスタの情報がない中で他のユーザの情報から 再現できるかの検証
比較手法 • Feature-‐based Model – zは各item固有のfeature, Vはfeatureの次元数分 ある。Vとbを学習する •
Transeformed Feature-‐based Model – VはD次元, Sにより次元圧縮をする • Augmented LCC Model
Features • Feature1 – 建物のWikipediaの記事から獲得したTF-‐IDFスコ ア • Feature2
– クラウドソーシングでつけたタグ – 39種から付けさせた
比較結果 • 提案モデルがもっとも精度が高い • Featureとの混合モデルの精度が低い • Featureが貢献しなかった理由
• Feature1:次元数が大きすぎる(単語数分次元がある) • Feature2:ユーザの意志をくみとるにはタグは十分では ない • データが非常にスパースである
パラメータの学習 • 目標としている精度に対してチューニングすると、その 精度に最適化される • そのためタスクに応じてパラメータチューニングの方法 は変えるべき
逐次的に学習させる
まとめ • ユーザごとのクラスタリングを他のユーザの情報と組みあ わせて潜在変数を学習することで最適化することができて いる – 未知のクラスタを推定できるのは非常に興味深い •
ただ協調フィルタリングと同等の課題は抱えていると考え られる – 新規アイテムや新規ユーザには活用できない、各アイテムに 十分な評価データがないといけないなど協調フィルタリングと 同じような課題はある – コンテンツ情報とのハイブリッドはシンプルな方法では無理。工 夫が必要。 • アイテム数やクラスタ数が大きくなるととてもつらくなりそう