[論文紹介]User-Level Sentiment Analysis Incorporating Social Network (KDD2011)

[論文紹介] User-‐Level Sen.ment Analysis Incorpora.ng Social Network
Chenhao Tan*1, Killian Lee*1, Jie Tang*2, Long Jiang*3, Ming Zhou*3, Ping Li*1 (Cornel University*1, Tsinghua University*2, MicrosoL Research Asia*3) KDD2011 Yoshifumi Seki (Gunosy Inc) 2015.02.17 @Gunosy研究会 #83

概要 •  TwiZerを使ってユーザの感情分析をする – 半教師ありモデル •  ネットワーク上のつながりのあるユーザの感情は似るという仮説を調べる
– フォロー/フォロワー – メンション – 相互か否か？

Contribu.on •  SNSで関係のあるユーザ同士が同じ意見を持つことが多いことを •  ネットワーク指標を加える事でテキストからだけの予測よりも感情分析が改善することを示した
•  フォロー／フォロワーとメンションのネットワークの比較や、パラメータ学習方法の比較もやった

Concrete Problem Se]ng •  ユーザが該当するトピックに対してポジティブかネガティブかを判定する •  ユーザ同士がつながっているかを判定する
– フォローしているか – 相互フォローか – リプライしたか – 相互にリプライを送ったか

Data Collec.on •  プロフィールに記載されている情報からトピックに対するポジネガを判定する – obama lover, an.-‐obamaとかプロフィールに書いてある

ある2人のユーザが同じ感情を持つ確率

意見の違いとユーザがConnectedである確率

Model Framework •  クエリqに対するツイートとユーザのネットワークを生成する •  Eqはuser-‐tweetとuser-‐userのエッジの２種 – ユーザ間のエッジはmen.onとfollowの相互が一
方向かの4種

Proposed Model •  Y: 感情ラベルベクトル – ユーザ数次元 •  k,
l : 感情ラベル {0, 1} •  μ, λ: それぞれをどの程度反映させるかの重み付きパラメータ •  f, h: feature func.on

User-‐tweet factor •  学習済の場合とそうでない場合で値を分ける •  k: ユーザのラベル • 
l: ツイートのラベル

User-‐User factor •  k : ユーザiのラベル •  l: ユーザjのラベル
•  w_rela.on: 関係性に対する重み

重みの設定 •  w_labeled = 1.0 •  w_unlabeled = 0.125
•  w_rela.on = 0/6 •  labeleを1.0に固定し, w_unlabeledを[0.1-‐0.5], w_rela.on{0.5-‐0.8}で変化させて設定した

Parameter Es.ma.on and Predic.on •  λ, μを推定する •  No
Learning – 直接推定する •  Learning – No Learningで得た初期値を元に学習する

Direct Es.ma.on from simple sta.s.cs •  学習はしない •  つながっているユーザ間で一致している確率
を数えるだけ •  ネガティブユーザはネガティブなポジティブユーザはポジティブなツイートしかしない

Simple Rank

•  LLR(Ynew, Y) – Ynewの対数尤度-‐Yの対数尤度 •  RealPref(Ynew, Y)
– Pref(Ynew) – Pref(Y) •  Pref(Y) = Accuracy + MacroF1 •  もっと良い学習方法はあるけど，本論文はモデルの良さをいいたいだけだからあんまりそこは問題にならない

Predic.on •  Zの推定が難しい •  ５回SimpleRankで推定してどっちのラベルだったかをvoteさせて決める

Experiment Produces •  10回実験する –  教師データとして50個ずつP/Nのユーザを選ぶ •  ツイートのポジネガ分類
–  トピックごとにラベル付きデータから分類器をつくる •  Baseline(SVM) –  SVMを使ってユーザのツイートで多い方の感情ラベルを採用 •  Heterogeneous Graph Model with Direct es.ma.on from simple sta.cs –  推定を学習しないでやったグラフモデル •  Heterogeneous Graph Model with Simple Rank –  Simple Rankで学習したグラフモデル

Case Study •  Obamaに関するポジネガ •  緑:P, 赤N
•  ラベル付きデータのグラフ •  ベースラインと提案手法を比較する

Performance Analysis 左がNoLearning, 右がLearning △は３トピック以上でベースラインを統計的に有意に上回る

Performance Analysis •  提案手法はベースラインよりよい •  Followのほうがmen.onよりよい •  directのほうがmutualよりよい
•  LearningとNoLearningはそんなに変わらない

Per-‐topic performance: density vs. quality analysis

Adding more unlabeled data Learningがもっともよい結果

[論文紹介]User-Level Sentiment AnalysisIncorporati...

[論文紹介]User-Level Sentiment Analysis Incorporating Social Network (KDD2011)

ysekky

More Decks by ysekky

Other Decks in Research

Featured

Transcript

[論文紹介] User-‐Level Sen.ment Analysis Incorpora.ng Social Network

概要 •  TwiZerを使ってユーザの感情分析をする – 半教師ありモデル •  ネットワーク上のつながりのあるユーザの感情は似るという仮説を調べる

Contribu.on •  SNSで関係のあるユーザ同士が同じ意見を持つことが多いことを •  ネットワーク指標を加える事でテキストからだけの予測よりも感情分析が改善することを示した

Concrete Problem Se]ng •  ユーザが該当するトピックに対してポジティブかネガティブかを判定する •  ユーザ同士がつながっているかを判定する

Data Collec.on •  プロフィールに記載されている情報からトピックに対するポジネガを判定する – obama lover, an.-‐obamaとかプロフィールに書いてある

ある2人のユーザが同じ感情を持つ確率

意見の違いとユーザがConnectedである確率

Model Framework •  クエリqに対するツイートとユーザのネットワークを生成する •  Eqはuser-‐tweetとuser-‐userのエッジの２種 – ユーザ間のエッジはmen.onとfollowの相互が一

Proposed Model •  Y: 感情ラベルベクトル – ユーザ数次元 •  k,

User-‐tweet factor •  学習済の場合とそうでない場合で値を分ける •  k: ユーザのラベル •

User-‐User factor •  k : ユーザiのラベル •  l: ユーザjのラベル

重みの設定 •  w_labeled = 1.0 •  w_unlabeled = 0.125

Parameter Es.ma.on and Predic.on •  λ, μを推定する •  No

Direct Es.ma.on from simple sta.s.cs •  学習はしない •  つながっているユーザ間で一致している確率

Simple Rank

•  LLR(Ynew, Y) – Ynewの対数尤度-‐Yの対数尤度 •  RealPref(Ynew, Y)

Predic.on •  Zの推定が難しい •  ５回SimpleRankで推定してどっちのラベルだったかをvoteさせて決める

Experiment Produces •  10回実験する –  教師データとして50個ずつP/Nのユーザを選ぶ •  ツイートのポジネガ分類

Case Study •  Obamaに関するポジネガ •  緑:P, 赤N

Performance Analysis 左がNoLearning, 右がLearning △は３トピック以上でベースラインを統計的に有意に上回る

Performance Analysis •  提案手法はベースラインよりよい •  Followのほうがmen.onよりよい •  directのほうがmutualよりよい

Per-‐topic performance: density vs. quality analysis

Adding more unlabeled data Learningがもっともよい結果

[論文紹介]User-Level Sentiment Analysis Incorporati...

[論文紹介]User-Level Sentiment Analysis Incorporating Social Network (KDD2011)

More Decks by ysekky

Other Decks in Research

Featured

Transcript

[論文紹介]User-Level Sentiment AnalysisIncorporati...