Slide 1

Slide 1 text

[論文紹介]     User-­‐Level  Sen.ment  Analysis   Incorpora.ng  Social  Network     Chenhao  Tan*1,  Killian  Lee*1,  Jie  Tang*2,    Long  Jiang*3,  Ming  Zhou*3,  Ping  Li*1   (Cornel  University*1,  Tsinghua  University*2,     MicrosoL  Research  Asia*3)   KDD2011 Yoshifumi  Seki  (Gunosy  Inc)   2015.02.17  @Gunosy研究会  #83

Slide 2

Slide 2 text

概要 •  TwiZerを使ってユーザの感情分析をする   – 半教師ありモデル   •  ネットワーク上のつながりのあるユーザの感 情は似るという仮説を調べる   – フォロー/フォロワー   – メンション   – 相互か否か?  

Slide 3

Slide 3 text

Contribu.on •  SNSで関係のあるユーザ同士が同じ意見を持 つことが多いことを   •  ネットワーク指標を加える事でテキストからだ けの予測よりも感情分析が改善することを示 した   •  フォロー/フォロワーとメンションのネットワー クの比較や、パラメータ学習方法の比較も やった

Slide 4

Slide 4 text

Concrete  Problem  Se]ng •  ユーザが該当するトピックに対してポジティブ かネガティブかを判定する   •  ユーザ同士がつながっているかを判定する   – フォローしているか   – 相互フォローか   – リプライしたか   – 相互にリプライを送ったか  

Slide 5

Slide 5 text

Data  Collec.on •  プロフィールに記載されている情報からトピッ クに対するポジネガを判定する   – obama  lover,  an.-­‐obamaとかプロフィールに書い てある  

Slide 6

Slide 6 text

ある2人のユーザが同じ感情を持つ確率

Slide 7

Slide 7 text

意見の違いとユーザがConnectedである確率

Slide 8

Slide 8 text

Model  Framework •  クエリqに対するツイートとユーザのネットワー クを生成する   •  Eqはuser-­‐tweetとuser-­‐userのエッジの2種   – ユーザ間のエッジはmen.onとfollowの相互が一 方向かの4種

Slide 9

Slide 9 text

Proposed  Model •  Y:  感情ラベルベクトル   – ユーザ数次元   •  k,  l  :  感情ラベル  {0,  1}   •  μ,  λ:  それぞれをどの程度反映させるかの重 み付きパラメータ   •  f,  h:  feature  func.on  

Slide 10

Slide 10 text

User-­‐tweet  factor •  学習済の場合とそうでない場合で値を分ける   •  k:  ユーザのラベル   •  l:  ツイートのラベル

Slide 11

Slide 11 text

User-­‐User  factor •  k  :  ユーザiのラベル   •  l:  ユーザjのラベル   •  w_rela.on:  関係性に対する重み

Slide 12

Slide 12 text

重みの設定 •  w_labeled  =  1.0   •  w_unlabeled  =  0.125   •  w_rela.on  =  0/6   •  labeleを1.0に固定し,  w_unlabeledを[0.1-­‐0.5],   w_rela.on{0.5-­‐0.8}で変化させて設定した

Slide 13

Slide 13 text

Parameter  Es.ma.on  and  Predic.on •  λ,  μを推定する   •  No  Learning   – 直接推定する   •  Learning   – No  Learningで得た初期値を元に学習する  

Slide 14

Slide 14 text

Direct  Es.ma.on  from  simple  sta.s.cs •  学習はしない   •  つながっているユーザ間で一致している確率 を数えるだけ   •  ネガティブユーザはネガティブなポジティブ ユーザはポジティブなツイートしかしない

Slide 15

Slide 15 text

Simple  Rank

Slide 16

Slide 16 text

•  LLR(Ynew,  Y)   – Ynewの対数尤度-­‐Yの対数尤度   •  RealPref(Ynew,  Y)   – Pref(Ynew)  –  Pref(Y)   •  Pref(Y)  =  Accuracy  +  MacroF1   •  もっと良い学習方法はあるけど,本論文はモ デルの良さをいいたいだけだからあんまりそ こは問題にならない

Slide 17

Slide 17 text

Predic.on •  Zの推定が難しい   •  5回SimpleRankで推定してどっちのラベル だったかをvoteさせて決める

Slide 18

Slide 18 text

Experiment  Produces •  10回実験する   –  教師データとして50個ずつP/Nのユーザを選ぶ   •  ツイートのポジネガ分類   –  トピックごとにラベル付きデータから分類器をつくる   •  Baseline(SVM)   –  SVMを使ってユーザのツイートで多い方の感情ラベルを 採用   •  Heterogeneous  Graph  Model  with  Direct  es.ma.on   from  simple  sta.cs   –  推定を学習しないでやったグラフモデル   •  Heterogeneous  Graph  Model  with  Simple  Rank   –  Simple  Rankで学習したグラフモデル

Slide 19

Slide 19 text

Case  Study •  Obamaに関するポジネ ガ   •  緑:P,  赤N   •  ラベル付きデータのグ ラフ   •  ベースラインと提案手 法を比較する

Slide 20

Slide 20 text

No content

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

Performance  Analysis 左がNoLearning,  右がLearning   △は3トピック以上でベースラインを統計的に有意に上回る

Slide 23

Slide 23 text

Performance  Analysis •  提案手法はベースラインよりよい   •  Followのほうがmen.onよりよい   •  directのほうがmutualよりよい   •  LearningとNoLearningはそんなに変わらない

Slide 24

Slide 24 text

Per-­‐topic  performance:  density  vs.  quality  analysis

Slide 25

Slide 25 text

Adding  more  unlabeled  data Learningがもっともよい結果