[論文紹介]User-Level Sentiment Analysis Incorporating Social Network (KDD2011)

D490d541e3d1ab04d5203e8b210b2233?s=47 ysekky
February 18, 2015

[論文紹介]User-Level Sentiment Analysis Incorporating Social Network (KDD2011)

D490d541e3d1ab04d5203e8b210b2233?s=128

ysekky

February 18, 2015
Tweet

Transcript

  1. [論文紹介]     User-­‐Level  Sen.ment  Analysis   Incorpora.ng  Social  Network

        Chenhao  Tan*1,  Killian  Lee*1,  Jie  Tang*2,    Long  Jiang*3,  Ming  Zhou*3,  Ping  Li*1   (Cornel  University*1,  Tsinghua  University*2,     MicrosoL  Research  Asia*3)   KDD2011 Yoshifumi  Seki  (Gunosy  Inc)   2015.02.17  @Gunosy研究会  #83
  2. 概要 •  TwiZerを使ってユーザの感情分析をする   – 半教師ありモデル   •  ネットワーク上のつながりのあるユーザの感 情は似るという仮説を調べる  

    – フォロー/フォロワー   – メンション   – 相互か否か?  
  3. Contribu.on •  SNSで関係のあるユーザ同士が同じ意見を持 つことが多いことを   •  ネットワーク指標を加える事でテキストからだ けの予測よりも感情分析が改善することを示 した  

    •  フォロー/フォロワーとメンションのネットワー クの比較や、パラメータ学習方法の比較も やった
  4. Concrete  Problem  Se]ng •  ユーザが該当するトピックに対してポジティブ かネガティブかを判定する   •  ユーザ同士がつながっているかを判定する  

    – フォローしているか   – 相互フォローか   – リプライしたか   – 相互にリプライを送ったか  
  5. Data  Collec.on •  プロフィールに記載されている情報からトピッ クに対するポジネガを判定する   – obama  lover,  an.-­‐obamaとかプロフィールに書い てある

     
  6. ある2人のユーザが同じ感情を持つ確率

  7. 意見の違いとユーザがConnectedである確率

  8. Model  Framework •  クエリqに対するツイートとユーザのネットワー クを生成する   •  Eqはuser-­‐tweetとuser-­‐userのエッジの2種   – ユーザ間のエッジはmen.onとfollowの相互が一

    方向かの4種
  9. Proposed  Model •  Y:  感情ラベルベクトル   – ユーザ数次元   •  k,

     l  :  感情ラベル  {0,  1}   •  μ,  λ:  それぞれをどの程度反映させるかの重 み付きパラメータ   •  f,  h:  feature  func.on  
  10. User-­‐tweet  factor •  学習済の場合とそうでない場合で値を分ける   •  k:  ユーザのラベル   • 

    l:  ツイートのラベル
  11. User-­‐User  factor •  k  :  ユーザiのラベル   •  l:  ユーザjのラベル

      •  w_rela.on:  関係性に対する重み
  12. 重みの設定 •  w_labeled  =  1.0   •  w_unlabeled  =  0.125

      •  w_rela.on  =  0/6   •  labeleを1.0に固定し,  w_unlabeledを[0.1-­‐0.5],   w_rela.on{0.5-­‐0.8}で変化させて設定した
  13. Parameter  Es.ma.on  and  Predic.on •  λ,  μを推定する   •  No

     Learning   – 直接推定する   •  Learning   – No  Learningで得た初期値を元に学習する  
  14. Direct  Es.ma.on  from  simple  sta.s.cs •  学習はしない   •  つながっているユーザ間で一致している確率

    を数えるだけ   •  ネガティブユーザはネガティブなポジティブ ユーザはポジティブなツイートしかしない
  15. Simple  Rank

  16. •  LLR(Ynew,  Y)   – Ynewの対数尤度-­‐Yの対数尤度   •  RealPref(Ynew,  Y)  

    – Pref(Ynew)  –  Pref(Y)   •  Pref(Y)  =  Accuracy  +  MacroF1   •  もっと良い学習方法はあるけど,本論文はモ デルの良さをいいたいだけだからあんまりそ こは問題にならない
  17. Predic.on •  Zの推定が難しい   •  5回SimpleRankで推定してどっちのラベル だったかをvoteさせて決める

  18. Experiment  Produces •  10回実験する   –  教師データとして50個ずつP/Nのユーザを選ぶ   •  ツイートのポジネガ分類

      –  トピックごとにラベル付きデータから分類器をつくる   •  Baseline(SVM)   –  SVMを使ってユーザのツイートで多い方の感情ラベルを 採用   •  Heterogeneous  Graph  Model  with  Direct  es.ma.on   from  simple  sta.cs   –  推定を学習しないでやったグラフモデル   •  Heterogeneous  Graph  Model  with  Simple  Rank   –  Simple  Rankで学習したグラフモデル
  19. Case  Study •  Obamaに関するポジネ ガ   •  緑:P,  赤N  

    •  ラベル付きデータのグ ラフ   •  ベースラインと提案手 法を比較する
  20. None
  21. None
  22. Performance  Analysis 左がNoLearning,  右がLearning   △は3トピック以上でベースラインを統計的に有意に上回る

  23. Performance  Analysis •  提案手法はベースラインよりよい   •  Followのほうがmen.onよりよい   •  directのほうがmutualよりよい

      •  LearningとNoLearningはそんなに変わらない
  24. Per-­‐topic  performance:  density  vs.  quality  analysis

  25. Adding  more  unlabeled  data Learningがもっともよい結果