Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Pulse of News in Social Media: Forecasting ...

ysekky
April 19, 2014

The Pulse of News in Social Media: Forecasting Popularity(ICWSM 2012)

ysekky

April 19, 2014
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. The  Pulse  of  News  in  Social  Media:   Forecas7ng  Popularity

    Roja  Bandari,  Sitaram  Asur,  Bernardo  A.  Huberman   (ICWSM  2012)     Yoshifumi  Seki@Gunosy研究会
  2. 概要 •  Mashableで記事になってたやつの元論文   – Popularity  of  an  Ar7cle  Can  Be

     Predicted Before   It's  Tweeted   – hRp://mashable.com/2012/02/09/news-­‐ popularity-­‐twiRer-­‐video/   •  Videoもあるよ   •  その記事がどれぐらいTweetされるかを記事 に関連する要素が過去どのぐらいTweetされ たかで予測する
  3. Data •  記事   –  FeedzillaのAPIを利用   •  2011/10/8  –

     2011/10/16までのフィードに含まれる記事44,000件   –  タイトル,  概要文,  URL,  時間,  カテゴリ,  配信元   –  スパム・重複は取り除かれている   –  半分をカテゴリスコアの特定に利用   –  残りの半分を分類・回帰タスクに利用   •  半分を教師データに、もう半分を評価データに利用   •  Tweet   –  Topsyを利用して集めた   –  記事とTweetを結びつける   –  過去50日分のTweetを利用   –  記事の人気が安定するのは4日かかる   •  The  dynamics  of  viral  marke7ng.  Leskovec  et  al.(2007)  
  4. Category  Score •  最大を1とした時の各カテゴリの記事数とT-­‐density   •  t-­‐density  =  #  Tweets

     /  #  Links   •  テクノロジーが最もTweetされやすい   •  記事数が多く、t-­‐densityが高いカテゴリはニッチで熱烈なファ ンがおおいカテゴリである  
  5. Subjec7vity •  主観的か客観的かの二値変数   –  主観的な記事ほどShareされやすいのでは?   •  LingPipeを使う  

    –  hRp://alias-­‐i.com/lingpipe/index.html   –  Text  mining  toolkit   –  感情分析   •  教師データ   –  主観的なニュース   •  Rush  Limbaugh   –  hRp://www.rushlimbaugh.com/   •  keith  olbermann   –  客観的なニュース   •  First  Monday   –  hRp://firstmonday.org/    
  6. Named  En77es •  Named  En7ty:  有名な場所、人、組織等   •  Stanford  Named

     En7ty  Recognizer(Stanford-­‐ NER)   – hRp://nlp.stanford.edu/sohware/CRF-­‐NER.shtml   – 記事・概要文からNamed  En7tyを抽出   •  1ヶ月のTweetから各Named  En7tyに平均t-­‐ densityをScoreとして付与した  
  7. Source  Score •  平均t-­‐densityをsource  scoreをして割り当てる   •  過去何日のt-­‐densityを使えばSourceのスコアが安定する か?  

    –  54日ぐらい   •  各記事のsource  scoreとtweet数の相関係数は0.35   –  それだけでは不十分  
  8. Google  Newsとの比較 •  NewsKnife   –  Google  Newsの表示順位とかからニュースの価値を 推定するサイト  

    •  閉鎖したらしい…   –  hRps://www.facebook.com/permalink.php? story_nid=462109153840156&id=119081421476266&stream_re f=10   •  Google  Newsは記事を沢山出すサイトを評価す る傾向にあり、流行る記事を見つけられない  
  9. Zero-­‐Tweet  Predic7ng •  Tweet数が0の記事を予測する   •  SVMを使って66%のAccuracyを得た   – 正例・負例の数、Precision,  Recallなどが明記され

    ていないためいいのか悪いのかよくわからん   •  Sourceとカテゴリが効き、subjec7vely,  named   en7tyはほとんど有効ではなかった   – 結局メディアの努力とジャンルによるのか?   – Tweet:0ってそもそも公式アカウントすらなさそう だし
  10. まとめ •  結局ソースとカテゴリが効くという結果になってる。   –  Tweetされるように努力している媒体や、Tweetされやすいジャ ンルが存在するということの証明にはなっている   –  それが記事のPopularityとして定義していいのかなぁという疑問

      •  例えばSourceやカテゴリの平均Tweet数からの差分とか見 たらPopularityとかQualityの推定になったりしないかな   –  そうするとEn7tyとかSubjec7vityとか効いてくるんじゃないかな   •  84%の精度!っていってるけど、Accuracyだけじゃ正直す ごいかどうか判断しようがない・・・   •  Subjec7vityいったいどこにいったんだろうか・・・