2011/10/16までのフィードに含まれる記事44,000件 – タイトル, 概要文, URL, 時間, カテゴリ, 配信元 – スパム・重複は取り除かれている – 半分をカテゴリスコアの特定に利用 – 残りの半分を分類・回帰タスクに利用 • 半分を教師データに、もう半分を評価データに利用 • Tweet – Topsyを利用して集めた – 記事とTweetを結びつける – 過去50日分のTweetを利用 – 記事の人気が安定するのは4日かかる • The dynamics of viral marke7ng. Leskovec et al.(2007)