Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介]Organic or Organized? Exploring URL Shari...

ysekky
November 26, 2015

[論文紹介]Organic or Organized? Exploring URL Sharing Behavior(CIKM2015)

ysekky

November 26, 2015
Tweet

More Decks by ysekky

Other Decks in Research

Transcript

  1. Organic or Organized? Exploring URL Sharing Behavior (CIKM 2015) Cheng

    Cao*1, James Caverlee*1, Kyumin Lee*2, Hancheng Ge*1, jinwook Chung*2 Texas A&M University*1, Utah State University*2 Yoshifumi Seki Gunosyデータマイニング研究会 2015.11.26
  2. 共有行動のモデル化 •  URLの共有は3つの要素で構成される –  URL –  User –  AcYon of

    PosYng •  考慮すべき3つの問題 –  すべてのURLを考慮しなくてはならない –  URLの共有におけるユーザ類似度を定義しなくては ならない –  posYng behaviorを考慮して類似度を定義する必要が ある
  3. User, URL, and PosYng •  set of m users • 

    k different URLs posted by u_i •  all url •  each pair (u_i, v_j) is an acYon of posYng url •  n-dimension user representaYon vector U = {u1, ..., um } pui = {v1, ..., vk } V = {v1, ..., vn } ~ ui = (f(ui, v1), ..., f(ui, vn))
  4. The kNN User Graph •  一定以下の類似度の場合はエッジを貼らな いようにするとorganized userが観測できなく なる – organized

    userはpopularなurlをシェアしないため – organized userはその同一性からlocalに強いつな がりをもつ •  局地的なつながりを強調することが必要なの でKNNグラフを用いる
  5. ExtracYng User Group •  connected componentsを抽出すれば良いの だけれど2点考慮したいところがある – グループをコンパクトにしたい •  小さいcomponentは捨てる(エッジ5個以下とか)

    •  大きいcomponentは分解する – 分解するロジックはgeneralなものを使いたい •  louvain method(モジュラリティ使うやつ)
  6. CharacterizaYon: Organized vs. Organic •  やるべきこと –  グループからfeatureを作らなくてはならない –  そのfeatureがposYng

    behaviorのsignalにならなけれ ばならない •  spammerたちはお互いフォローする必要もないし、 同じURLを投稿している必要もない –  tradiYonal featureでは見つけることができない •  text content, network stracture •  9つのgroup featureを提案する –  投稿したURL, 投稿時間, プロフィールを用いる
  7. Posted URL-based Features •  Average PosYng Count •  URL PosYng

    Entropy – URLの多様さを測る指標 – organic groupはorganized groupより高い ~ pci = [uj 2~ ci puj f(~ ci, vj) = X ui 2~ ci f(ui, vj) P vj 2 ~ pc f(~ c, vj) |p~ c | H(~ c) = X vj 2~ c f(~ c, vj) P vj 2~ c f(c, vj) log f(~ c, vj) P vj 2~ c f(c, vj)
  8. PosYng Time-based Features •  投稿時間は投稿者が改変することのできな い情報 •  Organized user – 同じような頻度で投稿する

    – 投稿間隔が短い •  PosYng Interval Median – Organizedのほうがorganicより短いと想定 •  PosYng Interval DeviaYon – Organicのほうがrandomに近い
  9. Poster Profile-based Features •  OrganicなGroupのほうが多様性をもつとかんがえられる •  使うのは以下の3つ –  累計ツイート数 – 

    フォロワー数 –  登録日 •  Tweet Count DeviaYon –  DeviaYonが多ければ多様性があると考える •  Follower Count DeviaYon –  適宜変動するので、偽装するのが困難な値である •  RegistraYon Interval Median –  小さければorganizedなuserである可能性が高い
  10. Poster Profile-based Features •  User lifespan – 登録日から最終投稿日までの期間 •  Poster Lifespan

    Median – 短いユーザはorganizedの可能性が高い •  Poster Lifespan DeviaYon – Randomなユーザはorganicなユーザと見込まれ る
  11. ClassificaYon: Organic vs. Organized •  Random Forest •  Naïve-Bayes Decision

    Tree[NBTree] •  SMO •  AddiYve LogisYc Regression[LogitBoost]
  12. Data •  Streaming API – 2011 Oct ~ 2013 Oct • 

    1.6 billion raw urls •  136 million accounts •  Url – 遷移先が等しいURLがある – 数が多いので50回以上出現したURLに限定
  13. CollecYng User Group •  kをどのように決めるか? –  log|U|の近似をとる[M.Brito+1998] –  869,571 users

    => k=14 •  User Graph –  216,523 nodes, 3,862,116 edges –  12,251 connected components •  2,150 components(5以上) •  36 components(100以上) –  2,775 groups(192,719 users) •  40%のgroupが10以下 •  100以下が90% •  14,080が一番大きいグループ
  14. Manual Labeling Setup •  やりたいこと – URLを分類する – グループをorganicなのかorganizedなのか評価す る •  各グループから最低5人のユーザをランダム

    に抽出し、プロフィールやツイートを元に organicかorganizedかを評価する •  3人の評価者に1000グループを評価させる
  15. Analyzing Our Labeling •  986のグループにはカテゴリかraYngのどちら かがついた •  602のグループには両方ついた •  第4の評価者によって871(88.3%)が正解と判

    断され、両方のものは520(86.4%)であった •  RaYngが815についていて,325(40%)が organized, 490がorganicになる
  16. まとめ •  Organized, organicという新しい基準を作って Streamingの情報からユーザの属性を判定し ている •  予測ではない(未知のデータに対する性能の 検証が十分ではない) • 

    過去様々なスパム判定が提案されているは ずだがそれらとの比較がない – 本人たちはsharing研究としてそちらと分離したい ようだが、明らかにspam研究っぽい