[論文紹介]Organic or Organized? Exploring URL Sharing Behavior(CIKM2015)

D490d541e3d1ab04d5203e8b210b2233?s=47 ysekky
November 26, 2015

[論文紹介]Organic or Organized? Exploring URL Sharing Behavior(CIKM2015)

D490d541e3d1ab04d5203e8b210b2233?s=128

ysekky

November 26, 2015
Tweet

Transcript

  1. 1.

    Organic or Organized? Exploring URL Sharing Behavior (CIKM 2015) Cheng

    Cao*1, James Caverlee*1, Kyumin Lee*2, Hancheng Ge*1, jinwook Chung*2 Texas A&M University*1, Utah State University*2 Yoshifumi Seki Gunosyデータマイニング研究会 2015.11.26
  2. 4.

    共有行動のモデル化 •  URLの共有は3つの要素で構成される –  URL –  User –  AcYon of

    PosYng •  考慮すべき3つの問題 –  すべてのURLを考慮しなくてはならない –  URLの共有におけるユーザ類似度を定義しなくては ならない –  posYng behaviorを考慮して類似度を定義する必要が ある
  3. 5.

    User, URL, and PosYng •  set of m users • 

    k different URLs posted by u_i •  all url •  each pair (u_i, v_j) is an acYon of posYng url •  n-dimension user representaYon vector U = {u1, ..., um } pui = {v1, ..., vk } V = {v1, ..., vn } ~ ui = (f(ui, v1), ..., f(ui, vn))
  4. 8.

    The kNN User Graph •  一定以下の類似度の場合はエッジを貼らな いようにするとorganized userが観測できなく なる – organized

    userはpopularなurlをシェアしないため – organized userはその同一性からlocalに強いつな がりをもつ •  局地的なつながりを強調することが必要なの でKNNグラフを用いる
  5. 10.

    ExtracYng User Group •  connected componentsを抽出すれば良いの だけれど2点考慮したいところがある – グループをコンパクトにしたい •  小さいcomponentは捨てる(エッジ5個以下とか)

    •  大きいcomponentは分解する – 分解するロジックはgeneralなものを使いたい •  louvain method(モジュラリティ使うやつ)
  6. 11.

    CharacterizaYon: Organized vs. Organic •  やるべきこと –  グループからfeatureを作らなくてはならない –  そのfeatureがposYng

    behaviorのsignalにならなけれ ばならない •  spammerたちはお互いフォローする必要もないし、 同じURLを投稿している必要もない –  tradiYonal featureでは見つけることができない •  text content, network stracture •  9つのgroup featureを提案する –  投稿したURL, 投稿時間, プロフィールを用いる
  7. 12.

    Posted URL-based Features •  Average PosYng Count •  URL PosYng

    Entropy – URLの多様さを測る指標 – organic groupはorganized groupより高い ~ pci = [uj 2~ ci puj f(~ ci, vj) = X ui 2~ ci f(ui, vj) P vj 2 ~ pc f(~ c, vj) |p~ c | H(~ c) = X vj 2~ c f(~ c, vj) P vj 2~ c f(c, vj) log f(~ c, vj) P vj 2~ c f(c, vj)
  8. 13.

    PosYng Time-based Features •  投稿時間は投稿者が改変することのできな い情報 •  Organized user – 同じような頻度で投稿する

    – 投稿間隔が短い •  PosYng Interval Median – Organizedのほうがorganicより短いと想定 •  PosYng Interval DeviaYon – Organicのほうがrandomに近い
  9. 14.

    Poster Profile-based Features •  OrganicなGroupのほうが多様性をもつとかんがえられる •  使うのは以下の3つ –  累計ツイート数 – 

    フォロワー数 –  登録日 •  Tweet Count DeviaYon –  DeviaYonが多ければ多様性があると考える •  Follower Count DeviaYon –  適宜変動するので、偽装するのが困難な値である •  RegistraYon Interval Median –  小さければorganizedなuserである可能性が高い
  10. 15.

    Poster Profile-based Features •  User lifespan – 登録日から最終投稿日までの期間 •  Poster Lifespan

    Median – 短いユーザはorganizedの可能性が高い •  Poster Lifespan DeviaYon – Randomなユーザはorganicなユーザと見込まれ る
  11. 16.

    ClassificaYon: Organic vs. Organized •  Random Forest •  Naïve-Bayes Decision

    Tree[NBTree] •  SMO •  AddiYve LogisYc Regression[LogitBoost]
  12. 17.

    Data •  Streaming API – 2011 Oct ~ 2013 Oct • 

    1.6 billion raw urls •  136 million accounts •  Url – 遷移先が等しいURLがある – 数が多いので50回以上出現したURLに限定
  13. 18.

    CollecYng User Group •  kをどのように決めるか? –  log|U|の近似をとる[M.Brito+1998] –  869,571 users

    => k=14 •  User Graph –  216,523 nodes, 3,862,116 edges –  12,251 connected components •  2,150 components(5以上) •  36 components(100以上) –  2,775 groups(192,719 users) •  40%のgroupが10以下 •  100以下が90% •  14,080が一番大きいグループ
  14. 21.

    Manual Labeling Setup •  やりたいこと – URLを分類する – グループをorganicなのかorganizedなのか評価す る •  各グループから最低5人のユーザをランダム

    に抽出し、プロフィールやツイートを元に organicかorganizedかを評価する •  3人の評価者に1000グループを評価させる
  15. 24.

    Analyzing Our Labeling •  986のグループにはカテゴリかraYngのどちら かがついた •  602のグループには両方ついた •  第4の評価者によって871(88.3%)が正解と判

    断され、両方のものは520(86.4%)であった •  RaYngが815についていて,325(40%)が organized, 490がorganicになる
  16. 28.
  17. 29.
  18. 30.

    まとめ •  Organized, organicという新しい基準を作って Streamingの情報からユーザの属性を判定し ている •  予測ではない(未知のデータに対する性能の 検証が十分ではない) • 

    過去様々なスパム判定が提案されているは ずだがそれらとの比較がない – 本人たちはsharing研究としてそちらと分離したい ようだが、明らかにspam研究っぽい