Upgrade to Pro — share decks privately, control downloads, hide ads and more …

The Road to Success: Assessing the Fate of Linguistic Innovations in Online Communities

hightensan
September 05, 2018

The Road to Success: Assessing the Fate of Linguistic Innovations in Online Communities

Paper introduction about "The Road to Success: Assessing the Fate of Linguistic Innovations in Online Communities" @ COLING'18
paper : https://arxiv.org/abs/1806.05838
github : https://github.com/marcodel13/The-Road-to-Success

hightensan

September 05, 2018
Tweet

More Decks by hightensan

Other Decks in Research

Transcript

  1. The Road to Success: Assessing the Fate of Linguistic Innovations

    in Online Communities Marco Del Tredici and Raquel Ferna ́ndez COLING 2018
  2. Background Language is an incessantly evolving system, and linguistic innovations

    of different kind are continuously created. – ことばは⽇々変化 – 新たな⽤語が⽣まれ,定着したり消滅したり. It also has practical significance for NLP systems encountering novel terms in social media. – 新たな⽤語が出現した際に, システムが対処すべきものかどうかを特定することは有⽤ 1
  3. Sociolinguistic Theories Milroyʼs theory (1987) – 社会⾔語学におけるsocial networkにおいて, “新しい⽤語を⽣み出す⼈(innovator)はつながりが弱く(weak-tie)”, 逆に”新しい⽤語を広めるのはつながりが強い(strong-tie)⼈”である.

    • 密なクラスタの内部に位置すると, 既存の⽤語で発⾔することが動機づけられると考えられている. – weak-tie : 知⼈の知⼈ など → クラスタ同⼠を結合するポジション strong-tie : 家族・親友 など → クラスタ内で密に結合するポジション 4 ⼤規模なSocial Networkで仮説を検証・分析
  4. Methodology : Data Reddit – 議論型SNS – 5.4億 ⽉間アクセス –

    2.3億 ⽉間ユーザ数 – 100万 コミュニティ • Subreddit 6 Subreddit … Submission コメント数 投票数
  5. Methodology : Data Subredditの選定 – Reddit外の関⼼事(スポーツ, TV番組 etc.) – ⼩規模〜中規模のサイズ(ユーザー数)

    – ネットワークの結合密度が⾼い[0.001-0.016] Ø最初の投稿〜2016年末までの全投稿を収集 Ø1ヶ⽉毎のtime spanに分割 (200 active users以下のtime spanは無視) ØUnknownユーザーの投稿を除去 7 計20個のSubreddit 20 Subreddits
  6. Methodology : Social Network ネットワークの構築 – ノード:ユーザー – 同⼀スレッド内でコメントし合う ユーザーにエッジを張る.

    – time span毎に ネットワークを構築 8 ス レ ッ ド ス レ ッ ド debau dpkingma svantana zergling103 rantana BoojumG
  7. Methodology : Social Network ノードの特徴量(tie-strength) – " , $ :

    接続しているノードの数 "$ : と が共有するノードの数 – Milroyの説から,weak-tiedなユーザーはweak-tieのつながりしかなく, strong-tiedなユーザーはweak-tieもstrong-tieも有することを考慮 → 平均などに⽐べ,innovator/non-innovatorをより識別可能 9 0 0 0 0.25 0.20 0 1 no common neighbours the same adjacent neighbours
  8. Methodology : Social Network ノードの特徴量(centrality) – () := " "

    : 接続しているノードの数 – () := ∑ 345(") 345 78"89 79 : から への最短経路の個数 79 : 上記の中で を通る経路の個数 – () := ∑ "$ ・() $ "$ :隣接⾏列の要素 隣接⾏列の最⼤固有値に対応する固有ベクトルの第要素 10 degreeが⾼い betweenessが⾼い eigenvectorが⾼い
  9. Empirical Observations Social Networks – tie-strengthはロングテール – ⼤多数はweak-tiedなユーザー 縦軸 :

    tie-strength毎の ユーザー数の割合(平均) 横軸 : tie-strength bins ※ centralityもべき乗則が成り⽴つことが知られている(Mihalceaʼ11) → tie-strength と centralityの違いは? 11
  10. Empirical Observations Social Networks 12 tie-strength – 隣接ノードだけを加味し ノードのlocalな特徴を表現 –

    投稿数とtie-strengthには 相関なし(r=0.31) centrality – ネットワーク全体において ノードのglobalな特徴を表現 – 投稿数と各centralityには ⾼い相関(r=[0.78-0.91])
  11. Empirical Observations Social Networks 13 tie-strength – 隣接ノードだけを加味し ノードのlocalな特徴を表現 –

    投稿数とtie-strengthには 相関なし(r=0.31) centrality – ネットワーク全体において ノードのglobalな特徴を表現 – 投稿数と各centralityには ⾼い相関(r=[0.78-0.91]) Milroyʼs theoryを根拠づける特徴量
  12. Methodology : Linguistic Innovations new termの選定 – NoSlang.com の Slang

    Dictionaryから Internet slangを収集 ≓ 6,000 terms <フィルタリング> – アルファベット⽂字 – 各Subreddit内で最低頻度10回 – 各Subredditの収集期間において, 最初の3ヶ⽉間は出現なし & 最初のquarterには出現 14 1,456 unique innovation terms (Subreddit間の重複ありで 7,962) ※ 74%が複数のSubredditに出現 26%が⼀つだけのSubredditに 例) pkemon (pokemon) txs (thanks) omgz (oh my god)
  13. Empirical Observations Linguistic Innovations – Innovation termの広がりは ロングテール 縦軸 :

    各termの使⽤ユーザー率 (最終6ヶ⽉の平均) 横軸 : innovation term 15 – successful termと unsuccessful termとが存在 縦軸 : 各termの使⽤ユーザー率 横軸 : time bins
  14. Assessing Sociolinguistic Claims Innovators – 新しい⽤語を⽣み出す⼈(innovator)は つながりが弱い(weak-tie)か? => Yes ユーザーのtie-strengthの分布をプロット

    ① : innovatorはstrong-tieにはなりにくい ② : ⼀⽅,very weak-tieにもなりにくい ※innovatorは 各centrality・投稿数もhigh (対応なしのWelchʼs t-testsで有意差あり) 17 ① ②
  15. Assessing Sociolinguistic Claims Strong-Tie Users and Innovation Spread – 新しい⽤語を広めるのは

    つながりが強い(strong-tie)⼈か? => Yes 時刻" から連続ヶ⽉使⽤された時に 使⽤ユーザーが増加するか否かの確率をプロット 縦軸 : " までの平均使⽤ユーザー率から "?@AB 以降6ヶ⽉の平均使⽤ユーザー率が 増加するか否かの確率 横軸 : months – strong-tie userが継続して使⽤するようになるほど, 次の6ヶ⽉での各termの使⽤ユーザーの増加確率が上昇 18 strong-tie user weak-tie user
  16. Predicting Innovation Success Strong-Tie Users and Innovation Spread – termが出現して最初のヶ⽉の情報から

    将来の successful / unsuccessful を予測 (binary classification) ⼊⼒ : tie-strength trajectory (全ユーザーにおけるtie-strengthの最⼤値のsequence) 出⼒ : True(slope index > subredditʼs avg.) or False(slope index ≤ 0) ※slope index = 最後の6ヶ⽉の使⽤ユーザー率 最初の6ヶ⽉の使⽤ユーザー率 分類器 : Random forests(sklearn with default params) 90% training / 10% test → 10-fold交差検定 (True:False=0.55:0.45) 20
  17. Predicting Innovation Success Strong-Tie Users and Innovation Spread – 縦軸

    : F1-measure, 横軸 : ⼊⼒sequenceの⻑さ(k month) – ベースライン : training dataの⽐率を出⼒ Øk を増加させるにつれ,F1-measureが上昇 初期はweak-tieのみ → strong-tie が出現するにつれ予測性能⤴ 21