文献紹介:Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora

文献紹介:Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

August 06, 2020
Tweet

Transcript

  1. Simple, Interpretable and Stable Method for Detecting Words with Usage

    Change across Corpora Hila Gonen, Ganesh Jawahar, Djamé Seddah, Yoav Goldberg ACL2020, pages 538–555 論文紹介
  2. 概要 - 異なるコーパス間での単語の用法の変化の調査 において、周辺語を用いた指標と複数回実験して 安定性を評価する方法を提案 - 従来の単語分散表現を対応付けする手法と比較 して、複数回実験しても結果が安定していることを 示した 2

  3. 導入 - 異なるコーパス間での単語の用法の変化 - 時期の異なるコーパス - ドメインの異なるコーパス - 先行研究: -

    コーパス毎に単語分散表現を学習し、以下のように対応 付けを行う - 周辺単語を元に各対象単語を線形的に対応づけ (Kulkarni2015[1]) - 回転行列で対応づけ (Hamilton2016a[2]) - 余弦類似度やユークリッド距離で単語の用法の変化度合 いを算出 3
  4. 導入 - 対応付けを用いる先行研究の問題点 - 結果が安定しない - 学習させるたびに異なる結果になる → コーパス間の単語分散表現を対応させず、周辺 語情報のみを使った単語の用法の変化の指標を提

    案 4
  5. 関連研究:意味変化の指標に周辺語を用いる - Local neighborhood changes (Hamilton2016b[3]) - 各時期 t, t+1

    で対象単語の top-k の周辺語を計算 - 2つの周辺語リストを結合し、対象単語と各周辺語との余 弦類似度を計算、総単語数を次元数とするベクトル s(t), s(t+1) を計算 - 得られたベクトル間の距離を意味変化の指標とする 5
  6. 関連研究:意味変化の指標に周辺語を用いる - Local neighborhood changes (Hamilton2016b[3]) - 各時期 t, t+1

    で対象単語の top-k の周辺語を計算 - 2つの周辺語リストを結合し、対象単語と各周辺語との余 弦類似度を計算、総単語数を次元数とするベクトル s(t), s(t+1) を計算 - 得られたベクトル間の距離を意味変化の指標とする 6 実際に以下のスコア付評価データ • 異なる時期間で意味の異なる単語リスト • 異なるドメイン間で意味の異なる単語リスト で評価すると、 この指標よりも余弦類似度の方が優れている (Schlechtweg2019[4])
  7. 手法 - データ毎に単語分散表現を学習させ、調査対象 語 w の top-k 周辺語 NN1, NN2

    を比較する(各 単語分散表現の対応付けは行わない) - 今回の実験では k=1000 とした - NN1, NN2 で共有する単語が少ない→変化の可能性有 7
  8. 実験:用法が変化した単語の検出 - 手法 - 提案手法:Word2Vec をコーパス毎に学習し、単語を周辺 語の一致数が少ない順にソート - データ -

    通時的, 本:Google Books Ngram の 1900s vs 1990s - 条件(年齢、性別、職業)の違い, Twitter:The Celebrity Profiling corpus (Wiegmann2019) の職業 performer vs sports 8
  9. 結果:用法が変化した単語の検出 - 通時的データの 1900s vs 1990s - top-10 に Hamilton2016a

    でも出現した変化した単語 - wanting, gay, major, check が出現 - 職業の違い(performer vs sports) - top-10 に以下の単語が出現 - cc (carbon copy vs country club) - duo (duet vs pair of people) - wing (politics vs football position) 9
  10. 実験:用法が変化した単語リストの安定性 - 手法:Word2Vec をコーパス毎に学習後… - 提案手法:単語を周辺語の一致数が少ない順にソート - Hamilton2016:回転行列で対応付け、余弦類似度が低 い順にソート -

    データ(Twitter) - 条件(年齢、性別、職業)の違い - 1週間の中での違い:日中(火水)vs 週末(土日) - 年単位での違い:2014 vs 2018 10
  11. 実験:用法が変化した単語リストの安定性 - 提案した評価手法 intersection@k - 期待:「異なる条件で複数回実験しても、ほぼ同じ結果が 返ってくる」 - 同じデータ・手法で変化した単語リストの作成を2回行い、 2つリストの一致率を計算(もちろん高い方が良い)

    11
  12. 結果:提案手法(実線)vs Hamilton2016(点線) intersection@k で考慮する上位単語数 k を変化 - 提案手法は Hamilton2016 より結果が安定

    12
  13. 結果:提案手法(実線)vs Hamilton2016(点線) 語彙作成時の単語の頻度の閾値を変化 - 単語を頻度で足切りしなくても結果が安定 13

  14. 結果:提案手法(実線)vs Hamilton2016(点線) 提案手法で考慮する周辺単語の数を変化 - k=250 以降で結果が安定 14

  15. 実験:意味が変化した単語リストとの相関 - 手法:Word2Vec をコーパス毎に学習後… - 提案手法:単語を周辺語の一致数が少ない順にソート - Hamilton2016:回転行列で対応付け、余弦類似度が低 い順にソート -

    スコア付きのデータ(ドイツ語) - DURel:時期間で意味が変化した単語のリスト - SURel:同時期、異なるドメイン間で意味が変化した単語 のリスト 15
  16. 実験:意味が変化した単語リストとの相関 - 評価: - 各手法で生成した単語リストと変化した単語リストの Spearman の順位相関係数 - 予測した順位とデータセットのスコアを考慮した Discounted

    Cumulative Gain (DCG) - W:データセットのリストにある全単語 - M:手法(提案手法, Hamilton2016) 16
  17. 結果:意味が変化した単語リストとの相関 - ドメイン間(SURel)では提案手法が、時期間 (DURel)では Hamilton2016 が高い 17

  18. 結論 - 異なるコーパス間での単語の用法の変化の調査 において、周辺語を用いた指標と複数回実験して 安定性を評価する方法を提案 - 従来の単語分散表現を対応付けする手法と比較 して、複数回実験しても結果が安定していることを 示した 18

  19. Reference [1] Vivek Kulkarni, Rami Al-Rfou, Bryan Perozzi, and Steven

    Skiena. Statistically significant detection of linguistic change, WWW2015. [link] [2] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [3] William L. Hamilton, Jure Leskovec, and Dan Jurafsky. Cultural Shift or Linguistic Drift? Comparing Two Computational Measures of Semantic Change, EMNLP2016. [link] [4] Dominik Schlechtweg, Anna Hätty, Marco Del Tredici, Sabine Schulte im Walde.A Wind of Change: Detecting and Evaluating Lexical Semantic Change across Times and Domains, ACL2019 [link] 19