Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora

文献紹介:Simple, Interpretable and Stable Method for Detecting Words with Usage Change across Corpora

Taichi Aida

August 06, 2020
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. Simple, Interpretable and Stable Method for Detecting Words with Usage

    Change across Corpora Hila Gonen, Ganesh Jawahar, Djamé Seddah, Yoav Goldberg ACL2020, pages 538–555 論文紹介
  2. 導入 - 異なるコーパス間での単語の用法の変化 - 時期の異なるコーパス - ドメインの異なるコーパス - 先行研究: -

    コーパス毎に単語分散表現を学習し、以下のように対応 付けを行う - 周辺単語を元に各対象単語を線形的に対応づけ (Kulkarni2015[1]) - 回転行列で対応づけ (Hamilton2016a[2]) - 余弦類似度やユークリッド距離で単語の用法の変化度合 いを算出 3
  3. 関連研究:意味変化の指標に周辺語を用いる - Local neighborhood changes (Hamilton2016b[3]) - 各時期 t, t+1

    で対象単語の top-k の周辺語を計算 - 2つの周辺語リストを結合し、対象単語と各周辺語との余 弦類似度を計算、総単語数を次元数とするベクトル s(t), s(t+1) を計算 - 得られたベクトル間の距離を意味変化の指標とする 5
  4. 関連研究:意味変化の指標に周辺語を用いる - Local neighborhood changes (Hamilton2016b[3]) - 各時期 t, t+1

    で対象単語の top-k の周辺語を計算 - 2つの周辺語リストを結合し、対象単語と各周辺語との余 弦類似度を計算、総単語数を次元数とするベクトル s(t), s(t+1) を計算 - 得られたベクトル間の距離を意味変化の指標とする 6 実際に以下のスコア付評価データ • 異なる時期間で意味の異なる単語リスト • 異なるドメイン間で意味の異なる単語リスト で評価すると、 この指標よりも余弦類似度の方が優れている (Schlechtweg2019[4])
  5. 手法 - データ毎に単語分散表現を学習させ、調査対象 語 w の top-k 周辺語 NN1, NN2

    を比較する(各 単語分散表現の対応付けは行わない) - 今回の実験では k=1000 とした - NN1, NN2 で共有する単語が少ない→変化の可能性有 7
  6. 実験:用法が変化した単語の検出 - 手法 - 提案手法:Word2Vec をコーパス毎に学習し、単語を周辺 語の一致数が少ない順にソート - データ -

    通時的, 本:Google Books Ngram の 1900s vs 1990s - 条件(年齢、性別、職業)の違い, Twitter:The Celebrity Profiling corpus (Wiegmann2019) の職業 performer vs sports 8
  7. 結果:用法が変化した単語の検出 - 通時的データの 1900s vs 1990s - top-10 に Hamilton2016a

    でも出現した変化した単語 - wanting, gay, major, check が出現 - 職業の違い(performer vs sports) - top-10 に以下の単語が出現 - cc (carbon copy vs country club) - duo (duet vs pair of people) - wing (politics vs football position) 9
  8. 実験:用法が変化した単語リストの安定性 - 手法:Word2Vec をコーパス毎に学習後… - 提案手法:単語を周辺語の一致数が少ない順にソート - Hamilton2016:回転行列で対応付け、余弦類似度が低 い順にソート -

    データ(Twitter) - 条件(年齢、性別、職業)の違い - 1週間の中での違い:日中(火水)vs 週末(土日) - 年単位での違い:2014 vs 2018 10
  9. 実験:意味が変化した単語リストとの相関 - 手法:Word2Vec をコーパス毎に学習後… - 提案手法:単語を周辺語の一致数が少ない順にソート - Hamilton2016:回転行列で対応付け、余弦類似度が低 い順にソート -

    スコア付きのデータ(ドイツ語) - DURel:時期間で意味が変化した単語のリスト - SURel:同時期、異なるドメイン間で意味が変化した単語 のリスト 15
  10. Reference [1] Vivek Kulkarni, Rami Al-Rfou, Bryan Perozzi, and Steven

    Skiena. Statistically significant detection of linguistic change, WWW2015. [link] [2] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [3] William L. Hamilton, Jure Leskovec, and Dan Jurafsky. Cultural Shift or Linguistic Drift? Comparing Two Computational Measures of Semantic Change, EMNLP2016. [link] [4] Dominik Schlechtweg, Anna Hätty, Marco Del Tredici, Sabine Schulte im Walde.A Wind of Change: Detecting and Evaluating Lexical Semantic Change across Times and Domains, ACL2019 [link] 19