Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection

9e650916f36300d64c9c61eeb4ab697e?s=47 Taichi Aida
November 10, 2020

文献紹介:Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection

Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection
Adam Tsakalidis and Maria Liakata
EMNLP2020

(arxiv: Autoencoding Word Representations through Time for Semantic Change Detection)

9e650916f36300d64c9c61eeb4ab697e?s=128

Taichi Aida

November 10, 2020
Tweet

Transcript

  1. Sequential Modelling of the Evolution of Word Representations for Semantic

    Change Detection Adam Tsakalidis and Maria Liakata EMNLP2020 (ArXiv: “Autoencoding Word Representations through Time for Semantic Change Detection”) 論文紹介
  2. 導入 - 単語の意味変化を検出する研究 - gay:楽観的な → 同性愛 - 問題点 -

    既存手法との比較を行った研究が少ない - 評価セットが少ない→数値評価(quantitative)ではなく、意味変化した単 語の変遷を追うなどの定性的な評価(qualitative)が多い - どの手法が良いのかわからない - 通時的なモデリングをしていない - 最初と最後の2点を比較しているものばかり →本論文では、encoder-decoder モデルを用いた 手法を提案(通時的なモデリングを期待) 2
  3. 提案手法 3 入力:ある単語における各 時期 t = 0 ~ i-1 の単語分

    散表現 出力:ある単語にお ける各時期 t = 0 ~ i-1 の再構築された 単語分散表現 出力:ある単語にお ける各時期 t = i ~ T-1 の予測された単 語分散表現
  4. 提案手法:概要 - 再構築 (Auto Encoder) - 与えられた時期 t = 0~i

    の 単語分散表現を再構築 - 予測 - 与えらえれた時期から先の 時期 t = i~T-1 の単語分散 表現を予測 4 単語の意味変化の判断 予測・再構築した単語ベクトルと実際 の単語ベクトルの余弦類似度が低い 単語:意味変化の可能性大
  5. 提案手法:訓練 - 再構築 (Auto Encoder) - t = 0~i までを再構築

    - 予測 - t = i~T-1 を予測 - 結合モデル 5
  6. 実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 6

  7. 実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 7

  8. 実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現

    - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学 習:Tsakalidis2019[1] - 65単語は意味の変化を確認している。擬似的に生成した、シンプルな意 味変化をする単語のみで実験を行うため、除外 - 残りの80%の単語ベクトルを訓練用、20%をテスト用に - 擬似的に意味の変化する単語を作成:Rosenfeld2018[2] - 2つの単語 α, β を抽出(最初の時期の類似度が (c-0.1, c] のもの) - 時間 t が経過するとともに、徐々に α → β へ変化 - λ t はシグモイド関数により生成。 1→0 と変化する。 8
  9. 実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余 弦類似度の平均を算出 - 値が低い:ある時点で単語の意味が変化した可能性が高い -

    値が高い:単語の意味が変化した可能性は低い - 作成した意味の変化する単語の平均順位 μ r を算出 - 平均順位が低い:意味変化した単語を上位に捉えられている 9
  10. 実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - モデル:提案手法の3パターン - 与えられた各時期の単語分散表現を再構築する Auto Encoder(seq2seq_r) - input:

    W 2000 , W 2001 , …, W 2013 - output: Wr 2000 , Wr 2001 , …, Wr 2013 - 与えられた最初の時点の単語分散表現からその後全ての 時期の単語分散表現を予測する(seq2seq_f) - input: W 2000 - output: Wf 2001 , …, Wf 2013 - a と b の結合モデル(seq2seq_rf) - input: W 2000 , W 2001 , …, W 2006 - output: Wr 2000 , …, Wr 2006 , Wf 2007 , …, Wf 2013 10
  11. 結果1:意味が変化した単語の平均順位 μ r - 結合したモデル(seq2seq_rf)の平均順位が最も 低い:意味の変化した単語を捉えられている 11

  12. 結果1:時間経過で意味が変化する単語ベクトルと 予測した単語ベクトルの類似度 12 全て再構築している ため、全体的に類 似度は高い t=7以降の類似度 が低く、ある程度意 味変化を捉えてい る

    最も良く意味変化を 捉えている 擬似的に生成した意味の変化する単語
  13. 実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 13

  14. 実験2:多様な意味変化について 提案手法と既存手法を比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現

    - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学 習 - 65単語は意味の変化を確認している。今回は多様な意味変化をする単 語について実験を行うため、これらもテストデータに含める。 - 残りの80%の単語ベクトルを訓練用、20%をテスト用に - 擬似的に意味の変化する単語は作成せず、実際に意味の 変化した単語で評価 - 擬似的に生成した単語のように必ずしもシグモイド曲線のように変化する わけではない=多様 14
  15. 実験2:多様な意味変化について 提案手法と既存手法を比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余 弦類似度の平均を算出 - 値が低い:ある時点で単語の意味が変化した可能性が高い -

    値が高い:単語の意味が変化した可能性は低い - 実際に意味の変化した65単語の平均順位 μ r を算出 - 平均順位が低い:意味変化した単語を上位に捉えられている 15
  16. 実験2:多様な意味変化について 提案手法と既存手法を比較 - 比較する既存手法 - ランダムなランキング(RAND):1000回行う - 回転行列で alignment i.

    t=0 と t=i を alignment(PROCR):Hamilton2016[3] ii. t=0 と t=i について、意味が変化しない k 単語を元に alignment (PROCRk):Tsakalidis2019[1] iii. (ii) を隣合う2つの時期について行い、全時期で共通する k 単語で alignment(PROCRkt):Tsakalidis2019[1] - 最初と最後の2点間のみを使用 i. Random Forest(RF):t=0 から t=i を予測 ii. 提案手法の再構築モデル(LSTMr):t=0, t=i を再構築 iii. 提案手法の予測モデル(LSTMf):t=0 から t=i を予測 16
  17. 実験2:多様な意味変化について 提案手法と既存手法を比較 - 比較する既存手法 - PROCR の結果(各単語における t=0, t=i (i>2)

    の余弦類 似度)を用いる:Shoemark2019[4] i. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) と 1, 2, …, i の Pearson 相関を計 算し、全ての単語について絶対値で並び替え(GTc) - 相関が強い:t=0 の時の単語ベクトルから 徐々に離れる・近くなる ため、意味が変化し た可能性が高い ii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) について線形回帰を適用し、傾き の大きさで並び替え(GTβ) - 傾きが大きい:意味が変化した可能性が高い iii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) を平均して並び替え(PROCR*) 17
  18. 結果2:意味が変化した単語の平均順位 μ r と Recall@k 18 多様な意味変化の場合でも、 提案手法が意味変化した単語を捉えられている

  19. 解析:どの時期まで・どの時期から予測する? 19

  20. 解析:どの時期まで・どの時期から予測する? 20 入力を全て再構築す るモデルは多くの時 期の単語ベクトルを 与える方が良い 入力からそれ以降の ベクトルを予測するモ デルは少ない時期の 入力で良い

  21. 解析:どの時期まで・どの時期から予測する? 21 両者の結合モデルで は安定して結果が良 いため、特に気にし なくて良い

  22. 結論 - encoder-decoder モデルによる各時期の単語分 散表現の再構築・予測をする手法を提案 - 擬似的に意味変化する単語ベクトルを作成して提 案手法内で評価したところ、再構築・予測を行う 結合モデルが優れていた -

    実際に意味変化した単語について既存手法と比 較したところ、提案手法が最も意味変化した単語 を上位に順位付けていた 22
  23. 参考文献 [1] Adam Tsakalidis, Marya Bazzi, Mihai Cucuringu, Pierpaolo Basile,

    Barbara McGillivray. Mining the UK Web Archive for Semantic Change Detection, RANLP2019. [link] [2] Alex Rosenfeld, Katrin Erk. Deep Neural Models of Semantic Shift, ACL2018. [link] [3] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [4] Philippa Shoemark, Farhana Ferdousi Liza, Dong Nguyen, Scott Hale, Barbara McGillivray. Room to Glo: A Systematic Comparison of Semantic Change Detection Approaches with Word Embeddings, EMNLP2019. [link] 23