文献紹介：Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection

Slide 1

Slide 1 text

Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection Adam Tsakalidis and Maria Liakata EMNLP2020 (ArXiv: “Autoencoding Word Representations through Time for Semantic Change Detection”) 論文紹介

Slide 2

Slide 2 text

導入 - 単語の意味変化を検出する研究 - gay：楽観的な → 同性愛 - 問題点 - 既存手法との比較を行った研究が少ない - 評価セットが少ない→数値評価（quantitative）ではなく、意味変化した単語の変遷を追うなどの定性的な評価（qualitative）が多い - どの手法が良いのかわからない - 通時的なモデリングをしていない - 最初と最後の2点を比較しているものばかり →本論文では、encoder-decoder モデルを用いた手法を提案（通時的なモデリングを期待） 2

Slide 3

Slide 3 text

提案手法 3 入力：ある単語における各時期 t = 0 ~ i-1 の単語分散表現出力：ある単語における各時期 t = 0 ~ i-1 の再構築された単語分散表現出力：ある単語における各時期 t = i ~ T-1 の予測された単語分散表現

Slide 4

Slide 4 text

提案手法：概要 - 再構築 (Auto Encoder) - 与えられた時期 t = 0~i の単語分散表現を再構築 - 予測 - 与えらえれた時期から先の時期 t = i~T-1 の単語分散表現を予測 4 単語の意味変化の判断予測・再構築した単語ベクトルと実際の単語ベクトルの余弦類似度が低い単語：意味変化の可能性大

Slide 5

Slide 5 text

提案手法：訓練 - 再構築 (Auto Encoder) - t = 0~i までを再構築 - 予測 - t = i~T-1 を予測 - 結合モデル 5

Slide 6

Slide 6 text

実験 1. 単純な意味変化について、提案手法の中の3つのモデルを比較 2. 多様な意味変化について、提案手法と既存手法を比較 6

Slide 7

Slide 7 text

実験 1. 単純な意味変化について、提案手法の中の3つのモデルを比較 2. 多様な意味変化について、提案手法と既存手法を比較 7

Slide 8

Slide 8 text

実験1：単純な意味変化について提案手法の中の3つのモデルを比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現 - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学習：Tsakalidis2019[1] - 65単語は意味の変化を確認している。擬似的に生成した、シンプルな意味変化をする単語のみで実験を行うため、除外 - 残りの80％の単語ベクトルを訓練用、20％をテスト用に - 擬似的に意味の変化する単語を作成：Rosenfeld2018[2] - 2つの単語 α, β を抽出（最初の時期の類似度が (c-0.1, c] のもの） - 時間 t が経過するとともに、徐々に α → β へ変化 - λ t はシグモイド関数により生成。 1→0 と変化する。 8

Slide 9

Slide 9 text

実験1：単純な意味変化について提案手法の中の3つのモデルを比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余弦類似度の平均を算出 - 値が低い：ある時点で単語の意味が変化した可能性が高い - 値が高い：単語の意味が変化した可能性は低い - 作成した意味の変化する単語の平均順位 μ r を算出 - 平均順位が低い：意味変化した単語を上位に捉えられている 9

Slide 10

Slide 10 text

実験1：単純な意味変化について提案手法の中の3つのモデルを比較 - モデル：提案手法の3パターン - 与えられた各時期の単語分散表現を再構築する Auto Encoder（seq2seq_r） - input: W 2000 , W 2001 , …, W 2013 - output: Wr 2000 , Wr 2001 , …, Wr 2013 - 与えられた最初の時点の単語分散表現からその後全ての時期の単語分散表現を予測する（seq2seq_f） - input: W 2000 - output: Wf 2001 , …, Wf 2013 - a と b の結合モデル（seq2seq_rf） - input: W 2000 , W 2001 , …, W 2006 - output: Wr 2000 , …, Wr 2006 , Wf 2007 , …, Wf 2013 10

Slide 11

Slide 11 text

結果1：意味が変化した単語の平均順位 μ r - 結合したモデル（seq2seq_rf）の平均順位が最も低い：意味の変化した単語を捉えられている 11

Slide 12

Slide 12 text

結果1：時間経過で意味が変化する単語ベクトルと予測した単語ベクトルの類似度 12 全て再構築しているため、全体的に類似度は高い t=7以降の類似度が低く、ある程度意味変化を捉えている最も良く意味変化を捉えている擬似的に生成した意味の変化する単語

Slide 13

Slide 13 text

実験 1. 単純な意味変化について、提案手法の中の3つのモデルを比較 2. 多様な意味変化について、提案手法と既存手法を比較 13

Slide 14

Slide 14 text

実験2：多様な意味変化について提案手法と既存手法を比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現 - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学習 - 65単語は意味の変化を確認している。今回は多様な意味変化をする単語について実験を行うため、これらもテストデータに含める。 - 残りの80％の単語ベクトルを訓練用、20％をテスト用に - 擬似的に意味の変化する単語は作成せず、実際に意味の変化した単語で評価 - 擬似的に生成した単語のように必ずしもシグモイド曲線のように変化するわけではない＝多様 14

Slide 15

Slide 15 text

実験2：多様な意味変化について提案手法と既存手法を比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余弦類似度の平均を算出 - 値が低い：ある時点で単語の意味が変化した可能性が高い - 値が高い：単語の意味が変化した可能性は低い - 実際に意味の変化した65単語の平均順位 μ r を算出 - 平均順位が低い：意味変化した単語を上位に捉えられている 15

Slide 16

Slide 16 text

実験2：多様な意味変化について提案手法と既存手法を比較 - 比較する既存手法 - ランダムなランキング（RAND）：1000回行う - 回転行列で alignment i. t=0 と t=i を alignment（PROCR）：Hamilton2016[3] ii. t=0 と t=i について、意味が変化しない k 単語を元に alignment （PROCRk）：Tsakalidis2019[1] iii. (ii) を隣合う2つの時期について行い、全時期で共通する k 単語で alignment（PROCRkt）：Tsakalidis2019[1] - 最初と最後の2点間のみを使用 i. Random Forest（RF）：t=0 から t=i を予測 ii. 提案手法の再構築モデル（LSTMr）：t=0, t=i を再構築 iii. 提案手法の予測モデル（LSTMf）：t=0 から t=i を予測 16

Slide 17

Slide 17 text

実験2：多様な意味変化について提案手法と既存手法を比較 - 比較する既存手法 - PROCR の結果（各単語における t=0, t=i (i>2) の余弦類似度）を用いる：Shoemark2019[4] i. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) と 1, 2, …, i の Pearson 相関を計算し、全ての単語について絶対値で並び替え（GTc） - 相関が強い：t=0 の時の単語ベクトルから徐々に離れる・近くなるため、意味が変化した可能性が高い ii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) について線形回帰を適用し、傾きの大きさで並び替え（GTβ） - 傾きが大きい：意味が変化した可能性が高い iii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) を平均して並び替え（PROCR*） 17

Slide 18

Slide 18 text

結果2：意味が変化した単語の平均順位 μ r と Recall@k 18 多様な意味変化の場合でも、提案手法が意味変化した単語を捉えられている

Slide 19

Slide 19 text

解析：どの時期まで・どの時期から予測する？ 19

Slide 20

Slide 20 text

解析：どの時期まで・どの時期から予測する？ 20 入力を全て再構築するモデルは多くの時期の単語ベクトルを与える方が良い入力からそれ以降のベクトルを予測するモデルは少ない時期の入力で良い

Slide 21

Slide 21 text

解析：どの時期まで・どの時期から予測する？ 21 両者の結合モデルでは安定して結果が良いため、特に気にしなくて良い

Slide 22

Slide 22 text

結論 - encoder-decoder モデルによる各時期の単語分散表現の再構築・予測をする手法を提案 - 擬似的に意味変化する単語ベクトルを作成して提案手法内で評価したところ、再構築・予測を行う結合モデルが優れていた - 実際に意味変化した単語について既存手法と比較したところ、提案手法が最も意味変化した単語を上位に順位付けていた 22

Slide 23

Slide 23 text

参考文献 [1] Adam Tsakalidis, Marya Bazzi, Mihai Cucuringu, Pierpaolo Basile, Barbara McGillivray. Mining the UK Web Archive for Semantic Change Detection, RANLP2019. [link] [2] Alex Rosenfeld, Katrin Erk. Deep Neural Models of Semantic Shift, ACL2018. [link] [3] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [4] Philippa Shoemark, Farhana Ferdousi Liza, Dong Nguyen, Scott Hale, Barbara McGillivray. Room to Glo: A Systematic Comparison of Semantic Change Detection Approaches with Word Embeddings, EMNLP2019. [link] 23