Slide 1

Slide 1 text

Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection Adam Tsakalidis and Maria Liakata EMNLP2020 (ArXiv: “Autoencoding Word Representations through Time for Semantic Change Detection”) 論文紹介

Slide 2

Slide 2 text

導入 - 単語の意味変化を検出する研究 - gay:楽観的な → 同性愛 - 問題点 - 既存手法との比較を行った研究が少ない - 評価セットが少ない→数値評価(quantitative)ではなく、意味変化した単 語の変遷を追うなどの定性的な評価(qualitative)が多い - どの手法が良いのかわからない - 通時的なモデリングをしていない - 最初と最後の2点を比較しているものばかり →本論文では、encoder-decoder モデルを用いた 手法を提案(通時的なモデリングを期待) 2

Slide 3

Slide 3 text

提案手法 3 入力:ある単語における各 時期 t = 0 ~ i-1 の単語分 散表現 出力:ある単語にお ける各時期 t = 0 ~ i-1 の再構築された 単語分散表現 出力:ある単語にお ける各時期 t = i ~ T-1 の予測された単 語分散表現

Slide 4

Slide 4 text

提案手法:概要 - 再構築 (Auto Encoder) - 与えられた時期 t = 0~i の 単語分散表現を再構築 - 予測 - 与えらえれた時期から先の 時期 t = i~T-1 の単語分散 表現を予測 4 単語の意味変化の判断 予測・再構築した単語ベクトルと実際 の単語ベクトルの余弦類似度が低い 単語:意味変化の可能性大

Slide 5

Slide 5 text

提案手法:訓練 - 再構築 (Auto Encoder) - t = 0~i までを再構築 - 予測 - t = i~T-1 を予測 - 結合モデル 5

Slide 6

Slide 6 text

実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 6

Slide 7

Slide 7 text

実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 7

Slide 8

Slide 8 text

実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現 - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学 習:Tsakalidis2019[1] - 65単語は意味の変化を確認している。擬似的に生成した、シンプルな意 味変化をする単語のみで実験を行うため、除外 - 残りの80%の単語ベクトルを訓練用、20%をテスト用に - 擬似的に意味の変化する単語を作成:Rosenfeld2018[2] - 2つの単語 α, β を抽出(最初の時期の類似度が (c-0.1, c] のもの) - 時間 t が経過するとともに、徐々に α → β へ変化 - λ t はシグモイド関数により生成。 1→0 と変化する。 8

Slide 9

Slide 9 text

実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余 弦類似度の平均を算出 - 値が低い:ある時点で単語の意味が変化した可能性が高い - 値が高い:単語の意味が変化した可能性は低い - 作成した意味の変化する単語の平均順位 μ r を算出 - 平均順位が低い:意味変化した単語を上位に捉えられている 9

Slide 10

Slide 10 text

実験1:単純な意味変化について 提案手法の中の3つのモデルを比較 - モデル:提案手法の3パターン - 与えられた各時期の単語分散表現を再構築する Auto Encoder(seq2seq_r) - input: W 2000 , W 2001 , …, W 2013 - output: Wr 2000 , Wr 2001 , …, Wr 2013 - 与えられた最初の時点の単語分散表現からその後全ての 時期の単語分散表現を予測する(seq2seq_f) - input: W 2000 - output: Wf 2001 , …, Wf 2013 - a と b の結合モデル(seq2seq_rf) - input: W 2000 , W 2001 , …, W 2006 - output: Wr 2000 , …, Wr 2006 , Wf 2007 , …, Wf 2013 10

Slide 11

Slide 11 text

結果1:意味が変化した単語の平均順位 μ r - 結合したモデル(seq2seq_rf)の平均順位が最も 低い:意味の変化した単語を捉えられている 11

Slide 12

Slide 12 text

結果1:時間経過で意味が変化する単語ベクトルと 予測した単語ベクトルの類似度 12 全て再構築している ため、全体的に類 似度は高い t=7以降の類似度 が低く、ある程度意 味変化を捉えてい る 最も良く意味変化を 捉えている 擬似的に生成した意味の変化する単語

Slide 13

Slide 13 text

実験 1. 単純な意味変化について、提案手法の中の3つ のモデルを比較 2. 多様な意味変化について、提案手法と既存手法 を比較 13

Slide 14

Slide 14 text

実験2:多様な意味変化について 提案手法と既存手法を比較 - データ - UK Web Archive (2000-2013) で学習した単語分散表現 - 1年ごとに文書を分けて、word2vec skip-gram negative-sampling を学 習 - 65単語は意味の変化を確認している。今回は多様な意味変化をする単 語について実験を行うため、これらもテストデータに含める。 - 残りの80%の単語ベクトルを訓練用、20%をテスト用に - 擬似的に意味の変化する単語は作成せず、実際に意味の 変化した単語で評価 - 擬似的に生成した単語のように必ずしもシグモイド曲線のように変化する わけではない=多様 14

Slide 15

Slide 15 text

実験2:多様な意味変化について 提案手法と既存手法を比較 - 評価 - 予測した各時期の単語ベクトルと実際の単語ベクトルの余 弦類似度の平均を算出 - 値が低い:ある時点で単語の意味が変化した可能性が高い - 値が高い:単語の意味が変化した可能性は低い - 実際に意味の変化した65単語の平均順位 μ r を算出 - 平均順位が低い:意味変化した単語を上位に捉えられている 15

Slide 16

Slide 16 text

実験2:多様な意味変化について 提案手法と既存手法を比較 - 比較する既存手法 - ランダムなランキング(RAND):1000回行う - 回転行列で alignment i. t=0 と t=i を alignment(PROCR):Hamilton2016[3] ii. t=0 と t=i について、意味が変化しない k 単語を元に alignment (PROCRk):Tsakalidis2019[1] iii. (ii) を隣合う2つの時期について行い、全時期で共通する k 単語で alignment(PROCRkt):Tsakalidis2019[1] - 最初と最後の2点間のみを使用 i. Random Forest(RF):t=0 から t=i を予測 ii. 提案手法の再構築モデル(LSTMr):t=0, t=i を再構築 iii. 提案手法の予測モデル(LSTMf):t=0 から t=i を予測 16

Slide 17

Slide 17 text

実験2:多様な意味変化について 提案手法と既存手法を比較 - 比較する既存手法 - PROCR の結果(各単語における t=0, t=i (i>2) の余弦類 似度)を用いる:Shoemark2019[4] i. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) と 1, 2, …, i の Pearson 相関を計 算し、全ての単語について絶対値で並び替え(GTc) - 相関が強い:t=0 の時の単語ベクトルから 徐々に離れる・近くなる ため、意味が変化し た可能性が高い ii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) について線形回帰を適用し、傾き の大きさで並び替え(GTβ) - 傾きが大きい:意味が変化した可能性が高い iii. 単語 α について各時期との余弦類似度の結果 cos(w(α) 0 , w(α) 1 ), cos(w(α) 0 , w(α) 2 ), …, cos(w(α) 0 , w(α) i ) を平均して並び替え(PROCR*) 17

Slide 18

Slide 18 text

結果2:意味が変化した単語の平均順位 μ r と Recall@k 18 多様な意味変化の場合でも、 提案手法が意味変化した単語を捉えられている

Slide 19

Slide 19 text

解析:どの時期まで・どの時期から予測する? 19

Slide 20

Slide 20 text

解析:どの時期まで・どの時期から予測する? 20 入力を全て再構築す るモデルは多くの時 期の単語ベクトルを 与える方が良い 入力からそれ以降の ベクトルを予測するモ デルは少ない時期の 入力で良い

Slide 21

Slide 21 text

解析:どの時期まで・どの時期から予測する? 21 両者の結合モデルで は安定して結果が良 いため、特に気にし なくて良い

Slide 22

Slide 22 text

結論 - encoder-decoder モデルによる各時期の単語分 散表現の再構築・予測をする手法を提案 - 擬似的に意味変化する単語ベクトルを作成して提 案手法内で評価したところ、再構築・予測を行う 結合モデルが優れていた - 実際に意味変化した単語について既存手法と比 較したところ、提案手法が最も意味変化した単語 を上位に順位付けていた 22

Slide 23

Slide 23 text

参考文献 [1] Adam Tsakalidis, Marya Bazzi, Mihai Cucuringu, Pierpaolo Basile, Barbara McGillivray. Mining the UK Web Archive for Semantic Change Detection, RANLP2019. [link] [2] Alex Rosenfeld, Katrin Erk. Deep Neural Models of Semantic Shift, ACL2018. [link] [3] William L. Hamilton, Jure Leskovec, Dan Jurafsky. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change, ACL2016. [link] [4] Philippa Shoemark, Farhana Ferdousi Liza, Dong Nguyen, Scott Hale, Barbara McGillivray. Room to Glo: A Systematic Comparison of Semantic Change Detection Approaches with Word Embeddings, EMNLP2019. [link] 23