PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection

Slide 1

Slide 1 text

Considering Temporal and Contextual Information for Lexical Semantic Change Detection 相田太一東京都立大学システムデザイン研究科情報科学域博士論文審査会

Slide 2

Slide 2 text

背景（1章）：意味変化検出 - Considering Temporal and Contextual Information for Lexical Semantic Change Detection 2

Slide 3

Slide 3 text

背景（1章）：意味変化検出 - 単語の意味は時代とともに変わる（ことがある） - plane：平面🔲→平面🔲、飛行機✈ - record：記録📝→記録📝、大会記録🎖、レコード🎵 - 従来は人手で検出・分析していた 3

Slide 4

Slide 4 text

背景（1章）：意味変化検出 - 単語の意味は時代とともに変わる（ことがある） - plane：平面🔲→平面🔲、飛行機✈ - record：記録📝→記録📝、大会記録🎖、レコード🎵 - 従来は人手で検出・分析していたが、膨大なデータから調べるのは大変 4

Slide 5

Slide 5 text

背景（1章）：意味変化検出 - 目的：時代で意味が変わる単語を自動で検出したい - 時代の異なる文書（大抵2つ、19世紀vs20世紀など） 5 19世紀 20世紀

Slide 6

Slide 6 text

背景（1章）：意味変化検出 - 目的：時代で意味が変わる単語を自動で検出したい - 時代の異なる文書（大抵2つ、19世紀vs20世紀など） - 本タスクの難しい点：文書間で時間も意味も変わる - 19世紀：If a plane(🔲) be parallel to the horizontal… - 20世紀：The President’s plane(✈) landed at Goose Bay… 6 19世紀 20世紀

Slide 7

Slide 7 text

背景（1章）：意味変化検出 - 目的：時代で意味が変わる単語を自動で検出したい - 方針：単語ベクトルを使用（左：時期単位、右：文単位） - 時期ごとにベクトルを比較して変化を検出 7 [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations

Slide 8

Slide 8 text

背景（1章）：意味変化検出 - 目的：時代で意味が変わる単語を自動で検出したい - 方針：時期ごとに学習する単語ベクトル - 時期ごとにベクトルを比較して変化を検出 8 [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change ✅ 軽量・高速に学習できる（時期ごとに学習すると、時期間で直接比較できない空間ができる） ❌ 文単位の細かい意味は考慮できない

Slide 9

Slide 9 text

背景（1章）：意味変化検出 - 目的：時代で意味が変わる単語を自動で検出したい - 方針：文ごとに学習する単語ベクトル - 時期ごとにベクトルを比較して変化を検出 9 [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations ❌ ベクトル計算に時間がかかる（モデルの訓練には計算資源も） ✅ 文ごとの意味を考慮できる（多くが文集合の平均ベクトルを使用して検出）

Slide 10

Slide 10 text

背景（1章）：意味変化検出における4つの課題 - Considering Temporal and Contextual Information for Lexical Semantic Change Detection - 計算資源：高性能な手法には膨大な計算資源が必要文ごとに学習する手法は言語学者・社会学者が使うにはコストが大きい - 意味の幅：平均ベクトルでは意味の広がりを検出不可ベクトル（集合）の平均だけだと「意味の増減」しか検出できない - 信頼性：予測は一度きり→ノイズ？意味変化度合い？算出した「意味変化の大きさ」は本当に信頼できるのか？ - 教師なし：教師情報が無いので、調整できない訓練・開発セットがないので、「意味変化検出に最適な」調整が困難 10

Slide 11

Slide 11 text

背景（1章）：意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic Change Detection - 計算資源：高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善（2章） [会誌自然言語処理] - 意味の幅：平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案（3章） [Findings of ACL2023] - 信頼性：予測は一度きり→ノイズ？意味変化度合い？ ➡時期間で入れ替え＋予測を複数回行う（4章） [Findings of EMNLP2023] - 教師なし：教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練（5章） [Findings of ACL2024] 11

Slide 12

Slide 12 text

意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic Change Detection - 計算資源：高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善（2章） [会誌自然言語処理] - 意味の幅：平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案（3章） [Findings of ACL2023] - 信頼性：予測は一度きり→ノイズ？意味変化度合い？ ➡時期間で入れ替え＋予測を複数回行う（4章） [Findings of EMNLP2023] - 教師なし：教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練（5章） [Findings of ACL2024] 12

Slide 13

Slide 13 text

導入（2章）：モデルの大きさ⇔性能 13 - 大きなサイズのモデル（BERT等）を使うことで… - 語義単位の詳細な分析ができるようになる [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations

Slide 14

Slide 14 text

導入（2章）：モデルの大きさ⇔計算資源⇔性能？ 14 - 大きなサイズのモデル（BERT等）を使うことで… - 語義単位の詳細な分析ができるようになるが、より多くの計算資源を必要とする [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations

Slide 15

Slide 15 text

導入（2章）：モデルの大きさ⇔計算資源⇔性能？ 15 - 大きなサイズのモデル（BERT等）を使うことで… - 語義単位の詳細な分析ができるようになるが、より多くの計算資源を必要とする - 言語学者・社会学者は利用可能な計算資源が少ない可能性 →大きなサイズのモデルは使えないことが多い！

Slide 16

Slide 16 text

導入（2章）：モデルの大きさ⇔計算資源⇔性能？ 16 - 大きなサイズのモデル（BERT等）を使うことで… - 語義単位の詳細な分析ができるようになるが、より多くの計算資源を必要とする - 言語学者・社会学者は利用可能な計算資源が少ない可能性 →大きなサイズのモデルは使えないことが多い！軽量・高速な小さいモデル（Word2Vec）で適切に意味の変化を検出するには？

Slide 17

Slide 17 text

手法（2章）：PMI 行列＋SVD ≒ Word2Vec - PMI-SVD [Levy+14] ：PMI 行列を SVD で分解すると Word2Vec と等価な単語ベクトルを獲得できる 17

Slide 18

Slide 18 text

手法（2章）：対象単語に _時期を付与して同時学習 - Temporal Referencing [Dubossarsky+19] ： - 全ての時期の文書を結合し、1つの大きな文書として扱う - 指定のリスト L に含まれる対象単語に接尾辞「_時期」を付与 - 例）apple_1900, apple_1910, …, apple_1990, apple_2000 - 通常の単語ベクトルの学習を行うと対象単語だけは各時期で学習 18

Slide 19

Slide 19 text

手法（2章）：対象単語に _時期を付与して同時学習 - Temporal Referencing [Dubossarsky+19] ： - 全ての時期の文書を結合し、1つの大きな文書として扱う - 指定のリスト L に含まれる対象単語に接尾辞「_時期」を付与 →課題1：調査対象の単語リストを事前に指定する必要がある - 通常の単語ベクトルの学習を行うと対象単語だけは各時期で学習 →課題2：時間変化を考慮するのは対象単語だけで十分？ 19

Slide 20

Slide 20 text

手法（2章）：全ての単語を調査対象に（拡張1） - Temporal Referencing [Dubossarsky+19] ： - 課題1：調査対象の単語リストを事前に指定する必要がある - PMI-SVD joint ：語彙に含まれる全ての単語を対象にする 20

Slide 21

Slide 21 text

手法（2章）：文脈単語の変化も考慮（拡張2） - Temporal Referencing [Dubossarsky+19] ： - 課題2：時間変化を考慮するのは対象単語だけで十分？ - PMI-SVD c ：周辺単語の時間変化も考慮して学習 21

Slide 22

Slide 22 text

- 既存手法と提案した拡張手法を比較 - PMI-SVD tr （Temporal Referencing [Dubossarsky+19]）：全ての時期の文書を結合し、1つの大きな文書として扱う - PMI-SVD joint ：語彙に含まれる全ての単語を対象にする - PMI-SVD c ：周辺単語の時間変化も考慮して学習 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語、ドイツ語、スウェーデン語、ラテン語 - タスク1：意味変化の有無を分類（⇔分類精度） - タスク2：意味変化の度合いで並べ替え（⇔順位相関）実験1（2章）：拡張手法による性能改善を検証 22

Slide 23

Slide 23 text

実験1（2章）：拡張手法による性能改善を検証 - タスク1（分類）：特に PMI-SVD joint で大きく改善し、 PMI-SVD c はラテン語で効果を発揮する 23 手法分類精度（Accuracy）英語ドイツ語スウェーデン語ラテン語平均 PMI-SVD tr 0.622 0.625 0.613 0.525 0.596 PMI-SVD join t 0.649 0.708 0.677 0.525 0.640 PMI-SVD c 0.649 0.667 0.613 0.650 0.645

Slide 24

Slide 24 text

実験1（2章）：拡張手法による性能改善を検証 - タスク2（並べ替え）：英語は PMI-SVD tr が強いが、他の言語では PMI-SVD joint と PMI-SVD c で性能改善 24 手法順位相関（Spearman）英語ドイツ語スウェーデン語ラテン語平均 PMI-SVD tr 0.487 0.527 0.257 0.123 0.349 PMI-SVD joint 0.438 0.540 0.478 0.141 0.399 PMI-SVD c 0.424 0.597 0.328 0.328 0.433

Slide 25

Slide 25 text

- 提案した拡張手法と強力なベースラインを比較 - PMI-SVD joint ：語彙に含まれる全ての単語を対象にする - PMI-SVD c ：周辺単語の時間変化も考慮して学習 - PMI-SVD align [Hamilton+16] ：独立に学習して回転行列で対応 - Dynamic Word Embedding (DWE) [Yao+18]：PMI-SVD c より厳しい制約でモデルを学習（対象単語、対象単語と文脈単語） - BERT：事前訓練済み・対象コーパスで事前訓練したモデル - 実応用に近い環境での意味変化検出で評価 - ベンチマークのような「選定された数十単語」が存在しない - タスク：語彙全体を意味変化の度合いで並べ替え ⇔「意味変化した単語がどれだけ上位にくるか」（平均逆順位）実験1（2章）：強力な手法と比較 25

Slide 26

Slide 26 text

実験2（2章）：強力な手法と比較 26 手法平均逆順位（MRR）学習時間日本語英語英語 PMI-SVD align Word2Vec align 0.0009 0.0009 0.0010 0.0008 3m26s 6m22s DWE 0.0017 0.0005 30h20m BERT-base* BERT-tiny BERT-mini 0.0016 0.0008 0.0012 0.0025 0.0010 0.0014 2h23m 12days 2weeks PMI-SVD joint 0.0013 0.0019 2m58s PMI-SVD c 0.0014 0.0052 26m01s 外部データで事前訓練

Slide 27

Slide 27 text

実験2（2章）：強力な手法と比較 - 意味変化した単語「了解」「欠け」について調査 - BERT は漏洩する→対象のコーパスで学習する重要性手法時期対象単語の近傍ベクトルから得られる単語了解（理解→承諾）欠け（物理的→概念的） BERT-base* 戦前承諾, 承知, 納得, 理解, 断定マイナス, 決まり, 構え, 重み, 当て戦後承諾, 承知, 承認, 同意, 納得欠如, 乏しい, 不足, 崩れ, 破れ PMI-SVD c 戦前理解, 納得, 推測, 判断, 断定切り, 切ら, 諦め, 箸, つける戦後承諾, 承知, 納得, 同意, 理解有し, 欠如, 富ん, づけ, 把握 27

Slide 28

Slide 28 text

- 背景：BERTなどのモデルは高性能・詳細な分析が可能 →言語学者・社会学者は利用可能な計算資源が少なく、大きなサイズのモデルを使用できないことが多い - 提案：軽量・高速なPMIベースの単語ベクトルを改良 - 実験： - 元となる手法（Temporal Referencing）の性能を改善 - 実応用に近い状況でも適切に意味変化を検出するまとめ（2章） 28

Slide 29

Slide 29 text

Slide 30

Slide 30 text

導入（3章）：モデルの大きさ⇔性能 30 - 大きなモデルは詳細な分析ができるが、計算資源が必要 - 2章では軽量・高速なモデルを改良した [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations

Slide 31

Slide 31 text

導入（3章）：モデルの大きさ⇔性能 31 - 大きなモデルは詳細な分析ができるが、計算資源が必要 - 2章では軽量・高速なモデルを改良した - 3章以降では、大きなモデルを用い、更なる性能改善に取り組む [Hamilton+16] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations

Slide 32

Slide 32 text

導入（3章）：大きなモデルを用いた意味変化検出 - 大きなモデル（BERTなど）は詳細な分析ができる - 単語（例：gay）に対して、文ごとにベクトルを獲得できる - 古い時期（例：19世紀）でのベクトル集合 - 新しい時期（例：20世紀）でのベクトル集合 - どのように意味変化を検出する？ 32

Slide 33

Slide 33 text

導入（3章）：大きなモデルを用いた意味変化検出 - 大きなモデル（BERTなど）は詳細な分析ができる - 単語（例：gay）に対して、文ごとにベクトルを獲得できる - 古い時期（例：19世紀）でのベクトル集合 - 新しい時期（例：20世紀）でのベクトル集合 - どのように意味変化を検出する？ →各時期のベクトル集合を平均し、その平均部分（⭐）を比較 33

Slide 34

Slide 34 text

導入（3章）：大きなモデルを用いた意味変化検出 - 意味変化は大きく分けて二つ - 古い時期での意味が新しい時期で失われる（例：gay） - 古い時期での意味が新たな時期でも保持される（例：cell） 34

Slide 35

Slide 35 text

導入（3章）：大きなモデルを用いた意味変化検出 - 各時期の平均ベクトル（⭐）を比較 ✅ 古い時期での意味が新しい時期で失われる（例：gay） ❌ 古い時期での意味が新たな時期でも保持される（例：cell） 35

Slide 36

Slide 36 text

提案（3章）：意味の「幅」も考慮した検出 - 平均部分（⭐）だけでなく、幅（🟦/🟧）も考慮する - 幅：共分散行列を採用→時期ごとに分布を定義できる 36

Slide 37

Slide 37 text

提案（3章）：意味の「幅」も考慮した検出 - 平均部分（⭐）だけでなく、幅（🟦/🟧）も考慮する ✅ 古い時期での意味が新しい時期で失われる（例：gay） ✅ 古い時期での意味が新たな時期でも保持される（例：cell） 37

Slide 38

Slide 38 text

提案（3章）：意味の「幅」も考慮した検出 - 平均部分（⭐）だけでなく、幅（🟦/🟧）も考慮する - 幅：共分散行列を採用→時期ごとに分布を定義できる - 時期間で分布を比較することで意味変化を検出 - 今回はガウス分布を採用 - 最もエントロピーが高い [Jaynes+2003] - ダイバージェンスを（閉形式で）使える - 平均と共分散行列で定義できる - （どのような分布でもOK） 38

Slide 39

Slide 39 text

- 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用提案（3章）：意味の「幅」も考慮した検出 39

Slide 40

Slide 40 text

- 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用提案（3章）：意味の「幅」も考慮した検出 40

Slide 41

Slide 41 text

- 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 平均（⭐）だけを使うのは先行研究で生じる問題を解決しない！提案（3章）：意味の「幅」も考慮した検出 41

Slide 42

Slide 42 text

- 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 平均（⭐）だけを使うのは先行研究で生じる問題を解決しない！ →分布からベクトルを抽出し、距離計算提案（3章）：意味の「幅」も考慮した検出 42

Slide 43

Slide 43 text

実験（3章）：当時の最高性能と比較 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語のみで実験（ドイツ語、スウェーデン語、ラテン語） - （タスク1：意味変化の有無を分類） - タスク2で評価：意味変化の度合いで並べ替え（⇔順位相関） - 過去の最高性能を達成したモデルと比較 - 時間で調整したBERT [Rosin+22a]：時間に関する特殊トークン（<1850>, <1960>）を付与し、対象のコーパスで追加訓練 - 時間で調整したBERT＋時間を考慮した注意機構 [Rosin+22b]：時間情報を考慮できる注意機構を追加し、上記の調整を行う 43

Slide 44

Slide 44 text

実験（3章）：当時の最高性能と比較 - 同じモデル・平均のみを上回り、追加構造有りにも迫る 44 手法スピアマンの順位相関調整済みBERT, 平均のみで cosine [Rosin+2022a] 0.467 調整済みBERT + 時期考慮した注意機構平均のみで cosine [Rosin+2022b] (最高性能) 0.548 調整済みBERT, 平均と分散を考慮した cosine [提案手法] 0.479 調整済みBERT, 平均と分散を考慮した chebyshev [提案手法] 0.529

Slide 45

Slide 45 text

分析（3章）：意味が広がる単語を検出できるか？ - ベンチマークの評価セットで分析：予測順位が改善 45 単語意味変化正解の順位予測順位平均のみ平均, 分散 prob ✔ 3 16 4 stab ✔ 7 10 11 bit ✔ 9 11 9 contemplation 32 1 37 chairman 36 5 33

Slide 46

Slide 46 text

まとめ（3章） - 背景：BERT などを用いる際、ベクトル集合の平均だけを使用して意味変化を検出 ✅ 古い時期の意味が消える単語（意味が完全に変わる） ❌ 古い時期の意味が保持される単語（意味が増える、広がる） - 提案：意味の幅も考慮した検出手法を提案 - 実験： - 平均だけを使う手法の性能を上回り、追加構造を持つ手法に迫る - 意味が広がる単語の意味変化度合いを適切に予測する 46

Slide 47

Slide 47 text

Slide 48

Slide 48 text

背景（4章）：ベクトル集合を用いた意味変化検出 - 様々な意味の変化を検出できるようになった 48 ⭐のみ意味変化の度合い：0.8✅ 意味変化の度合い：0.2❌ ⭐+🟦/🟧 （3章）意味変化の度合い：0.7✅ 意味変化の度合い：0.6✅

Slide 49

Slide 49 text

背景（4章）：ベクトル集合を用いた意味変化検出 49 ⭐のみ意味変化の度合い：0.8✅ 意味変化の度合い：0.2❌ ⭐+🟦/🟧 （3章）意味変化の度合い：0.7✅ 意味変化の度合い：0.6✅ - 様々な意味の変化を検出できるようになったが、意味変化度合いの算出は一度だけ

Slide 50

Slide 50 text

- 様々な意味の変化を検出できるようになったが、意味変化度合いの算出は一度だけ →本当に意味変化の度合いなのか、信頼できない！（ノイズかも？）背景（4章）：ベクトル集合を用いた意味変化検出 50 ⭐のみ意味変化の度合い：0.8✅ 意味変化の度合い：0.2❌ ⭐+🟦/🟧 （3章）意味変化の度合い：0.7✅ 意味変化の度合い：0.6✅

Slide 51

Slide 51 text

提案（4章）：時期間でベクトルを入れ替えて予測 51

Slide 52

Slide 52 text

提案（4章）：時期間でベクトルを入れ替えて予測 - 仮説：単語の意味が時期間で不変/変化したとき、各時期の文書から獲得したベクトル集合（D 1 , D 2 ）と、 52

Slide 53

Slide 53 text

提案（4章）：時期間でベクトルを入れ替えて予測 - 仮説：単語の意味が時期間で不変/変化したとき、各時期の文書から獲得したベクトル集合（D 1 , D 2 ）と、部分的なベクトル集合（s 1 , s 2 ）を時期間で入れ替えたベクトル集合（D 1,swap , D 2,swap ）は、 53

Slide 54

Slide 54 text

提案（4章）：時期間でベクトルを入れ替えて予測 - 仮説：単語の意味が時期間で不変/変化したとき、各時期の文書から獲得したベクトル集合（D 1 , D 2 ）と、部分的なベクトル集合（s 1 , s 2 ）を時期間で入れ替えたベクトル集合（D 1,swap , D 2,swap ）は、入れ替え前後で似ている/異なる 54

Slide 55

Slide 55 text

- パラメータ - 入れ替え率 [0, 1] - ダイバージェンス・距離関数 - （3章と同様） - Kullback-Leibler, Jeffrey's - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean - 意味変化度合いの予測 - |変化度 original - 変化度 swap | の平均提案（4章）：時期間でベクトルを入れ替えて予測 55

Slide 56

Slide 56 text

提案（4章）：時期間でベクトルを入れ替えて予測 - 従来：意味変化度合いの算出は一度だけ - 提案：「入れ替え→予測」を複数回行う（平均値を採用） →より信頼できる予測に 56

Slide 57

Slide 57 text

実験（4章）：当時の強力な手法と比較 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語のみで実験（ドイツ語、スウェーデン語、ラテン語） - （タスク1：意味変化の有無を分類） - タスク2で評価：意味変化の度合いで並べ替え（⇔順位相関） - 過去の強力な手法と比較 - 【基準】時間で調整したBERT [Rosin+22a]：時間に関する特殊トークン（<1850>, <1960>）を付与し、追加訓練 - ＋時間を考慮した注意機構 [Rosin+22b]：時間情報を考慮できる注意機構を追加し、上記の調整を行う - 平均と分散を考慮 [3章]：ベクトル集合から分布を作成 57

Slide 58

Slide 58 text

実験（4章）：当時の強力な手法と比較 - モデルを揃えた際、追加構造ありの手法を上回る 58 手法スピアマンの順位相関調整済みBERT, 平均のみで cosine [Rosin+2022a] 0.467 調整済みBERT, 平均と分散を考慮した chebyshev [3章] 0.529 調整済みBERT + 時期考慮した注意機構平均のみで cosine [Rosin+2022b] 0.548 調整済みBERT, ベクトル入れ替えをして Kullback-Leibler(C1||C2) [提案手法] 0.552

Slide 59

Slide 59 text

分析（4章）：意味変化した/しない単語の予測 - 入れ替えを行わない場合に比べて、順位を大幅に改善 59 単語意味変化正解の順位各入れ替え率での予測順位 0.0 0.4 1.0 plane ✔ 1 1 1 1 tip ✔ 2 25 2 2 prop ✔ 3 3 4 20 relationship 34 17 34 21 ﬁction 35 13 33 27

Slide 60

Slide 60 text

まとめ（4章） - 背景：ベクトル集合の平均や分散を考慮する [3章] ことで多様な意味変化を検出できるようになったが、意味変化度合いの算出は一度きり →本当に意味変化の度合い？それともノイズ？ - 提案：時期間で入れ替え→予測を複数回行い、信頼性向上 - 実験： - 同じモデルで比較した結果、追加構造を持つ手法を上回る - 入れ替えを行わない場合に比べて、予測順位を大幅に改善 60

Slide 61

Slide 61 text

Slide 62

Slide 62 text

背景（5章）：3章・4章の振り返り - 通常の機械学習タスク：「色々な条件で探索 [dev] →良い条件で評価 [test]」 - 3章：意味の幅を考慮した検出 - 共分散行列（対角成分のみ、対角＋非対角） - ダイバージェンス・距離関数 - 4章：時期間でベクトルを入れ替えて予測 - 入れ替え率 [0, 1] - 入れ替え方（ランダム、距離ベース） - ダイバージェンス・距離関数 62

Slide 63

Slide 63 text

背景（5章）：3章・4章の振り返り - 意味変化検出：開発データがなく、教師なし「色々な条件で探索 [dev] →良い条件で評価 [test]」 - 3章：意味の幅を考慮した検出 - 共分散行列（対角成分のみ、対角＋非対角） - ダイバージェンス・距離関数 - 4章：時期間でベクトルを入れ替えて予測 - 入れ替え率 [0, 1] - 入れ替え方（ランダム、距離ベース） - ダイバージェンス・距離関数 63

Slide 64

Slide 64 text

背景（5章）：（教師なし）意味変化検出の難しさ 64 - 表現する難しさ： - 時間・意味のどちらを考慮すべき？ - 比較する難しさ： - 時期間のベクトルをどう比較すべき？

Slide 65

Slide 65 text

背景（5章）：（教師なし）意味変化検出の難しさ 65 - 表現する難しさ：✅ - 時間・意味のどちらを考慮すべき？ →先行研究より、時間 << 意味 [Cassotti+23] - 比較する難しさ： - 時期間のベクトルをどう比較すべき？

Slide 66

Slide 66 text

背景（5章）：（教師なし）意味変化検出の難しさ 66 - 表現する難しさ：✅ - 時間・意味のどちらを考慮すべき？ →先行研究より、時間 << 意味 [Cassotti+23] - 比較する難しさ： - 時期間のベクトルをどう比較すべき？ →獲得したベクトル集合について Cosine や Euclidean で比較することが多い

Slide 67

Slide 67 text

背景（5章）：（教師なし）意味変化検出の難しさ 67 - 表現する難しさ：✅ - 時間・意味のどちらを考慮すべき？ →先行研究より、時間 << 意味 [Cassotti+23] - 比較する難しさ：🎯 - 時期間のベクトルをどう比較すべき？ →獲得したベクトル集合について Cosine や Euclidean で比較することが多い - 意味を考慮する/考慮しない次元を一様に扱ってしまう

Slide 68

Slide 68 text

提案（5章）：意味を考慮した距離関数 - 先行研究：意味を考慮するようにモデルを調整し、大幅に性能向上 [Cassotti+23]（→表現する難しさ✅） - 提案：距離関数も意味を考慮する（→比較する難しさ） 68

Slide 69

Slide 69 text

提案（5章）：意味を考慮した距離関数 69 - マハラノビス距離を採用 - 行列 A 　　を意味関係のタスクで学習 - タスク：Word-in-Context（二値分類） - 学習方法：Information Theoretic Metric Learning

Slide 70

Slide 70 text

提案（5章）：意味を考慮した距離関数 - マハラノビス距離を採用 - 行列 A 　　を意味関係のタスクで学習 - タスク：Word-in-Context（二値分類） →モデルの学習 [Cassotti+23] と同じ - 学習方法：Information Theoretic Metric Learning →同じ/異なるラベルのデータを近く/遠くに 70

Slide 71

Slide 71 text

提案（5章）：意味を考慮した距離関数 - マハラノビス距離を採用 - 行列 A 　　を意味関係のタスクで学習 - 特徴 - 意味を考慮する/考慮しない次元を考慮できる（対角成分） - 次元を横断した情報も考慮できる（非対角成分） →「比較する難しさ」解消？ 71

Slide 72

Slide 72 text

実験（5章）：学習に使用したタスクの性能を評価 72 - Word-in-Context ベンチマークで評価（二値分類） - タスク：対象単語が2つの文で同じ意味か？（⇔分類精度） - 意味変化検出で使用する言語に対応する言語で評価 - 英語⇔英語 [Martelli+21]、スウェーデン語・ドイツ語⇔ドイツ語 [Raganato+20]、ラテン語⇔フランス語 [Raganato+20]、ロシア語⇔ロシア語 [Liu+21] - 評価：分類精度 - 最高性能を記録した手法と比較 - 【基準】XLM-RoBERTa [Conneau+20]：多言語で事前訓練 - ＋意味を考慮した調整 [Cassotti+23]：Word-in-Context で XLM-RoBERTa モデルを調整

Slide 73

Slide 73 text

実験（5章）：学習に使用したタスクの性能を評価 - 既存手法の性能を大きく更新→距離関数の学習も重要手法英語ドイツ語フランス語ロシア語 XLM-RoBERTa [Conneau+2020] 86.6 84.0 76.2 80.9 ＋意味を考慮した調整 [Cassotti+2023] 78.0 78.3 73.2 78.2 ＋意味を考慮した距離関数 [提案手法] 90.3 84.9 78.7 87.6 73

Slide 74

Slide 74 text

- 意味変化検出のベンチマークで評価 - 英語、ドイツ語、スウェーデン語、ラテン語 [Schlechtweg+20] - 🆕ロシア語 [Kutuzov+21] - 評価：意味変化の度合いで並べ替え（⇔順位相関） - 最高性能を記録した手法と比較 - 意味を考慮した調整 [Cassotti+23]：Word-in-Context で XLM-RoBERTa モデルを調整 - 提案手法： - 意味を考慮した距離関数 diagonal ：行列 A の対角成分を使用 - 意味を考慮した距離関数 full ：行列 A の全成分を使用実験（5章）：意味変化検出の性能を評価 74

Slide 75

Slide 75 text

実験（5章）：意味変化検出の性能を評価 - 最高性能を出す手法を多くの言語で上回る手法英語ドイツ語スウェーデン語ラテン語ロシア語意味を考慮した調整 [Cassotti+2023] 0.757 0.877 0.754 0.056 0.755 ＋意味を考慮した距離関数 diagonal [提案手法] 0.750 0.902 0.642 0.083 0.804 ＋意味を考慮した距離関数 full [提案手法] 0.774 0.902 0.656 0.124 0.805 75

Slide 76

Slide 76 text

実験（5章）：意味変化検出の性能を評価 - 行列 A： < →次元を横断した情報も重要手法英語ドイツ語スウェーデン語ラテン語ロシア語意味を考慮した調整 [Cassotti+2023] 0.757 0.877 0.754 0.056 0.755 ＋意味を考慮した距離関数 diagonal [提案手法] 0.750 0.902 0.642 0.083 0.804 ＋意味を考慮した距離関数 full [提案手法] 0.774 0.902 0.656 0.124 0.805 76

Slide 77

Slide 77 text

分析（5章）：学習した行列を確認 - 特に、意味を考慮しない要素が存在するか？ - 単位行列で初期化しているため、学習後の行列 - 単位行列で更新分を可視化 77

Slide 78

Slide 78 text

分析（5章）：学習した行列を確認 - 297番目の軸の値が大幅に減少 →意味を考慮しない軸 - 非対角成分もわずかに更新 →非対角成分の重要性 78

Slide 79

Slide 79 text

まとめ（5章） - 背景：意味変化検出は教師なしのタスク - 表現する難しさ✅：時間と意味、どちらを考慮すべき？ →先行研究より、時間 << 意味 - 比較する難しさ🎯：ベクトル集合をどう比較すべき？ →Cosine や Euclidean を使うことが多いが、意味を考慮する/考慮しない次元を一様に扱ってしまう - 提案：意味を考慮した距離関数を学習 - 実験： - 学習に使用したタスク・意味変化検出タスクで既存手法を上回る - 学習した行列の次元を横断した情報も重要であることを示した 79

Slide 80

Slide 80 text

Slide 81

Slide 81 text

まとめ・今後の課題（6章） - 意味変化検出における4つの課題を解消 - 限られた計算資源に適した手法を改善 - 意味の幅を考慮できる手法を提案 - 文入れ替え＋予測を複数回行うことで、信頼性向上 - 外部タスクの教師情報で意味を考慮した距離関数を学習 - 意味変化検出の研究はこれで完了… 81

Slide 82

Slide 82 text

まとめ・今後の課題（6章） - 意味変化検出における4つの課題を解消 - 限られた計算資源に適した手法を改善 - 意味の幅を考慮できる手法を提案 - 文入れ替え＋予測を複数回行うことで、信頼性向上 - 外部タスクの教師情報で意味を考慮した距離関数を学習 - 意味変化検出の研究はこれで完了…ではない！ - 時間と意味の情報を考慮した手法 - 解釈性・説明可能性の向上 - 大規模言語モデル（LLM）の導入 82

Slide 83

Slide 83 text

- 現状：時間 / 意味に関する情報のみを考慮 - 時間ラベルを使用した追加訓練 [Rosin+22a] - 時間に関する注意機構 [Rosin+22b] - 意味の幅を考慮した手法（3章） - 意味の教師情報を使用 [Cassotti+23]（5章）今後の課題（6章）：時間と意味を考慮した手法 83

Slide 84

Slide 84 text

今後の課題（6章）：時間と意味を考慮した手法 - 現状：時間 / 意味に関する情報のみを考慮 - 時間ラベルを使用した追加訓練 [Rosin+22a] - 時間に関する注意機構 [Rosin+22b] - 意味の幅を考慮した手法（3章） - 意味の教師情報を使用 [Cassotti+23]（5章） - 課題：時間＋意味の情報を考慮 - 意味変化検出は意味と時間の両方を考慮することが重要 - 解決策：上記の手法を組み合わせる - 時間を考慮した追加訓練＋意味の教師情報？ - 時間情報の忘却を防ぎ、意味情報との混同も避ける必要がある 84

Slide 85

Slide 85 text

今後の課題（6章）：解釈性・説明可能性の向上 - 現状：「意味変化の有無」が（なんとか）わかる - 膨大なデータの数千単語→意味変化した数十単語に絞れる 85

Slide 86

Slide 86 text

今後の課題（6章）：解釈性・説明可能性の向上 - 現状：「意味変化の有無」が（なんとか）わかる - 膨大なデータの数千単語→意味変化した数十単語に絞れる - 課題：「どのような意味変化か？」を説明する - 辞書編集の時は「既存の意味から派生した意味」や「新たに発生した意味」など、意味変化の種類が必要 - 解決策1：意味の発生・消滅、意味の派生に分けて取り組む - 発生・消滅：クラスタリングの結果 [Ma+23] から推定 - 意味の派生：比喩的な用法の検出 [Choi+21] を活用 - 解決策2：意味変化の種類別に反応する評価尺度 [Baes+24] 86

Slide 87

Slide 87 text

今後の課題（6章）：大規模言語モデルの導入 - 大規模言語モデル：対話型（出力はテキスト）、高性能 - 現状：意味変化検出の性能は低い [Periti+24] 87

Slide 88

Slide 88 text

Slide 89

Slide 89 text

今後の課題（6章）：大規模言語モデルの導入 - 大規模言語モデル：対話型（出力はテキスト）、高性能 - 現状：意味変化検出の性能は低い [Periti+24] - 難しい点1：時間情報を扱うのが難しい [Qiu+24] - 事前学習で時系列を考慮していない - 時間を明示的に扱う構造がない - 解決策：時間を考慮する構造 [Rosin+22a, Rosin+22b] - 難しい点2：ベクトルではなくテキストを生成する - 従来のベクトルに基づいた検出手法が適用できない - 解決策1：対象単語の類義語を生成させる [Periti+24] - 解決策2：辞書のような定義文を生成させる [Giulianelli+23] 89

Slide 90

Slide 90 text

まとめ・今後の課題（6章） - まとめ - 限られた計算資源に適した手法を改善 - 意味の幅を考慮できる手法を提案 - 文入れ替え＋予測を複数回行うことで、信頼性向上 - 外部タスクの教師情報で意味を考慮した距離関数を学習 - 今後の課題 - 時間と意味の情報を考慮した手法 - 解釈性・説明可能性の向上 - 大規模言語モデル（LLM）の導入 90

Slide 91

Slide 91 text

Appendix 91

Slide 92

Slide 92 text

実験1（2章）：拡張手法による性能改善を検証 - 実験設定 - 語彙：双方の時期で100回以上出現した単語 - 文脈窓幅：前後4単語 - ベクトルの次元：100次元 - PMI-SVDc の制約パラメータ：{10-3, 10-2, …, 102, 103} の中で最も安定して学習できる 100=1 を使用 92

Slide 93

Slide 93 text

実験1（2章）：拡張手法による性能改善を検証 - データ：SemEval-2020 Task 1 言語時期対象単語文数延べ語数異なり語数英語 1810-1860 1960-2010 37 254k 354k 6.5M 6.7M 87k 150k ドイツ語 1800-1899 1946-1990 48 2.6M 3.5M 70.2M 72.3M 1.0M 2.3M スウェーデン語 1790-1830 1895-1903 31 3.4M 5.2M 71.0M 110.0M 1.9M 3.4M ラテン語 B.C. 200-0 0-2000 40 96k 463k 1.7M 9.4M 65k 253k 93

Slide 94

Slide 94 text

実験1（2章）：拡張手法による性能改善を検証 - なぜ「事前に用意した単語リスト」では不十分なのか？ - 仮説：他にも意味・用法が変わった単語がある - 分析：意味変化した可能性のある単語を抽出 - モデル：PMI-SVD joint - PMI-SVD tr は事前に用意した単語だけを複数時期で学習する - データ：SemEval-2020 Task 1の4言語 - 方法：語彙全体から cosine 類似度が低い10単語を抽出 94

Slide 95

Slide 95 text

実験1（2章）：拡張手法による性能改善を検証 - 結果：名詞[名]や固有名詞が多い→リストでは不十分？言語意味が変わった可能性の高い（cosine 類似度が低い）単語英語 christopher[名], former[形], txt[名], harver[名], douglas[名], lester[名], ernest[名], enhance[動], primary[形], hence[副] ドイツ語 Anm[名], Berlin[名], Martens[名], Gesch[形], Udo[名], Rolf[名], Lex[名], Ekkehard[名], Rep[名], Lichtenberg[名] スウェーデン語 wigde[動], tvär[形], anderson[名], hvilken[代], emil[名], eklund[名], äfven[副], ericson[名], leonard[名], lindberg[名] ラテン語 Nero[名], nimirum[副], videlicet[副], siquidem[副], autem[接], Caecina[名], astus[名], quoniam[接], tantummodo[副], vel[接] 95

Slide 96

Slide 96 text

実験2（2章）：強力な手法と比較 - データ： - 日本語：Corpus of Historical Japanese - 英語：Corpus of Historical American English 96 言語時期対象単語延べ語数異なり語数日本語 1874-1944 1945-1997 26 17M 16M 152k 127k 英語 1900-1909 1990-1909 20 1.7M 9.4M 65k 253k

Slide 97

Slide 97 text

実験2（2章）：強力な手法と比較（擬似データ） - 意味変化した単語を擬似的に生成 - なるべく意味が似ていない単語ペア（例：景色、友）を選び、ある時期（新しい時期）の用例について下記の操作を行う - 「景色」の用例を「友」に置換 - 「友」の用例を削除 - 置換（例：景色→友）： - 変更前：フランスの国道にそった景色のよいところですから、 - 変更後：フランスの国道にそった友のよいところですから、 - 削除（例：友）： - 変更前：世界の友よ、手をつなぎ、なかよくとんであそぼうよ - 変更後：世界の　よ、手をつなぎ、なかよくとんであそぼうよ 97 古い時期での「友」は不変「友」が「友→景色」に変化

Slide 98

Slide 98 text

実験2（2章）：強力な手法と比較（擬似データ） 98 手法平均逆順位（MRR）日本語英語 PMI-SVD align Word2Vec align 0.0171 0.0022 0.0010 0.0004 DWE 0.0913 0.0835 BERT-base* 0.0776 0.0590 PMI-SVD joint 0.0737 0.0933 PMI-SVD c 0.0781 0.0870 外部データで事前訓練

Slide 99

Slide 99 text

- 最も良いダイバージェンス・距離関数は？ - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 提案手法の中で比較 - 平均ベクトル・共分散行列（full matrix） - 距離関数のみ - 平均ベクトル・共分散行列（diagonal matrix） - ダイバージェンス、距離関数実験（3章）：提案手法内での比較 99

Slide 100

Slide 100 text

- 最も良いダイバージェンス・距離関数は？実験（3章）：提案手法内での比較 100 手法スピアマンの順位相関 Cov [full] Cov [diag] Bray-Curtis 0.460 0.464 Canberra 0.502 0.455 Chebyshev 0.529 0.517 City Block 0.414 0.461 Correlation 0.481 0.480 Cosine 0.479 0.478 Euclidean 0.454 0.473 手法スピアマンの順位相関 Cov [diag] KL(C1||C2) 0.414 KL(C2||C1) 0.361 Jeff(C1||C2) 0.391 意味変化に特化した次元（軸）の存在？→5章

Slide 101

Slide 101 text

実験（4章）：並べ替え検定（PT）との比較 101 手法順位相関（Spearman）英語ドイツ語スウェーデン語ラテン語調整済みBERT + PT [Liu+21] 0.341 0.304 0.162 0.502 事前訓練済みBERT + ベクトル入れ替え 0.383 0.597 0.234 0.433 - 調整済みBERT + PT：有意でない単語を除外 - 提案手法は事前訓練済みモデルでその性能を上回る

Slide 102

Slide 102 text

- 最も良いダイバージェンス・距離関数は？ - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 提案手法の中で比較 - 入れ替え率 rate [0, 1] - 入れ替え方法 - rand：ランダムに入れ替え - dist：入れ替え先のベクトル集合から遠いものを順に入れ替え実験（4章）：提案手法内での比較 102

Slide 103

Slide 103 text

実験（4章）：提案手法内での比較 - 3章とは異なり、ダイバージェンスでの性能が高くなる 103 手法スピアマンの順位相関 rand (rate) dist (rate) Bray-Curtis 0.423 (0.4) 0.396 (0.2) Canberra 0.345 (0.4) 0.420 (0.2) Chebyshev 0.345 (0.4) 0.492 (0.2) City Block 0.372 (0.4) 0.395 (0.2) Correlation 0.471 (0.4) 0.454 (0.1) Cosine 0.471 (0.4) 0.454 (0.1) Euclidean 0.453 (0.4) 0.401 (0.1) 手法スピアマンの順位相関 rand (rate) dist (rate) KL(C1||C2) 0.552 (0.4) 0.507 (0.2) KL(C2||C1) 0.516 (0.4) 0.466 (0.2) Jeff(C1||C2) 0.534 (0.4) 0.496 (0.2)

Slide 104

Slide 104 text

実験（4章）：提案手法内での比較 - 入れ替え率は 0.4 くらいが良い←予測できないか？ 104 手法スピアマンの順位相関 rand (rate) dist (rate) Bray-Curtis 0.423 (0.4) 0.396 (0.2) Canberra 0.345 (0.4) 0.420 (0.2) Chebyshev 0.345 (0.4) 0.492 (0.2) City Block 0.372 (0.4) 0.395 (0.2) Correlation 0.471 (0.4) 0.454 (0.1) Cosine 0.471 (0.4) 0.454 (0.1) Euclidean 0.453 (0.4) 0.401 (0.1) 手法スピアマンの順位相関 rand (rate) dist (rate) KL(C1||C2) 0.552 (0.4) 0.507 (0.2) KL(C2||C1) 0.516 (0.4) 0.466 (0.2) Jeff(C1||C2) 0.534 (0.4) 0.496 (0.2)

Slide 105

Slide 105 text

実験（4章）：最適な入れ替え率の予測 - 入れ替え後の分布に対して、ダイバージェンスを算出する →最も近くなる比率が最適？ 105

Slide 106

Slide 106 text

実験（4章）：最適な入れ替え率の予測 - 入れ替え後の分布に対してダイバージェンスを算出最も近くなる比率が最適？→近い比率は推定できる！ 106

Slide 107

Slide 107 text

実験（5章）：2種類のタスクの説明 - Word-in-Context（二値分類）：学習に使用 - “They stopped at an open space(🏠) in the jungle” - “The astronauts walked in outer space(🪐) without a tether” - word “space” takes the same meaning?: False - 意味変化検出（順位づけ）：目的のタスク - “If a plane(🔲) be parallel to the horizontal…” “The sun is in the same plane(🔲) as the picture…” - “The President’s plane(✈) landed at Goose Bay…” “The plane(✈) kept climbing and climbing…” - the meaning of “plane” is changed?: True (degree: 0.7) 107

Slide 108

Slide 108 text

実験（5章）：学習に使用したタスクの性能を評価 - データ：MCL-WiC、XL-WiC、AM2iCo 108 データ言語インスタンス（単語、文ペア、正解）の数訓練開発評価 MCL-WiC 英語 4.0k 0.5k 0.5k XL-WiC ドイツ語 48k 8.9k 1.1k フランス語 39k 8.6k 22k AM2iCo ロシア語 28k 0.5k 1.0k

Slide 109

Slide 109 text

実験（5章）：意味変化検出の性能を評価 - データ：RuShiftEval - ソビエト前（RuShiftEval1）、ソビエト中（RuShiftEval2）、ソビエト後（RuShiftEval3）の3つ - 3種類の比較が可能（1vs2、2vs3、1vs3） 109 言語時期対象単語文数延べ語数異なり語数ロシア語 1700-1916 1918-1990 1992-2016 99 3.3k 3.3k 3.3k 97k 78k 78k 39k 34k 35k

Slide 110

Slide 110 text

分析（5章）：性能向上の要因を調査 - 意味変化の2つの法則 [Hamilton+16] との関連を分析 - law of innovation：多義であるほど意味変化しやすい - law of conformity：頻度が高いほど意味変化しにくい - 下記の要素との順位相関を計算 - 正解の意味変化度合い：実験と同様 - 多義性：WordNet で単語が持つ意味（Synset）の数 - 頻度：対象のコーパス（C1：古い時期、C2：新しい時期）で単語の頻度を計算 110

Slide 111

Slide 111 text

Slide 112

Slide 112 text

手法各指標とのスピアマン相関意味変化多義性頻度（C1）頻度（C2）意味を考慮した調整 [Cassotti+2023] 0.757 0.427 -0.182 -0.062 ＋意味を考慮した距離関数 diagonal [提案手法] 0.750 0.355 -0.205 -0.121 ＋意味を考慮した距離関数 full [提案手法] 0.774 0.404 -0.122 -0.037 分析（5章）：性能向上の要因を調査 - 多義性との相関が高いほど良い：✅ law of innovation 112

Slide 113

Slide 113 text

手法各指標とのスピアマン相関意味変化多義性頻度（C1）頻度（C2）意味を考慮した調整 [Cassotti+2023] 0.757 0.427 -0.182 -0.062 ＋意味を考慮した距離関数 diagonal [提案手法] 0.750 0.355 -0.205 -0.121 ＋意味を考慮した距離関数 full [提案手法] 0.774 0.404 -0.122 -0.037 分析（5章）：性能向上の要因を調査 - 頻度との相関は低いほど良い：❌ law of conformity 113 意味変化の種類によって意味変化の法則が変わる？ →6章「今後の課題2」