Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PhD Defence: Considering Temporal and Contextua...

Taichi Aida
January 20, 2025

PhD Defence: Considering Temporal and Contextual Information for Lexical Semantic Change Detection

Taichi Aida

January 20, 2025
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. Considering Temporal and Contextual Information for Lexical Semantic Change Detection

    相田 太一 東京都立大学 システムデザイン研究科 情報科学域 博士論文審査会
  2. 背景(1章):意味変化検出 - 目的:時代で意味が変わる単語を自動で検出したい - 方針:時期ごとに学習する単語ベクトル - 時期ごとにベクトルを比較して変化を検出 8 [Hamilton+16] Diachronic

    Word Embeddings Reveal Statistical Laws of Semantic Change ✅ 軽量・高速に学習できる (時期ごとに学習すると、時期間で 直接比較できない空間ができる) ❌ 文単位の細かい意味は考慮できない
  3. 背景(1章):意味変化検出 - 目的:時代で意味が変わる単語を自動で検出したい - 方針:文ごとに学習する単語ベクトル - 時期ごとにベクトルを比較して変化を検出 9 [Giulianelli+20] Analysing

    Lexical Semantic Change with Contextualised Word Representations ❌ ベクトル計算に時間がかかる (モデルの訓練には計算資源も) ✅ 文ごとの意味を考慮できる (多くが文集合の平均ベクトル を使用して検出)
  4. 背景(1章):意味変化検出における4つの課題 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 文ごとに学習する手法は言語学者・社会学者が使うにはコストが大きい - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ベクトル(集合)の平均だけだと「意味の増減」しか検出できない - 信頼性:予測は一度きり→ノイズ?意味変化度合い? 算出した「意味変化の大きさ」は本当に信頼できるのか? - 教師なし:教師情報が無いので、調整できない 訓練・開発セットがないので、「意味変化検出に最適な」調整が困難 10
  5. 背景(1章):意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] 11
  6. 意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] 12
  7. 手法(2章):PMI 行列+SVD ≒ Word2Vec - PMI-SVD [Levy+14] :PMI 行列を SVD

    で分解すると Word2Vec と等価な単語ベクトルを獲得できる 17
  8. 手法(2章):対象単語に _時期 を付与して同時学習 - Temporal Referencing [Dubossarsky+19] : - 全ての時期の文書を結合し、1つの大きな文書として扱う

    - 指定のリスト L に含まれる対象単語に接尾辞「_時期」を付与 - 例)apple_1900, apple_1910, …, apple_1990, apple_2000 - 通常の単語ベクトルの学習を行うと対象単語だけは各時期で学習 18
  9. 手法(2章):対象単語に _時期 を付与して同時学習 - Temporal Referencing [Dubossarsky+19] : - 全ての時期の文書を結合し、1つの大きな文書として扱う

    - 指定のリスト L に含まれる対象単語に接尾辞「_時期」を付与 →課題1:調査対象の単語リストを事前に指定する必要がある - 通常の単語ベクトルの学習を行うと対象単語だけは各時期で学習 →課題2:時間変化を考慮するのは対象単語だけで十分? 19
  10. - 既存手法と提案した拡張手法を比較 - PMI-SVD tr (Temporal Referencing [Dubossarsky+19]) : 全ての時期の文書を結合し、1つの大きな文書として扱う

    - PMI-SVD joint :語彙に含まれる全ての単語を対象にする - PMI-SVD c :周辺単語の時間変化も考慮して学習 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語、ドイツ語、スウェーデン語、ラテン語 - タスク1:意味変化の有無を分類(⇔分類精度) - タスク2:意味変化の度合いで並べ替え(⇔順位相関) 実験1(2章):拡張手法による性能改善を検証 22
  11. 実験1(2章):拡張手法による性能改善を検証 - タスク1(分類):特に PMI-SVD joint で大きく改善し、 PMI-SVD c はラテン語で効果を発揮する 23

    手法 分類精度(Accuracy) 英語 ドイツ語 スウェーデン語 ラテン語 平均 PMI-SVD tr 0.622 0.625 0.613 0.525 0.596 PMI-SVD join t 0.649 0.708 0.677 0.525 0.640 PMI-SVD c 0.649 0.667 0.613 0.650 0.645
  12. 実験1(2章):拡張手法による性能改善を検証 - タスク2(並べ替え):英語は PMI-SVD tr が強いが、 他の言語では PMI-SVD joint と

    PMI-SVD c で性能改善 24 手法 順位相関(Spearman) 英語 ドイツ語 スウェーデン語 ラテン語 平均 PMI-SVD tr 0.487 0.527 0.257 0.123 0.349 PMI-SVD joint 0.438 0.540 0.478 0.141 0.399 PMI-SVD c 0.424 0.597 0.328 0.328 0.433
  13. - 提案した拡張手法と強力なベースラインを比較 - PMI-SVD joint :語彙に含まれる全ての単語を対象にする - PMI-SVD c :周辺単語の時間変化も考慮して学習

    - PMI-SVD align [Hamilton+16] :独立に学習して回転行列で対応 - Daynamic Word Embedding (DWE) [Yao+18]:PMI-SVD c より厳しい 制約でモデルを学習(対象単語、対象単語と文脈単語) - BERT:事前訓練済み・対象コーパスで事前訓練したモデル - 実応用に近い環境での意味変化検出 で評価 - ベンチマークのような「選定された数十単語」が存在しない - タスク:語彙全体を意味変化の度合いで並べ替え ⇔「意味変化した単語がどれだけ上位にくるか」(平均逆順位) 実験1(2章):強力な手法と比較 25
  14. 実験2(2章):強力な手法と比較 26 手法 平均逆順位(MRR) 学習時間 日本語 英語 英語 PMI-SVD align

    Word2Vec align 0.0009 0.0009 0.0010 0.0008 3m26s 6m22s DWE 0.0017 0.0005 30h20m BERT-base* BERT-tiny BERT-mini 0.0016 0.0008 0.0012 0.0025 0.0010 0.0014 2h23m 12days 2weeks PMI-SVD joint 0.0013 0.0019 2m58s PMI-SVD c 0.0014 0.0052 26m01s 外部データ で事前訓練
  15. 実験2(2章):強力な手法と比較 - 意味変化した単語「了解」「欠け」について調査 - BERT は漏洩する→対象のコーパスで学習する重要性 手法 時期 対象単語の近傍ベクトルから得られる単語 了解(理解→承諾)

    欠け(物理的→概念的) BERT-base* 戦前 承諾, 承知, 納得, 理解, 断定 マイナス, 決まり, 構え, 重み, 当て 戦後 承諾, 承知, 承認, 同意, 納得 欠如, 乏しい, 不足, 崩れ, 破れ PMI-SVD c 戦前 理解, 納得, 推測, 判断, 断定 切り, 切ら, 諦め, 箸, つける 戦後 承諾, 承知, 納得, 同意, 理解 有し, 欠如, 富ん, づけ, 把握 27
  16. 意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] 29
  17. - 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 提案(3章):意味の「幅」も考慮した検出 39
  18. - 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 提案(3章):意味の「幅」も考慮した検出 40
  19. - 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 平均(⭐)だけを使うのは先行研究で 生じる問題を解決しない! 提案(3章):意味の「幅」も考慮した検出 41
  20. - 時期間で分布を比較することで意味変化を検出 - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    ガウス分布を仮定しているため、平均と共分散行列から算出可能 - 距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 平均(⭐)だけを使うのは先行研究で 生じる問題を解決しない! →分布からベクトルを抽出し、距離計算 提案(3章):意味の「幅」も考慮した検出 42
  21. 実験(3章):当時の最高性能と比較 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語のみで実験(ドイツ語、スウェーデン語、ラテン語) - (タスク1:意味変化の有無を分類) -

    タスク2で評価:意味変化の度合いで並べ替え(⇔順位相関) - 過去の最高性能を達成したモデルと比較 - 時間で調整したBERT [Rosin+22a]:時間に関する特殊トークン (<1850>, <1960>)を付与し、対象のコーパスで追加訓練 - 時間で調整したBERT+時間を考慮した注意機構 [Rosin+22b]: 時間情報を考慮できる注意機構を追加し、上記の調整を行う 43
  22. 実験(3章):当時の最高性能と比較 - 同じモデル・平均のみ を上回り、追加構造有りにも迫る 44 手法 スピアマンの順位相関 調整済みBERT, 平均のみで cosine

    [Rosin+2022a] 0.467 調整済みBERT + 時期考慮した注意機構 平均のみで cosine [Rosin+2022b] (最高性能) 0.548 調整済みBERT, 平均と分散を考慮した cosine [提案手法] 0.479 調整済みBERT, 平均と分散を考慮した chebyshev [提案手法] 0.529
  23. まとめ(3章) - 背景:BERT などを用いる際、ベクトル集合の平均だけを 使用して意味変化を検出 ✅ 古い時期の意味が消える単語(意味が完全に変わる) ❌ 古い時期の意味が保持される単語(意味が増える、広がる) -

    提案:意味の幅も考慮した検出手法を提案 - 実験: - 平均だけを使う手法の性能を上回り、追加構造を持つ手法に迫る - 意味が広がる単語の意味変化度合いを適切に予測する 46
  24. 意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] 47
  25. 提案(4章):時期間でベクトルを入れ替えて予測 - 仮説:単語の意味が時期間で 不変/変化した とき、各時期 の文書から獲得したベクトル 集合(D 1 , D

    2 )と、部分的な ベクトル集合(s 1 , s 2 )を時 期間で入れ替えたベクトル集 合(D 1,swap , D 2,swap )は、 53
  26. 提案(4章):時期間でベクトルを入れ替えて予測 - 仮説:単語の意味が時期間で 不変/変化した とき、各時期 の文書から獲得したベクトル 集合(D 1 , D

    2 )と、部分的な ベクトル集合(s 1 , s 2 )を時 期間で入れ替えたベクトル集 合(D 1,swap , D 2,swap )は、入 れ替え前後で 似ている/異な る 54
  27. - パラメータ - 入れ替え率 [0, 1] - ダイバージェンス・距離関数 - (3章と同様)

    - Kullback-Leibler, Jeffrey's - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean - 意味変化度合いの予測 - |変化度 original - 変化度 swap | の平均 提案(4章):時期間でベクトルを入れ替えて予測 55
  28. 実験(4章):当時の強力な手法と比較 - 意味変化検出のベンチマーク [Schlechtweg+20] で評価 - 英語のみで実験(ドイツ語、スウェーデン語、ラテン語) - (タスク1:意味変化の有無を分類) -

    タスク2で評価:意味変化の度合いで並べ替え(⇔順位相関) - 過去の強力な手法と比較 - 【基準】時間で調整したBERT [Rosin+22a]:時間に関する特殊 トークン(<1850>, <1960>)を付与し、追加訓練 - +時間を考慮した注意機構 [Rosin+22b]:時間情報を考慮でき る注意機構を追加し、上記の調整を行う - 平均と分散を考慮 [3章]:ベクトル集合から分布を作成 57
  29. 実験(4章):当時の強力な手法と比較 - モデルを揃えた際、追加構造ありの手法を上回る 58 手法 スピアマンの順位相関 調整済みBERT, 平均のみで cosine [Rosin+2022a]

    0.467 調整済みBERT, 平均と分散を考慮した chebyshev [3章] 0.529 調整済みBERT + 時期考慮した注意機構 平均のみで cosine [Rosin+2022b] 0.548 調整済みBERT, ベクトル入れ替えをして Kullback-Leibler(C1||C2) [提案手法] 0.552
  30. 意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] 61
  31. 背景(5章):3章・4章の振り返り - 通常の機械学習タスク: 「色々な条件で探索 [dev] →良い条件で評価 [test]」 - 3章:意味の幅を考慮した検出 -

    共分散行列(対角成分のみ、対角+非対角) - ダイバージェンス・距離関数 - 4章:時期間でベクトルを入れ替えて予測 - 入れ替え率 [0, 1] - 入れ替え方(ランダム、距離ベース) - ダイバージェンス・距離関数 62
  32. 背景(5章):3章・4章の振り返り - 意味変化検出:開発データがなく、教師なし 「色々な条件で探索 [dev] →良い条件で評価 [test]」 - 3章:意味の幅を考慮した検出 -

    共分散行列(対角成分のみ、対角+非対角) - ダイバージェンス・距離関数 - 4章:時期間でベクトルを入れ替えて予測 - 入れ替え率 [0, 1] - 入れ替え方(ランダム、距離ベース) - ダイバージェンス・距離関数 63
  33. 背景(5章):(教師なし)意味変化検出の難しさ 66 - 表現する難しさ:✅ - 時間・意味のどちらを考慮すべき? →先行研究より、時間 << 意味 [Cassotti+23]

    - 比較する難しさ: - 時期間のベクトルをどう比較すべき? →獲得したベクトル集合について Cosine や Euclidean で比較することが多い
  34. 背景(5章):(教師なし)意味変化検出の難しさ 67 - 表現する難しさ:✅ - 時間・意味のどちらを考慮すべき? →先行研究より、時間 << 意味 [Cassotti+23]

    - 比較する難しさ:🎯 - 時期間のベクトルをどう比較すべき? →獲得したベクトル集合について Cosine や Euclidean で比較することが多い - 意味を考慮する/考慮しない 次元を 一様に扱ってしまう
  35. 提案(5章):意味を考慮した距離関数 - マハラノビス距離を採用 - 行列 A   を意味関係のタスクで学習 - タスク:Word-in-Context(二値分類) →モデルの学習

    [Cassotti+23] と同じ - 学習方法:Information Theoretic Metric Learning →同じ/異なるラベルのデータを 近く/遠くに 70
  36. 提案(5章):意味を考慮した距離関数 - マハラノビス距離を採用 - 行列 A   を意味関係のタスクで学習 - 特徴 -

    意味を考慮する/考慮しない 次元を 考慮できる(対角成分) - 次元を横断した情報も考慮できる (非対角成分) →「比較する難しさ」解消? 71
  37. 実験(5章):学習に使用したタスクの性能を評価 72 - Word-in-Context ベンチマークで評価(二値分類) - タスク:対象単語が2つの文で同じ意味か?(⇔分類精度) - 意味変化検出で使用する言語に対応する言語で評価 -

    英語⇔英語 [Martelli+21]、スウェーデン語・ドイツ語⇔ドイツ語 [Raganato+20]、ラテン語⇔フランス語 [Raganato+20]、 ロシア語⇔ロシア語 [Liu+21] - 評価:分類精度 - 最高性能を記録した手法と比較 - 【基準】XLM-RoBERTa [Conneau+20]:多言語で事前訓練 - +意味を考慮した調整 [Cassotti+23]:Word-in-Context で XLM-RoBERTa モデルを調整
  38. 実験(5章):学習に使用したタスクの性能を評価 - 既存手法の性能を大きく更新→距離関数の学習も重要 手法 英語 ドイツ語 フランス語 ロシア語 XLM-RoBERTa [Conneau+2020]

    86.6 84.0 76.2 80.9 +意味を考慮した調整 [Cassotti+2023] 78.0 78.3 73.2 78.2 +意味を考慮した距離関数 [提案手法] 90.3 84.9 78.7 87.6 73
  39. - 意味変化検出のベンチマーク で評価 - 英語、ドイツ語、スウェーデン語、ラテン語 [Schlechtweg+20] - 🆕ロシア語 [Kutuzov+21] -

    評価:意味変化の度合いで並べ替え(⇔順位相関) - 最高性能を記録した手法と比較 - 意味を考慮した調整 [Cassotti+23]:Word-in-Context で XLM-RoBERTa モデルを調整 - 提案手法: - 意味を考慮した距離関数 diagonal :行列 A の対角成分を使用 - 意味を考慮した距離関数 full :行列 A の全成分を使用 実験(5章):意味変化検出の性能を評価 74
  40. 実験(5章):意味変化検出の性能を評価 - 最高性能を出す手法を多くの言語で上回る 手法 英語 ドイツ語 スウェーデン 語 ラテン語 ロシア語

    意味を考慮した調整 [Cassotti+2023] 0.757 0.877 0.754 0.056 0.755 +意味を考慮した 距離関数 diagonal [提案手 法] 0.750 0.902 0.642 0.083 0.804 +意味を考慮した 距離関数 full [提案手法] 0.774 0.902 0.656 0.124 0.805 75
  41. 実験(5章):意味変化検出の性能を評価 - 行列 A: < →次元を横断した情報も重要 手法 英語 ドイツ語 スウェーデン

    語 ラテン語 ロシア語 意味を考慮した調整 [Cassotti+2023] 0.757 0.877 0.754 0.056 0.755 +意味を考慮した 距離関数 diagonal [提案手 法] 0.750 0.902 0.642 0.083 0.804 +意味を考慮した 距離関数 full [提案手法] 0.774 0.902 0.656 0.124 0.805 76
  42. まとめ(5章) - 背景:意味変化検出は教師なしのタスク - 表現する難しさ✅:時間と意味、どちらを考慮すべき? →先行研究より、時間 << 意味 - 比較する難しさ🎯:ベクトル集合をどう比較すべき?

    →Cosine や Euclidean を使うことが多いが、 意味を考慮する/考慮しない 次元を一様に扱ってしまう - 提案:意味を考慮した距離関数を学習 - 実験: - 学習に使用したタスク・意味変化検出タスクで既存手法を上回る - 学習した行列の次元を横断した情報も重要であることを示した 77
  43. 意味変化検出における4つの課題を解消 - Considering Temporal and Contextual Information for Lexical Semantic

    Change Detection - 計算資源:高性能な手法には膨大な計算資源が必要 ➡軽量・高速に動作する手法を改善(2章) [会誌 自然言語処理] - 意味の幅:平均ベクトルでは意味の広がりを検出不可 ➡ベクトル集合の幅を考慮した手法を提案(3章) [Findings of ACL2023] - 信頼性:予測は一度きり→ノイズ?意味変化度合い? ➡時期間で入れ替え+予測を複数回行う(4章) [Findings of EMNLP2023] - 教師なし:教師情報が無いので、調整できない ➡意味を考慮した距離関数を訓練(5章) [Findings of ACL2024] - まとめ・今後の課題(6章) 78
  44. まとめ・今後の課題(6章) - 意味変化検出における4つの課題を解消 - 限られた計算資源に適した手法を改善 - 意味の幅を考慮できる手法を提案 - 文入れ替え+予測を複数回行うことで、信頼性向上 -

    外部タスクの教師情報で意味を考慮した距離関数を学習 - 意味変化検出の研究はこれで完了…ではない! - 時間と意味の情報を考慮した手法 - 解釈性・説明可能性の向上 - 大規模言語モデル(LLM)の導入 80
  45. - 現状:時間 / 意味に関する情報のみを考慮 - 時間ラベルを使用した追加訓練 [Rosin+22a] - 時間に関する注意機構 [Rosin+22b]

    - 意味の幅を考慮した手法(3章) - 意味の教師情報を使用 [Cassotti+23](5章) 今後の課題(6章):時間と意味を考慮した手法 81
  46. 今後の課題(6章):時間と意味を考慮した手法 - 現状:時間 / 意味に関する情報のみを考慮 - 時間ラベルを使用した追加訓練 [Rosin+22a] - 時間に関する注意機構

    [Rosin+22b] - 意味の幅を考慮した手法(3章) - 意味の教師情報を使用 [Cassotti+23](5章) - 課題:時間+意味の情報を考慮 - 意味変化検出は意味と時間の両方を考慮することが重要 - 解決策:上記の手法を組み合わせる - 時間を考慮した追加訓練+意味の教師情報? - 時間情報の忘却を防ぎ、意味情報との混同も避ける必要がある 82
  47. 今後の課題(6章):解釈性・説明可能性の向上 - 現状:「意味変化の有無」が(なんとか)わかる - 膨大なデータの数千単語→意味変化した数十単語に絞れる - 課題:「どのような意味変化か?」を説明する - 辞書編集の時は「既存の意味から派生した意味」や 「新たに発生した意味」など、意味変化の種類が必要

    - 解決策1:意味の発生・消滅、意味の派生に分けて取り組む - 発生・消滅:クラスタリングの結果 [Ma+23] から推定 - 意味の派生:比喩的な用法の検出 [Choi+21] を活用 - 解決策2:意味変化の種類別に反応する評価尺度 [Baes+24] 84
  48. 今後の課題(6章):大規模言語モデルの導入 - 大規模言語モデル:対話型(出力はテキスト)、高性能 - 現状:意味変化検出の性能は低い [Periti+24] - 難しい点1:時間情報を扱うのが難しい [Qiu+24] -

    事前学習で時系列を考慮していない - 時間を明示的に扱う構造がない - 解決策:時間を考慮する構造 [Rosin+22a, Rosin+22b] - 難しい点2:ベクトルではなくテキストを生成する - 従来のベクトルに基づいた検出手法が適用できない - 解決策1:対象単語の類義語を生成させる [Periti+24] - 解決策2:辞書のような定義文を生成させる [Giulianelli+23] 87
  49. まとめ・今後の課題(6章) - まとめ - 限られた計算資源に適した手法を改善 - 意味の幅を考慮できる手法を提案 - 文入れ替え+予測を複数回行うことで、信頼性向上 -

    外部タスクの教師情報で意味を考慮した距離関数を学習 - 今後の課題 - 時間と意味の情報を考慮した手法 - 解釈性・説明可能性の向上 - 大規模言語モデル(LLM)の導入 88
  50. 実験1(2章):拡張手法による性能改善を検証 - データ:SemEval-2020 Task 1 言語 時期 対象単語 文数 延べ語数

    異なり語数 英語 1810-1860 1960-2010 37 254k 354k 6.5M 6.7M 87k 150k ドイツ語 1800-1899 1946-1990 48 2.6M 3.5M 70.2M 72.3M 1.0M 2.3M スウェーデン語 1790-1830 1895-1903 31 3.4M 5.2M 71.0M 110.0M 1.9M 3.4M ラテン語 B.C. 200-0 0-2000 40 96k 463k 1.7M 9.4M 65k 253k 91
  51. 実験1(2章):拡張手法による性能改善を検証 - なぜ「事前に用意した単語リスト」では不十分なのか? - 仮説:他にも意味・用法が変わった単語がある - 分析:意味変化した可能性のある単語を抽出 - モデル:PMI-SVD joint

    - PMI-SVD tr は事前に用意した単語だけを複数時期で学習する - データ:SemEval-2020 Task 1の4言語 - 方法:語彙全体から cosine 類似度が低い10単語を抽出 92
  52. 実験1(2章):拡張手法による性能改善を検証 - 結果:名詞[名]や固有名詞が多い→リストでは不十分? 言語 意味が変わった可能性の高い(cosine 類似度が低い)単語 英語 christopher[名], former[形], txt[名],

    harver[名], douglas[名], lester[名], ernest[名], enhance[動], primary[形], hence[副] ドイツ語 Anm[名], Berlin[名], Martens[名], Gesch[形], Udo[名], Rolf[名], Lex[名], Ekkehard[名], Rep[名], Lichtenberg[名] スウェーデン語 wigde[動], tvär[形], anderson[名], hvilken[代], emil[名], eklund[名], äfven[副], ericson[名], leonard[名], lindberg[名] ラテン語 Nero[名], nimirum[副], videlicet[副], siquidem[副], autem[接], Caecina[名], astus[名], quoniam[接], tantummodo[副], vel[接] 93
  53. 実験2(2章):強力な手法と比較 - データ: - 日本語:Corpus of Historical Japanese - 英語:Corpus

    of Historical American English 94 言語 時期 対象単語 延べ語数 異なり語数 日本語 1874-1944 1945-1997 26 17M 16M 152k 127k 英語 1900-1909 1990-1909 20 1.7M 9.4M 65k 253k
  54. 実験2(2章):強力な手法と比較(擬似データ) - 意味変化した単語を擬似的に生成 - なるべく意味が似ていない単語ペア(例:景色、友)を選び、 ある時期(新しい時期)の用例について下記の操作を行う - 「景色」の用例を「友」に置換 - 「友」の用例を削除

    - 置換(例:景色→友): - 変更前:フランスの国道にそった景色のよいところですから、 - 変更後:フランスの国道にそった友のよいところですから、 - 削除(例:友): - 変更前:世界の友よ、手をつなぎ、なかよくとんであそぼうよ - 変更後:世界の よ、手をつなぎ、なかよくとんであそぼうよ 95 古い時期での「友」は不変 「友」が「友→景色」に変化
  55. 実験2(2章):強力な手法と比較(擬似データ) 96 手法 平均逆順位(MRR) 日本語 英語 PMI-SVD align Word2Vec align

    0.0171 0.0022 0.0010 0.0004 DWE 0.0913 0.0835 BERT-base* 0.0776 0.0590 PMI-SVD joint 0.0737 0.0933 PMI-SVD c 0.0781 0.0870 外部データ で事前訓練
  56. - 最も良いダイバージェンス・距離関数は? - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 提案手法の中で比較 - 平均ベクトル・共分散行列(full matrix) - 距離関数のみ - 平均ベクトル・共分散行列(diagonal matrix) - ダイバージェンス、距離関数 実験(3章):提案手法内での比較 97
  57. - 最も良いダイバージェンス・距離関数は? 実験(3章):提案手法内での比較 98 手法 スピアマンの順位相関 Cov [full] Cov [diag]

    Bray-Curtis 0.460 0.464 Canberra 0.502 0.455 Chebyshev 0.529 0.517 City Block 0.414 0.461 Correlation 0.481 0.480 Cosine 0.479 0.478 Euclidean 0.454 0.473 手法 スピアマンの 順位相関 Cov [diag] KL(C1||C2) 0.414 KL(C2||C1) 0.361 Jeff(C1||C2) 0.391 意味変化に特化した次元 (軸)の存在?→5章
  58. 実験(4章):並べ替え検定(PT)との比較 99 手法 順位相関(Spearman) 英語 ドイツ語 スウェーデン語 ラテン語 調整済みBERT +

    PT [Liu+21] 0.341 0.304 0.162 0.502 事前訓練済みBERT + ベクトル入れ替え 0.383 0.597 0.234 0.433 - 調整済みBERT + PT:有意でない単語を除外 - 提案手法は事前訓練済みモデルでその性能を上回る
  59. - 最も良いダイバージェンス・距離関数は? - ダイバージェンス - Kullback-Leibler, Jeffrey's divergence を使用 -

    距離関数 - Bray-Curtis, Canberra, Chebyshev, City Block, Correlation, Cosine, Euclidean を使用 - 提案手法の中で比較 - 入れ替え率 rate [0, 1] - 入れ替え方法 - rand:ランダムに入れ替え - dist:入れ替え先のベクトル集合から遠いものを順に入れ替え 実験(4章):提案手法内での比較 100
  60. 実験(4章):提案手法内での比較 - 3章とは異なり、ダイバージェンスでの性能が高くなる 101 手法 スピアマンの順位相関 rand (rate) dist (rate)

    Bray-Curtis 0.423 (0.4) 0.396 (0.2) Canberra 0.345 (0.4) 0.420 (0.2) Chebyshev 0.345 (0.4) 0.492 (0.2) City Block 0.372 (0.4) 0.395 (0.2) Correlation 0.471 (0.4) 0.454 (0.1) Cosine 0.471 (0.4) 0.454 (0.1) Euclidean 0.453 (0.4) 0.401 (0.1) 手法 スピアマンの順位相関 rand (rate) dist (rate) KL(C1||C2) 0.552 (0.4) 0.507 (0.2) KL(C2||C1) 0.516 (0.4) 0.466 (0.2) Jeff(C1||C2) 0.534 (0.4) 0.496 (0.2)
  61. 実験(4章):提案手法内での比較 - 入れ替え率は 0.4 くらいが良い←予測できないか? 102 手法 スピアマンの順位相関 rand (rate)

    dist (rate) Bray-Curtis 0.423 (0.4) 0.396 (0.2) Canberra 0.345 (0.4) 0.420 (0.2) Chebyshev 0.345 (0.4) 0.492 (0.2) City Block 0.372 (0.4) 0.395 (0.2) Correlation 0.471 (0.4) 0.454 (0.1) Cosine 0.471 (0.4) 0.454 (0.1) Euclidean 0.453 (0.4) 0.401 (0.1) 手法 スピアマンの順位相関 rand (rate) dist (rate) KL(C1||C2) 0.552 (0.4) 0.507 (0.2) KL(C2||C1) 0.516 (0.4) 0.466 (0.2) Jeff(C1||C2) 0.534 (0.4) 0.496 (0.2)
  62. 実験(5章):2種類のタスクの説明 - Word-in-Context(二値分類):学習に使用 - “They stopped at an open space(🏠)

    in the jungle” - “The astronauts walked in outer space(🪐) without a tether” - word “space” takes the same meaning?: False - 意味変化検出(順位づけ):目的のタスク - “If a plane(🔲) be parallel to the horizontal…” “The sun is in the same plane(🔲) as the picture…” - “The President’s plane(✈) landed at Goose Bay…” “The plane(✈) kept climbing and climbing…” - the meaning of “plane” is changed?: True (degree: 0.7) 105
  63. 分析(5章):性能向上の要因を調査 - 意味変化の2つの法則 [Hamilton+16] との関連を分析 - law of innovation:多義であるほど意味変化しやすい -

    law of conformity:頻度が高いほど意味変化しにくい - 下記の要素との順位相関を計算 - 正解の意味変化度合い:実験と同様 - 多義性:WordNet で単語が持つ意味(Synset)の数 - 頻度:対象のコーパス(C1:古い時期、C2:新しい時期)で 単語の頻度を計算 110
  64. 手法 各指標とのスピアマン相関 意味変化 多義性 頻度(C1) 頻度(C2) 意味を考慮した調整 [Cassotti+2023] 0.757 0.427

    -0.182 -0.062 +意味を考慮した 距離関数 diagonal [提案手法] 0.750 0.355 -0.205 -0.121 +意味を考慮した 距離関数 full [提案手法] 0.774 0.404 -0.122 -0.037 分析(5章):性能向上の要因を調査 111
  65. 手法 各指標とのスピアマン相関 意味変化 多義性 頻度(C1) 頻度(C2) 意味を考慮した調整 [Cassotti+2023] 0.757 0.427

    -0.182 -0.062 +意味を考慮した 距離関数 diagonal [提案手法] 0.750 0.355 -0.205 -0.121 +意味を考慮した 距離関数 full [提案手法] 0.774 0.404 -0.122 -0.037 分析(5章):性能向上の要因を調査 - 多義性との相関が高いほど良い:✅ law of innovation 112
  66. 手法 各指標とのスピアマン相関 意味変化 多義性 頻度(C1) 頻度(C2) 意味を考慮した調整 [Cassotti+2023] 0.757 0.427

    -0.182 -0.062 +意味を考慮した 距離関数 diagonal [提案手法] 0.750 0.355 -0.205 -0.121 +意味を考慮した 距離関数 full [提案手法] 0.774 0.404 -0.122 -0.037 分析(5章):性能向上の要因を調査 - 頻度との相関は低いほど良い:❌ law of conformity 113 意味変化の種類によって 意味変化の法則が変わる? →6章「今後の課題2」