文献紹介：Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks

Slide 1

Slide 1 text

Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks Maurício Gruppi, Sibel Adalı, Pin-Yu Chen AAAI2021 論文紹介

Slide 2

Slide 2 text

導入 - 単語の意味変化を捉えるタスク - awful：印象深い（~1800年）→好ましくない（最近） - model：製品デザイン（工業）、数理モデル（科学） - 単語分散表現を用いて検出 - 各文書で独立に学習し、回転させて1つの空間に 2

Slide 3

Slide 3 text

問題点 - 教師なし学習 - 正解データ（意味が変化した/変化しない単語）がないため、対象の文書に対して単語分散表現だけを使う →意味変化の有無を分類問題として捉え、自己教師ありの手法を提案 - 全ての単語を用いて回転（Global alignment） - 意味変化した単語が使われることで、各ベクトル空間の特徴を捉えた対応付けができない - 各文書で意味が変化しない単語（landmark）が良い →学習した分類器で landmark だけを抽出 3

Slide 4

Slide 4 text

本論文での解決策 - 教師なし学習 - 正解データ（意味が変化した/変化しない単語）がないため、対象の文書に対して単語分散表現だけを使う →意味変化の有無を分類問題として捉え、訓練データを擬似的に作成する自己教師ありの手法を提案 - 全ての単語を用いて回転（Global alignment） - 意味変化した単語が使われることで、各ベクトル空間の特徴を捉えた対応付けができない - 各文書で意味が変化しない単語（landmark）が良い →学習した分類器で landmark だけを抽出し、回転させる 4

Slide 5

Slide 5 text

自己教師あり学習 (self-supervised learning) - 正解データがない・少ない時に、教師ありのタスクを擬似的に作りモデルを学習する手法 - 画像処理 - 画像を回転させ、似ているデータは近い埋め込み表現 - 事前学習済み言語モデル（BERT, ALBERTなど） - 文中の単語をマスクし、予測する 5

Slide 6

Slide 6 text

提案手法：S4-D 自己教師あり学習で分類器を獲得 - 自己教師あり学習（今回は分類問題） - 意味変化しない：回転行列の学習に使う単語（landmark）から抽出 - 意味変化する：回転行列の学習に使わない単語（non-landmark）ベクトルに別の non-landmark の単語ベクトルを足して意味変化した単語を生成する - 分類器 - 1層100ユニット、ReLU関数とsigmoid関数から構成 - 入力：結合した両時期の単語ベクトル - 出力：意味変化の有無 6

Slide 7

Slide 7 text

提案手法：S4-A 分類器で landmark を獲得して回転 - 分類器を学習する S4-D と大体は同じ - 回転行列の計算に使う landmark を更新 - S4-D で学習している分類器を使い、全ての単語から意味変化の有無を予測 - 意味変化しないと予測された単語を landmark に - 最終的に得られた landmark で両ベクトル空間を回転して対応付ける 7

Slide 8

Slide 8 text

実験 British vs. American English - 意味変化の検出は時期間で調査するのが多いが、ここでは時期を揃えて地域の違いを分析 - 回転行列の計算に使う landmark の選び方 - Global：全ての単語を使う - Top-5%, 10%：頻度の高い単語の上位5%, 10% - Bot-5%, 10%：頻度の低い単語の上位5%, 10% - S4-A（提案手法）：分類器に基づいて更新する 8

Slide 9

Slide 9 text

実験 British vs. American English - 意味変化の検出は時期間で調査するのが多いが、ここでは時期を揃えて地域の違いを分析 - 意味変化の予測方法 - COS：余弦類似度。閾値は 0.3, 0.5, 0.7 とした - S4-D（提案手法）：学習した分類器で予測 - Noisy-Pairs：言語間の単語ベクトルを対応付ける。EM アルゴリズムで landmark を選定し、確率に基づいて意味変化の有無を予測する。 9

Slide 10

Slide 10 text

結果 British vs. American English - 提案手法である S4-D が安定して高い性能 - 低頻度語が悪さをしている可能性がある 10

Slide 11

Slide 11 text

結果 British vs. American English - 余弦類似度による予測は一貫して悪い - 提案手法 S4-A で landmark を選ぶと性能向上 11

Slide 12

Slide 12 text

結果 British vs. American English - 既存手法に基づく Noisy-Pairs が意味変化したと予測したのは1単語のみ（Precision = 1） 12

Slide 13

Slide 13 text

実験 4つの言語で意味変化の有無を分類 - 2つの時期間で通時的な変化を検出する（SemEval-2020 Task 1） - 英語、ドイツ語、スウェーデン語、ラテン語で性能を評価する - 回転行列の計算に使う landmark の選び方 - S4-A（提案手法）：分類器で予測して更新 - Noise-Aware：EM アルゴリズムで予測 - Top/Bot 5%, 10%：頻度の上位/下位5%, 10% - Global：全部使う - 余弦類似度に基づいて分類した 13

Slide 14

Slide 14 text

結果 4つの言語で意味変化の有無を分類 - 提案手法 S4-A が英語・ドイツ語において最高性能を発揮した 14

Slide 15

Slide 15 text

実験人工知能分野 vs. 物理 - arxiv で AI と物理の文書を比較 - 各手法で意味変化の度合い（余弦類似度の低い順）で単語を順位付けし、手法間でスピアマンの順位相関を計算 - 回転行列の計算に使う landmark を選ぶ手法 - Global - Noise-Aware - S4-A（提案手法） 15

Slide 16

Slide 16 text

結果意味変化検出の傾向 - 既存手法の相関に比べ、提案手法と他2つの手法はそこまで相関が高くない→既存手法が見落としている意味変化を検出できるのでは？ 16

Slide 17

Slide 17 text

結果各手法が予測した単語 - 提案手法 S4-A は変化を説明しやすい単語を予測してくれている - mass：物理的質量（物理）、確率質量（AI） 17

Slide 18

Slide 18 text

結論 - 正解データの不足による教師なし学習、回転行列の学習に使う意味が変化しない単語選択という問題を解決するため、自己教師ありで分類器を学習する手法を提案 - 学習した分類器は高い性能を発揮し、分類器を使って意味が変化しない単語を選ぶと適切に文書間のベクトル空間を対応付けできる 18