Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Fake it Till You Make it: Self-Supervised Semantic Shifts for Monolingual Word Embedding Tasks Maurício Gruppi, Sibel Adalı, Pin-Yu Chen AAAI2021 論文紹介
Slide 2
Slide 2 text
導入 - 単語の意味変化を捉えるタスク - awful:印象深い(~1800年)→好ましくない(最近) - model:製品デザイン(工業)、数理モデル(科学) - 単語分散表現を用いて検出 - 各文書で独立に学習し、回転させて1つの空間に 2
Slide 3
Slide 3 text
問題点 - 教師なし学習 - 正解データ(意味が変化した/変化しない単語)がないた め、対象の文書に対して単語分散表現だけを使う →意味変化の有無を分類問題として捉え、自己教師ありの手法 を提案 - 全ての単語を用いて回転(Global alignment) - 意味変化した単語が使われることで、各ベクトル空間の特 徴を捉えた対応付けができない - 各文書で意味が変化しない単語(landmark)が良い →学習した分類器で landmark だけを抽出 3
Slide 4
Slide 4 text
本論文での解決策 - 教師なし学習 - 正解データ(意味が変化した/変化しない単語)がないた め、対象の文書に対して単語分散表現だけを使う →意味変化の有無を分類問題として捉え、訓練データを擬似的に 作成する自己教師ありの手法を提案 - 全ての単語を用いて回転(Global alignment) - 意味変化した単語が使われることで、各ベクトル空間の特 徴を捉えた対応付けができない - 各文書で意味が変化しない単語(landmark)が良い →学習した分類器で landmark だけを抽出し、回転させる 4
Slide 5
Slide 5 text
自己教師あり学習 (self-supervised learning) - 正解データがない・少ない時に、教師ありのタスク を擬似的に作りモデルを学習する手法 - 画像処理 - 画像を回転させ、似ているデータは近い埋め込み表現 - 事前学習済み言語モデル(BERT, ALBERTなど) - 文中の単語をマスクし、予測する 5
Slide 6
Slide 6 text
提案手法:S4-D 自己教師あり学習で分類器を獲得 - 自己教師あり学習(今回は分類問題) - 意味変化しない:回転行列の学習に使う単語(landmark) から抽出 - 意味変化する:回転行列の学習に使わない単語 (non-landmark)ベクトルに別の non-landmark の単語 ベクトルを足して意味変化した単語を生成する - 分類器 - 1層100ユニット、ReLU関数とsigmoid関数から構成 - 入力:結合した両時期の単語ベクトル - 出力:意味変化の有無 6
Slide 7
Slide 7 text
提案手法:S4-A 分類器で landmark を獲得して回転 - 分類器を学習する S4-D と大体は同じ - 回転行列の計算に使う landmark を更新 - S4-D で学習している分類器を使い、全ての単語から意味 変化の有無を予測 - 意味変化しないと予測された単語を landmark に - 最終的に得られた landmark で両ベクトル空間を 回転して対応付ける 7
Slide 8
Slide 8 text
実験 British vs. American English - 意味変化の検出は時期間で調査するのが多い が、ここでは時期を揃えて地域の違いを分析 - 回転行列の計算に使う landmark の選び方 - Global:全ての単語を使う - Top-5%, 10%:頻度の高い単語の上位5%, 10% - Bot-5%, 10%:頻度の低い単語の上位5%, 10% - S4-A(提案手法):分類器に基づいて更新する 8
Slide 9
Slide 9 text
実験 British vs. American English - 意味変化の検出は時期間で調査するのが多い が、ここでは時期を揃えて地域の違いを分析 - 意味変化の予測方法 - COS:余弦類似度。閾値は 0.3, 0.5, 0.7 とした - S4-D(提案手法):学習した分類器で予測 - Noisy-Pairs:言語間の単語ベクトルを対応付ける。EM アルゴリズムで landmark を選定し、確率に基づいて意味 変化の有無を予測する。 9
Slide 10
Slide 10 text
結果 British vs. American English - 提案手法である S4-D が安定して高い性能 - 低頻度語が悪さをしている可能性がある 10
Slide 11
Slide 11 text
結果 British vs. American English - 余弦類似度による予測は一貫して悪い - 提案手法 S4-A で landmark を選ぶと性能向上 11
Slide 12
Slide 12 text
結果 British vs. American English - 既存手法に基づく Noisy-Pairs が意味変化したと 予測したのは1単語のみ(Precision = 1) 12
Slide 13
Slide 13 text
実験 4つの言語で意味変化の有無を分類 - 2つの時期間で通時的な変化を検出する (SemEval-2020 Task 1) - 英語、ドイツ語、スウェーデン語、ラテン語で性能 を評価する - 回転行列の計算に使う landmark の選び方 - S4-A(提案手法) :分類器で予測して更新 - Noise-Aware:EM アルゴリズムで予測 - Top/Bot 5%, 10%:頻度の上位/下位5%, 10% - Global:全部使う - 余弦類似度に基づいて分類した 13
Slide 14
Slide 14 text
結果 4つの言語で意味変化の有無を分類 - 提案手法 S4-A が英語・ドイツ語において最高性 能を発揮した 14
Slide 15
Slide 15 text
実験 人工知能分野 vs. 物理 - arxiv で AI と物理の文書を比較 - 各手法で意味変化の度合い(余弦類似度の低い 順)で単語を順位付けし、手法間でスピアマンの 順位相関を計算 - 回転行列の計算に使う landmark を選ぶ手法 - Global - Noise-Aware - S4-A(提案手法) 15
Slide 16
Slide 16 text
結果 意味変化検出の傾向 - 既存手法の相関に比べ、提案手法と他2つの手 法はそこまで相関が高くない→既存手法が見落 としている意味変化を検出できるのでは? 16
Slide 17
Slide 17 text
結果 各手法が予測した単語 - 提案手法 S4-A は変化を説明しやすい単語を予 測してくれている - mass:物理的質量(物理)、確率質量(AI) 17
Slide 18
Slide 18 text
結論 - 正解データの不足による教師なし学習、回転行列 の学習に使う意味が変化しない単語選択という問 題を解決するため、自己教師ありで分類器を学習 する手法を提案 - 学習した分類器は高い性能を発揮し、分類器を 使って意味が変化しない単語を選ぶと適切に文 書間のベクトル空間を対応付けできる 18
Slide 19
Slide 19 text
19