Slide 1

Slide 1 text

Temporal Attention for Language Models Guy D. Rosin, Kira Radinsky Findings of NAACL2022 論文紹介

Slide 2

Slide 2 text

概要 - 通時的なデータに対応させるため、時期特有の 重みを与える Temporal Attention を提案 - 実験より、 - 3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで更に性能↑ 2

Slide 3

Slide 3 text

通時的な意味変化の検出 - 時期の異なる文書を比較し、意味が変わっている 単語を検出する - zoom (Web 会議) - 最近は BERT などのモデルで単語の出現毎にベ クトルを獲得する手法が人気 - 辞書で語義ごとのベクトルを準備し、分類(Hu+19) - クラスタリングで語義を分類(Giulianelli+20, Montariol+21) 3

Slide 4

Slide 4 text

事前学習済みモデルの問題点 - 現代のデータだけで訓練されている - 時期の異なるデータに適用すると性能の劣化が 生じる(Loureiro+22) 4

Slide 5

Slide 5 text

解決方法 - 対象のデータで1から訓練する(Aida+21, Loureiro+22, Qiu+22) - 膨大な計算資源が必要 - 事前学習済み言語モデルを調整する - 単純に fine-tuning(Martinc+20) - 時間タグを文につけて MLM (Rosin+22)同じ著者! - 簡単、高性能 5

Slide 6

Slide 6 text

先行研究→提案手法 - 先行研究では、データを増やす・変更を加えて通 時適応を行う - モデルの構造に変更を加えた例は無い - 本論文では、時期を考慮する Attention 機構を 提案 6

Slide 7

Slide 7 text

(復習)一般的な Self-Attention - Q, K, V はそれぞれ query, key, value の重みと 入力 X との積 - X は入力する単語ベクトル 7

Slide 8

Slide 8 text

- 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 提案手法:Temporal Attention 8

Slide 9

Slide 9 text

- 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重 みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 提案手法:Temporal Attention 9

Slide 10

Slide 10 text

提案手法:Temporal Attention - 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重 みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算 ただし、 10

Slide 11

Slide 11 text

提案手法:Temporal Attention - 方針:「対応する時間ベクトルを計算することで、 ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル xt を用意し、xt から時期特有の重 みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算 ただし、 11 通常の Self-Attention

Slide 12

Slide 12 text

実験:意味変化検出 - SemEval-2020 Task 1 - 対象単語を意味変化の度合いで順位付けるタスク - 評価:スピアマンの順位相関、ピアソンの相関係数 - 言語:英語、ラテン語、ドイツ語(スウェーデン語は実施せず) 12

Slide 13

Slide 13 text

結果:意味変化検出 - SGNS vs BERT - ドイツ語で SGNS が高いが、提案手法が上回る 13 SGNS↑ BERT↓

Slide 14

Slide 14 text

結果:意味変化検出 - 従来の調整 vs モデルごと変更(提案) - 全ての言語で提案手法が上回る 14 従来↑ 提案↓

Slide 15

Slide 15 text

結果:意味変化検出 - Scaled(baseline) vs Temporal(提案) - 全ての言語で提案手法が上回る 15 - Scaled Linear:時期の index を直接割り当てる - Scaled Exp.:時期の index で2を累乗し、割り当てる - Scaled by Doc:該当時期の文書数の比率を割り当てる 囲った部分を変更する (重み行列 Wt 無し)

Slide 16

Slide 16 text

実験:既存手法との組み合わせ - 著者が以前提案した手法(時間タグを付与して調 整)と組み合わせる 16

Slide 17

Slide 17 text

結果:既存手法との組み合わせ - 組み合わせる(Both)ことで、 - 英語:今回の手法(Temp. Att.)を上回る - ラテン語・ドイツ語:今回の手法を下回る 17

Slide 18

Slide 18 text

実験:BERT のサイズによる違い - 以前の研究(時間タグを付与して調整)で、BERT tiny でも十分に通時適応できることを示した - 今回は? 18

Slide 19

Slide 19 text

結果:BERT のサイズによる違い - SemEval-2020 Task 1、英語 - tiny モデル+提案手法(Temp. Att.)が最高 - 通時適応程度なら小さいサイズのモデルで十分? - 他の言語でも調べる必要がある 19

Slide 20

Slide 20 text

結論 - 通時的なデータに対応させるため、時期特有の 重みを与える Temporal Attention を提案 - 実験より、 - 3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで(英語だと)更に性能↑ 20

Slide 21

Slide 21 text

参考文献 - [Hu+19] Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological View, ACL2019 - [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations, ACL2020 - [Montariol+21] Scalable and Interpretable Semantic Change Detection, NAACL2021 - [Loureiro+22] TimeLMs: Diachronic Language Models from Twitter, ACL2022 Demo - [Aida+21] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences, PACLIC2021 - [Qiu+22] HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic Analysis, arxiv - [Martinc+20] Leveraging Contextual Embeddings for Detecting Diachronic Semantic Shift, LREC2020 - [Rosin+22] Time Masking for Temporal Language Models, WSDM2022 21