文献紹介：Temporal Attention for Language Models

Slide 1

Slide 1 text

Temporal Attention for Language Models Guy D. Rosin, Kira Radinsky Findings of NAACL2022 論文紹介

Slide 2

Slide 2 text

概要 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 - 3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで更に性能↑ 2

Slide 3

Slide 3 text

通時的な意味変化の検出 - 時期の異なる文書を比較し、意味が変わっている単語を検出する - zoom （Web 会議） - 最近は BERT などのモデルで単語の出現毎にベクトルを獲得する手法が人気 - 辞書で語義ごとのベクトルを準備し、分類（Hu+19） - クラスタリングで語義を分類（Giulianelli+20, Montariol+21） 3

Slide 4

Slide 4 text

事前学習済みモデルの問題点 - 現代のデータだけで訓練されている - 時期の異なるデータに適用すると性能の劣化が生じる（Loureiro+22） 4

Slide 5

Slide 5 text

解決方法 - 対象のデータで1から訓練する（Aida+21, Loureiro+22, Qiu+22） - 膨大な計算資源が必要 - 事前学習済み言語モデルを調整する - 単純に fine-tuning（Martinc+20） - 時間タグを文につけて MLM （Rosin+22）同じ著者！ - 簡単、高性能 5

Slide 6

Slide 6 text

先行研究→提案手法 - 先行研究では、データを増やす・変更を加えて通時適応を行う - モデルの構造に変更を加えた例は無い - 本論文では、時期を考慮する Attention 機構を提案 6

Slide 7

Slide 7 text

（復習）一般的な Self-Attention - Q, K, V はそれぞれ query, key, value の重みと入力 X との積 - X は入力する単語ベクトル 7

Slide 8

Slide 8 text

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」提案手法：Temporal Attention 8

Slide 9

Slide 9 text

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元提案手法：Temporal Attention 9

Slide 10

Slide 10 text

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算ただし、 10

Slide 11

Slide 11 text

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル xt を用意し、xt から時期特有の重みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算ただし、 11 通常の Self-Attention

Slide 12

Slide 12 text

実験：意味変化検出 - SemEval-2020 Task 1 - 対象単語を意味変化の度合いで順位付けるタスク - 評価：スピアマンの順位相関、ピアソンの相関係数 - 言語：英語、ラテン語、ドイツ語（スウェーデン語は実施せず） 12

Slide 13

Slide 13 text

結果：意味変化検出 - SGNS vs BERT - ドイツ語で SGNS が高いが、提案手法が上回る 13 SGNS↑ BERT↓

Slide 14

Slide 14 text

結果：意味変化検出 - 従来の調整 vs モデルごと変更（提案） - 全ての言語で提案手法が上回る 14 従来↑ 提案↓

Slide 15

Slide 15 text

結果：意味変化検出 - Scaled（baseline） vs Temporal（提案） - 全ての言語で提案手法が上回る 15 - Scaled Linear：時期の index を直接割り当てる - Scaled Exp.：時期の index で２を累乗し、割り当てる - Scaled by Doc：該当時期の文書数の比率を割り当てる囲った部分を変更する（重み行列 Wt 無し）

Slide 16

Slide 16 text

実験：既存手法との組み合わせ - 著者が以前提案した手法（時間タグを付与して調整）と組み合わせる 16

Slide 17

Slide 17 text

結果：既存手法との組み合わせ - 組み合わせる（Both）ことで、 - 英語：今回の手法（Temp. Att.）を上回る - ラテン語・ドイツ語：今回の手法を下回る 17

Slide 18

Slide 18 text

実験：BERT のサイズによる違い - 以前の研究（時間タグを付与して調整）で、BERT tiny でも十分に通時適応できることを示した - 今回は？ 18

Slide 19

Slide 19 text

結果：BERT のサイズによる違い - SemEval-2020 Task 1、英語 - tiny モデル＋提案手法（Temp. Att.）が最高 - 通時適応程度なら小さいサイズのモデルで十分？ - 他の言語でも調べる必要がある 19

Slide 20

Slide 20 text

結論 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 - 3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで（英語だと）更に性能↑ 20

Slide 21

Slide 21 text

参考文献 - [Hu+19] Diachronic Sense Modeling with Deep Contextualized Word Embeddings: An Ecological View, ACL2019 - [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations, ACL2020 - [Montariol+21] Scalable and Interpretable Semantic Change Detection, NAACL2021 - [Loureiro+22] TimeLMs: Diachronic Language Models from Twitter, ACL2022 Demo - [Aida+21] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences, PACLIC2021 - [Qiu+22] HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic Analysis, arxiv - [Martinc+20] Leveraging Contextual Embeddings for Detecting Diachronic Semantic Shift, LREC2020 - [Rosin+22] Time Masking for Temporal Language Models, WSDM2022 21