文献紹介：Temporal Attention for Language Models

Temporal Attention for Language Models Guy D. Rosin, Kira Radinsky
Findings of NAACL2022 論文紹介

概要 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 -
3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで更に性能↑ 2

通時的な意味変化の検出 - 時期の異なる文書を比較し、意味が変わっている単語を検出する - zoom （Web 会議） - 最近は
BERT などのモデルで単語の出現毎にベクトルを獲得する手法が人気 - 辞書で語義ごとのベクトルを準備し、分類（Hu+19） - クラスタリングで語義を分類（Giulianelli+20, Montariol+21） 3

事前学習済みモデルの問題点 - 現代のデータだけで訓練されている - 時期の異なるデータに適用すると性能の劣化が生じる（Loureiro+22） 4

解決方法 - 対象のデータで1から訓練する（Aida+21, Loureiro+22, Qiu+22） - 膨大な計算資源が必要 - 事前学習済み言語モデルを調整する -
単純に fine-tuning（Martinc+20） - 時間タグを文につけて MLM （Rosin+22）同じ著者！ - 簡単、高性能 5

先行研究→提案手法 - 先行研究では、データを増やす・変更を加えて通時適応を行う - モデルの構造に変更を加えた例は無い - 本論文では、時期を考慮する Attention 機構を
提案 6

（復習）一般的な Self-Attention - Q, K, V はそれぞれ query, key, value
の重みと入力 X との積 - X は入力する単語ベクトル 7

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」提案手法：Temporal Attention 8

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重みを計算する行列 Wt
を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元提案手法：Temporal Attention 9

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重
みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算ただし、 10

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル xt を用意し、xt から時期特有の重
みを計算する行列 Wt を作成 - query, key, value の重み行列 Wq, Wk, Wv と同じ次元 - 以下のように時期特有の Attention を計算ただし、 11 通常の Self-Attention

実験：意味変化検出 - SemEval-2020 Task 1 - 対象単語を意味変化の度合いで順位付けるタスク - 評価：スピアマンの順位相関、ピアソンの相関係数 -
言語：英語、ラテン語、ドイツ語（スウェーデン語は実施せず） 12

結果：意味変化検出 - SGNS vs BERT - ドイツ語で SGNS が高いが、提案手法が上回る 13
SGNS↑ BERT↓

結果：意味変化検出 - 従来の調整 vs モデルごと変更（提案） - 全ての言語で提案手法が上回る 14 従来↑ 提案↓

結果：意味変化検出 - Scaled（baseline） vs Temporal（提案） - 全ての言語で提案手法が上回る 15 - Scaled
Linear：時期の index を直接割り当てる - Scaled Exp.：時期の index で２を累乗し、割り当てる - Scaled by Doc：該当時期の文書数の比率を割り当てる囲った部分を変更する（重み行列 Wt 無し）

実験：既存手法との組み合わせ - 著者が以前提案した手法（時間タグを付与して調整）と組み合わせる 16

結果：既存手法との組み合わせ - 組み合わせる（Both）ことで、 - 英語：今回の手法（Temp. Att.）を上回る - ラテン語・ドイツ語：今回の手法を下回る 17

実験：BERT のサイズによる違い - 以前の研究（時間タグを付与して調整）で、BERT tiny でも十分に通時適応できることを示した - 今回は？ 18

結果：BERT のサイズによる違い - SemEval-2020 Task 1、英語 - tiny モデル＋提案手法（Temp. Att.）が最高
- 通時適応程度なら小さいサイズのモデルで十分？ - 他の言語でも調べる必要がある 19

結論 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 -
3言語の意味変化検出タスクで最高性能 - 以前提案した手法との組み合わせで（英語だと）更に性能↑ 20

参考文献 - [Hu+19] Diachronic Sense Modeling with Deep Contextualized Word
Embeddings: An Ecological View, ACL2019 - [Giulianelli+20] Analysing Lexical Semantic Change with Contextualised Word Representations, ACL2020 - [Montariol+21] Scalable and Interpretable Semantic Change Detection, NAACL2021 - [Loureiro+22] TimeLMs: Diachronic Language Models from Twitter, ACL2022 Demo - [Aida+21] A Comprehensive Analysis of PMI-based Models for Measuring Semantic Differences, PACLIC2021 - [Qiu+22] HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic Analysis, arxiv - [Martinc+20] Leveraging Contextual Embeddings for Detecting Diachronic Semantic Shift, LREC2020 - [Rosin+22] Time Masking for Temporal Language Models, WSDM2022 21

文献紹介：Temporal Attention for Language Models

文献紹介：Temporal Attention for Language Models

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

Temporal Attention for Language Models Guy D. Rosin, Kira Radinsky

概要 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 -

通時的な意味変化の検出 - 時期の異なる文書を比較し、意味が変わっている単語を検出する - zoom （Web 会議） - 最近は

事前学習済みモデルの問題点 - 現代のデータだけで訓練されている - 時期の異なるデータに適用すると性能の劣化が生じる（Loureiro+22） 4

解決方法 - 対象のデータで1から訓練する（Aida+21, Loureiro+22, Qiu+22） - 膨大な計算資源が必要 - 事前学習済み言語モデルを調整する -

先行研究→提案手法 - 先行研究では、データを増やす・変更を加えて通時適応を行う - モデルの構造に変更を加えた例は無い - 本論文では、時期を考慮する Attention 機構を

（復習）一般的な Self-Attention - Q, K, V はそれぞれ query, key, value

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」提案手法：Temporal Attention 8

- 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重みを計算する行列 Wt

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル Xt を用意し、Xt から時期特有の重

提案手法：Temporal Attention - 方針：「対応する時間ベクトルを計算することで、ある時期の単語ベクトルを作成する」 - 時期毎に時間ベクトル xt を用意し、xt から時期特有の重

実験：意味変化検出 - SemEval-2020 Task 1 - 対象単語を意味変化の度合いで順位付けるタスク - 評価：スピアマンの順位相関、ピアソンの相関係数 -

結果：意味変化検出 - SGNS vs BERT - ドイツ語で SGNS が高いが、提案手法が上回る 13

結果：意味変化検出 - 従来の調整 vs モデルごと変更（提案） - 全ての言語で提案手法が上回る 14 従来↑ 提案↓

結果：意味変化検出 - Scaled（baseline） vs Temporal（提案） - 全ての言語で提案手法が上回る 15 - Scaled

実験：既存手法との組み合わせ - 著者が以前提案した手法（時間タグを付与して調整）と組み合わせる 16

結果：既存手法との組み合わせ - 組み合わせる（Both）ことで、 - 英語：今回の手法（Temp. Att.）を上回る - ラテン語・ドイツ語：今回の手法を下回る 17

実験：BERT のサイズによる違い - 以前の研究（時間タグを付与して調整）で、BERT tiny でも十分に通時適応できることを示した - 今回は？ 18

結果：BERT のサイズによる違い - SemEval-2020 Task 1、英語 - tiny モデル＋提案手法（Temp. Att.）が最高

結論 - 通時的なデータに対応させるため、時期特有の重みを与える Temporal Attention を提案 - 実験より、 -

参考文献 - [Hu+19] Diachronic Sense Modeling with Deep Contextualized Word