Slide 1

Slide 1 text

ACL 2023 2023.11.29 2024.1.10 M2 凌 志棟 1

Slide 2

Slide 2 text

概要 この論文何やった: 時期や社会環境の違いによる語義変化に言語モデルを適応させるために、 Promptを用いたDynamic Contextualized Word Embedding (DCWE)の学習 貢献 ● Promptを利用してMLMを時間適応するための方法を提案 ● 先行研究の手法より性能がよい+効率が良い 2 時間や社会などの言語外要素 に対応する表現 文脈を考慮した単語表現

Slide 3

Slide 3 text

関連研究 ● Dynamic Word Embedding (DWE) ○ Word2VecやLSTMを学習するときに、言語外の情報(時間・社会)を Encode [Welch et al.2020] ○ 社会要因より時間が語義に多く影響を与える [Hoffman et al. 2021] ● Dynamic Contextualized Word Embedding (DCWE) ○ DCWEs: 時間・社会情報をType-based表現にEncodeし、Token-based表現に変換[Hoffman et al. 2021] ○ ↑以前相田さんが紹介した ○ TempoBERT:訓練テキストに時期 Tokenを加え、それをMaskしてBERTに当てさせる[Rosin et al.2022] 今回の提案手法はContextualized Word Embedding を時間適応することを目的 3

Slide 4

Slide 4 text

Prompt-based Time Adaptation Main idea:2つの時期に意味変化が起きた頻出単語を使ってPromptを作る。 異なる時期T1 T2のコーパスC1 C2に対して Pivot単語w 、 Anchor単語u,v wはC1 C2に頻出な単語、u,v はC1,C2においてwと関連する単語 このような(w,u,v)をTupleといい、これによってpromptを作成 4

Slide 5

Slide 5 text

Tuple Selection Methods Frequency-based Diversity-based Context-based 5

Slide 6

Slide 6 text

Tuple Selection Methods Frequency-based ● Pivot単語w: すべての単語wのScoreを降順して上位k個を選ぶ ● Anchors単語u,v: ● Frequency-based Tuple集合が 6

Slide 7

Slide 7 text

Tuple Selection Methods Diversity-based ● 意味変化した単語w = uとvの集合        が違うものが欲しい ○ 式(1)を計算したスコアのTopにある単語を選択し、 DiversityスコアでRe-rankしTop-kを取る Diversity-based Tuple集合が 7

Slide 8

Slide 8 text

Tuple Selection Methods Context-based ● PMIでAnchorを探すのは2つの問題がある ○ コーパス内の低頻度語に対応しにくい ○ PMIは一回2つの単語しか扱えない、他の文脈語に対応できない ● 単語xの平均ベクトル: ● Tuple(w,u,v)に対して、C1の単語をw1,u1,v1、C2の単語をw2,u2,v2 g(a,b)はaとbのCos類似度 このように得られたTupleは 8

Slide 9

Slide 9 text

Prompts Generation Prompts from manual templates Prompts from automatic templates 9

Slide 10

Slide 10 text

Prompts Generation Prompts from manual templates ● 人手で書いたテンプレートに穴埋め:e.g. is associated with in , whereas it is associated with in <〇>にTuple(w,u,v)とu,vの時期T1 T2を入れる 10

Slide 11

Slide 11 text

Prompts Generation Prompts from automatic templates ● Tuple(w,u,v)用いて、T5でPromptを自動生成 ● 変換ルール      に従って生成 uの用例S 1 とvの用例S 2 をそれぞれC1,C2から抽出 最後にBeam searchで多様なPromptを獲得する 11

Slide 12

Slide 12 text

Examples of Prompts 12 人手で書いたPromptは長い 長文のLikelihoodが低くなるので、生成されたPromptsは短い傾向

Slide 13

Slide 13 text

Time Adaptation By Fine-Tuning        のTuplesを使って穴埋め・生成したPromptsでMLMをFine-Tuning ● ランダムにPromptの一個Tokenをマスクしてモデルに当てさせる ● PromptのAnchor単語だけをマスクする方法も試したが、結果に差はなかった 13

Slide 14

Slide 14 text

Expriments Datasets ● Yelp: 2010 & 2020 ● Reddit: 2019.9~2020.4 ● ArXiv: 2001 & 2020 ● Ciao: 2000 & 2011 Evaluation Metric T2でのPerplexity : lower the better 14 Baselines: ● BERT-base-uncased ● BERT(T1):T1でFine-tuning ● BERT(T2):T2でFine-tuning ● FT(model,template):提案手法 Hyperparameters ● weight decay=0.01 ● batch size=4 ● learning rate=3x10-8 ● k={500,1000,2000,5000,10000} ● Epoch=20

Slide 15

Slide 15 text

Results 15

Slide 16

Slide 16 text

Results 16

Slide 17

Slide 17 text

Results 17

Slide 18

Slide 18 text

Results 18

Slide 19

Slide 19 text

Conclusion まとめ ● 本研究は人手作成と自動生成したPromptでMLMを時間適応する手法を提案 ● 複数のデータセットで先行研究より低いperplexityを得られた 今後の課題 ● 多言語モデルに適用できるように提案手法を拡張 19