論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis

Slide 1

Slide 1 text

ACL 2023 2023.6.6 M2　凌　志棟 1

Slide 2

Slide 2 text

概要 ● 生成モデルをを利用し、文脈を考慮した単語の定義を生成し、生成された定義文を単語の表現として使う手法を提案 ● 語義類似度判断タスクでは、定義文によるベクトルはTokenベクトルとSentenceベクトルより人間の判断に近い ● 提案手法を意味変化検出に適用し、一般のContextualized Embeddingより解釈性がよい結果を示した 2

Slide 3

Slide 3 text

背景単語・文章の意味を捉えるために、LMで意味をEncodeしたベクトルをよく利用しかし、このようなベクトルは解釈しにくい、モデル自体も Black Box →歴史言語学や社会言語学では、こういった解釈性が低い手法はなかなか採用されない本研究の貢献： ● 言語モデルで単語の適切な定義を生成し、その定義文を単語の表現として使用する手法を提案 ● 定義文表現を利用して、用例クラスタに語義ラベル付与に適用、いい性能を出した ● 定義文表現で作った語義ラベルで意味変化を効率よく解釈 3

Slide 4

Slide 4 text

Definition Modeling 用例内の対象単語の定義を生成するタスク従来手法：ベクトル空間内単語のベクトルから定義を決める提案手法：Seq2Seqのタスクとして、文の中の対象単語の定義をLMで生成 ● Method ○ Flan-T5 3BをFine-tuningして単語の定義を生成 4

Slide 5

Slide 5 text

Data Definition Datasets 定義文を生成するモデルを訓練するために、単語の語義ごとに定義文・用例文を用意以下の三つのソースからサンプリングしたデータセットを利用 ● WordNet ● Oxford ● CoDWoE ○ wiktionaryからサンプリング今回は英語だけに着目 5

Slide 6

Slide 6 text

Data DWUG Diachronic Word Usage Graphs　単語の用例ペアに人手アノテーションした結果の可視化した重み付き無向グラフ ● ノードは対象単語の用例 ● 辺の重みは用例ペアの中の対象単語の語義類似度このグラフに対しクラスタリングして、近似の語義分布が得られる（色の違いで表現）意味変化検出の評価基準となるデータセット 46単語　1810-1860と1960-2010の用例 6

Slide 7

Slide 7 text

Definition Generation ● Prompt設定 ○ 8種類のPromptを試し、評価スコアが一番高いのを使用 ○ [usage of word w] what is the definition of w? 7

Slide 8

Slide 8 text

Definition Generation ● 定義文の生成結果に対する評価 ○ In distribution ■ それぞれのデータセット上別々に Fine-tuning・テスト ○ Hard domain shift ■ WordNet上Fine-tuning、Oxford上テスト、vice versa ○ Soft domain shift★ ■ 三つのデータセットを同時に Fine-tuning、それぞれにテスト ○ Zero-shot：学習せずFlan-T5 XLで生成 8

Slide 9

Slide 9 text

Definition Embedding as Word Representation 単語の定義文表現の性能を評価：人間の判断（DWUGs）との相関 ● 実験設定 ○ タスク：DWUGsのアノテーションと同じように、用例ぺア内の対象単語それぞれに対して定義文を生成し、類似度を計算する。この類似度を人間がつけた類似度との相関で評価 ○ モデル：三つのデータセット上 Fine-tuned Flan-T5（soft domain shiftでFine-tuneしたモデル） ○ 類似度計算：定義文ベクトルの Cosine類似度・SacreBLEU・METEOR ○ ベースライン ■ S-BERT(DistilRoBERTa)から用例の文ベクトルで Cosine類似度 ■ RoBERTaから対象単語のTokenベクトルの類似度 9

Slide 10

Slide 10 text

DWUGsとの相関 Tokenベクトルと用例文ベクトルより定義文の性能がいい類似度を計算するときは、SacreBLEUと METEORより文ベクトルのCosine類似度を使用したほうが相関が高い →生成した定義文の文ベクトルのCosine 類似度は最も人間の判断と近い 10

Slide 11

Slide 11 text

定義文ベクトル空間 ● 定義文ベクトル空間はトークンベクトル空間に似てる→ちゃんと単語の意味を表現している ● 各空間をKmeansでクラスタリングし定義文ベクトル空間の１）クラスタ内距離が短い(lowest Cohension) ２）クラスタ間距離が長い(2nd Separation but 1st Sep-Coh ratio) →定義文ベクトル空間はより簡単に意味を区別 11

Slide 12

Slide 12 text

定義文で語義ラベリングタスク： ● 対象単語の用例から可能な語義を自動的に決める ● 用例に適切な語義ラベルをつける e.g.英単語”word”の語義3つ人間で決めた 1) Words of Language 2) A rumour 3) An oath DWUGsの用例から生成した定義を確認 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 右のような定義のクラスタから、単独な語義ラベルを生成し、用例に付与したい 12

Slide 13

Slide 13 text

定義文で語義ラベリング ● 語義ラベルの選定 ○ 提案手法：定義文ベクトル空間をクラスタリングし、各クラスタの平均点に一番近い定義をラベルとする ○ 単語Wordの場合　　　　　　　　　　　　人間が決めた語義 1) Words of Language 2) A rumour 3) An oath 選定された語義 1) A single spoken or written utterance 2) Information;News;Reports 3) A promise, Vow or Statement 定義文のクラスタ 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 人間が決めた語義とほぼ一致 13

Slide 14

Slide 14 text

定義文で語義ラベリング ● 語義ラベルの品質評価 ○ 　　　　　　提案手法　　　　　　　　　　　　　　　　　比較手法　 ○ 用例と対象単語の定義を 2種類提示し、どちらの品質が高いかをアノテータが評価 ○ 結果：約30％のケースでは定義文ベースの語義のほうがよい、用例ベースの語義は 10％しかない →提案手法で選定した語義は信頼性が高い　　　　　定義文ベクトル空間をクラスタリング各クラスタの平均点に一番近い定義をラベルとする Tokenベクトル空間をクラスタリング各クラスタの平均点に一番近い Tokenが表す用例の対象単語の定義文をラベルとする 14

Slide 15

Slide 15 text

語義ラベルで意味変化を解釈 Record : Document (1810-1860) → Document, audio recording, highest score(1960-2010) audio recordingはDocumentとよく繋がっているため、そこから分離した語義と見られる現象を観測 audio recording 15

Slide 16

Slide 16 text

まとめ ● 本研究はLMが生成した単語の定義文を表現として利用する手法を提案 ● 意味変化の分析に適用し、解釈性の高い結果を得られた ● Future work ○ 熟語検出やメタファー解釈などのタスクに適用 ○ 意味変化検出では、語義の拡大・縮小を検出できるかもしれない　 16