Slide 1

Slide 1 text

ACL 2023 2023.6.6 M2 凌 志棟 1

Slide 2

Slide 2 text

概要 ● 生成モデルをを利用し、文脈を考慮した単語の定義を生成し、生成された定義文を 単語の表現として使う手法を提案 ● 語義類似度判断タスクでは、定義文によるベクトルはTokenベクトルとSentenceベ クトルより人間の判断に近い ● 提案手法を意味変化検出に適用し、一般のContextualized Embeddingより解釈 性がよい結果を示した 2

Slide 3

Slide 3 text

背景 単語・文章の意味を捉えるために、LMで意味をEncodeしたベクトルをよく利用 しかし、このようなベクトルは解釈しにくい、モデル自体も Black Box →歴史言語学や社会言語学では、こういった解釈性が低い手法はなかなか採用されない 本研究の貢献: ● 言語モデルで単語の適切な定義を生成し、その定義文を単語の表現として使用する手法 を提案 ● 定義文表現を利用して、用例クラスタに語義ラベル付与に適用、いい性能を出した ● 定義文表現で作った語義ラベルで意味変化を効率よく解釈 3

Slide 4

Slide 4 text

Definition Modeling 用例内の対象単語の定義を生成するタスク 従来手法:ベクトル空間内単語のベクトルから定義を決める 提案手法:Seq2Seqのタスクとして、文の中の対象単語の定義をLMで生成 ● Method ○ Flan-T5 3BをFine-tuningして単語の定義を生成 4

Slide 5

Slide 5 text

Data Definition Datasets 定義文を生成するモデルを訓練するために、単 語の語義ごとに定義文・用例文を用意 以下の三つのソースからサンプリングしたデータ セットを利用 ● WordNet ● Oxford ● CoDWoE ○ wiktionaryからサンプリング 今回は英語だけに着目 5

Slide 6

Slide 6 text

Data DWUG Diachronic Word Usage Graphs  単語の用例ペアに人手アノテーションした結果の可視化した重 み付き無向グラフ ● ノードは対象単語の用例 ● 辺の重みは用例ペアの中の対象単語の語義類似度 このグラフに対しクラスタリングして、近似の語義分布が得られ る(色の違いで表現) 意味変化検出の評価基準となるデータセット 46単語 1810-1860と1960-2010の用例 6

Slide 7

Slide 7 text

Definition Generation ● Prompt設定 ○ 8種類のPromptを試し、評価スコアが一番高いのを使用 ○ [usage of word w] what is the definition of w? 7

Slide 8

Slide 8 text

Definition Generation ● 定義文の生成結果に対する評価 ○ In distribution ■ それぞれのデータセット上別々に Fine-tuning・テスト ○ Hard domain shift ■ WordNet上Fine-tuning、Oxford上テスト、vice versa ○ Soft domain shift★ ■ 三つのデータセットを同時に Fine-tuning、それぞれにテスト ○ Zero-shot:学習せずFlan-T5 XLで生成 8

Slide 9

Slide 9 text

Definition Embedding as Word Representation 単語の定義文表現の性能を評価:人間の判断(DWUGs)との相関 ● 実験設定 ○ タスク:DWUGsのアノテーションと同じように、用例ぺア内の対象単語それぞれに対して定義文を生成 し、類似度を計算する。この類似度を人間がつけた類似度との相関で評価 ○ モデル:三つのデータセット上 Fine-tuned Flan-T5(soft domain shiftでFine-tuneしたモデル) ○ 類似度計算:定義文ベクトルの Cosine類似度・SacreBLEU・METEOR ○ ベースライン ■ S-BERT(DistilRoBERTa)から用例の文ベクトルで Cosine類似度 ■ RoBERTaから対象単語のTokenベクトルの類似度 9

Slide 10

Slide 10 text

DWUGsとの相関 Tokenベクトルと用例文ベクトルより定義 文の性能がいい 類似度を計算するときは、SacreBLEUと METEORより文ベクトルのCosine類似度 を使用したほうが相関が高い →生成した定義文の文ベクトルのCosine 類似度は最も人間の判断と近い 10

Slide 11

Slide 11 text

定義文ベクトル空間 ● 定義文ベクトル空間はトークンベクトル空間に似て る→ちゃんと単語の意味を表現している ● 各空間をKmeansでクラスタリングし 定義文ベクトル空間の 1)クラスタ内距離が短い(lowest Cohension) 2)クラスタ間距離が長い(2nd Separation but 1st Sep-Coh ratio) →定義文ベクトル空間はより簡単に意味を区別 11

Slide 12

Slide 12 text

定義文で語義ラベリング タスク: ● 対象単語の用例から可能な語義を自動的に決める ● 用例に適切な語義ラベルをつける e.g.英単語”word”の語義3つ人間で決めた 1) Words of Language 2) A rumour 3) An oath DWUGsの用例から生成した定義を確認 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 右のような定義のクラスタから、単独な語義ラベルを生成し、用例に付与したい 12

Slide 13

Slide 13 text

定義文で語義ラベリング ● 語義ラベルの選定 ○ 提案手法:定義文ベクトル空間をクラスタリングし、各クラスタの平均点に一番近い定義をラベルとす る ○ 単語Wordの場合              人間が決めた語義 1) Words of Language 2) A rumour 3) An oath 選定された語義 1) A single spoken or written utterance 2) Information;News;Reports 3) A promise, Vow or Statement 定義文のクラスタ 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 人間が決めた語義とほぼ一致 13

Slide 14

Slide 14 text

定義文で語義ラベリング ● 語義ラベルの品質評価 ○       提案手法                 比較手法  ○ 用例と対象単語の定義を 2種類提示し、どちらの品質が高いかをアノテータが評価 ○ 結果:約30%のケースでは定義文ベースの語義のほうがよい、用例ベースの語義は 10%しかない →提案手法で選定した語義は信頼性が高い       定義文ベクトル空間をクラスタリング 各クラスタの平均点に一番近い 定義を ラベルとする Tokenベクトル空間をクラスタリング 各クラスタの平均点に一番近い Tokenが表す用例 の対象単語の定義文 をラベルとする 14

Slide 15

Slide 15 text

語義ラベルで意味変化を解釈 Record : Document (1810-1860) → Document, audio recording, highest score(1960-2010) audio recordingはDocumentとよく繋がっているため、そこから分離した語義と見られる現象を観測 audio recording 15

Slide 16

Slide 16 text

まとめ ● 本研究はLMが生成した単語の定義文を表現として利用する手法を提案 ● 意味変化の分析に適用し、解釈性の高い結果を得られた ● Future work ○ 熟語検出やメタファー解釈などのタスクに適用 ○ 意味変化検出では、語義の拡大・縮小を検出できるかもしれない   16