Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Interpretable Word Sense Representations v...

論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis

Lexuss-D

June 07, 2023
Tweet

More Decks by Lexuss-D

Other Decks in Research

Transcript

  1. Data DWUG Diachronic Word Usage Graphs  単語の用例ペアに人手アノテーションした結果の可視化した重 み付き無向グラフ • ノードは対象単語の用例

    • 辺の重みは用例ペアの中の対象単語の語義類似度 このグラフに対しクラスタリングして、近似の語義分布が得られ る(色の違いで表現) 意味変化検出の評価基準となるデータセット 46単語 1810-1860と1960-2010の用例 6
  2. Definition Generation • 定義文の生成結果に対する評価 ◦ In distribution ▪ それぞれのデータセット上別々に Fine-tuning・テスト

    ◦ Hard domain shift ▪ WordNet上Fine-tuning、Oxford上テスト、vice versa ◦ Soft domain shift★ ▪ 三つのデータセットを同時に Fine-tuning、それぞれにテスト ◦ Zero-shot:学習せずFlan-T5 XLで生成 8
  3. Definition Embedding as Word Representation 単語の定義文表現の性能を評価:人間の判断(DWUGs)との相関 • 実験設定 ◦ タスク:DWUGsのアノテーションと同じように、用例ぺア内の対象単語それぞれに対して定義文を生成

    し、類似度を計算する。この類似度を人間がつけた類似度との相関で評価 ◦ モデル:三つのデータセット上 Fine-tuned Flan-T5(soft domain shiftでFine-tuneしたモデル) ◦ 類似度計算:定義文ベクトルの Cosine類似度・SacreBLEU・METEOR ◦ ベースライン ▪ S-BERT(DistilRoBERTa)から用例の文ベクトルで Cosine類似度 ▪ RoBERTaから対象単語のTokenベクトルの類似度 9
  4. 定義文で語義ラベリング タスク: • 対象単語の用例から可能な語義を自動的に決める • 用例に適切な語義ラベルをつける e.g.英単語”word”の語義3つ人間で決めた 1) Words of

    Language 2) A rumour 3) An oath DWUGsの用例から生成した定義を確認 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 右のような定義のクラスタから、単独な語義ラベルを生成し、用例に付与したい 12
  5. 定義文で語義ラベリング • 語義ラベルの選定 ◦ 提案手法:定義文ベクトル空間をクラスタリングし、各クラスタの平均点に一番近い定義をラベルとす る ◦ 単語Wordの場合              人間が決めた語義

    1) Words of Language 2) A rumour 3) An oath 選定された語義 1) A single spoken or written utterance 2) Information;News;Reports 3) A promise, Vow or Statement 定義文のクラスタ 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 人間が決めた語義とほぼ一致 13
  6. 定義文で語義ラベリング • 語義ラベルの品質評価 ◦       提案手法                 比較手法  ◦ 用例と対象単語の定義を 2種類提示し、どちらの品質が高いかをアノテータが評価 ◦ 結果:約30%のケースでは定義文ベースの語義のほうがよい、用例ベースの語義は

    10%しかない →提案手法で選定した語義は信頼性が高い       定義文ベクトル空間をクラスタリング 各クラスタの平均点に一番近い 定義を ラベルとする Tokenベクトル空間をクラスタリング 各クラスタの平均点に一番近い Tokenが表す用例 の対象単語の定義文 をラベルとする 14
  7. 語義ラベルで意味変化を解釈 Record : Document (1810-1860) → Document, audio recording, highest

    score(1960-2010) audio recordingはDocumentとよく繋がっているため、そこから分離した語義と見られる現象を観測 audio recording 15