Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介_Interpretable Word Sense Representations v...

論文紹介_Interpretable Word Sense Representations via Definition Generation_ The Case of Semantic Change Analysis

Avatar for ShitoRyo

ShitoRyo

June 07, 2023
Tweet

More Decks by ShitoRyo

Other Decks in Research

Transcript

  1. Data DWUG Diachronic Word Usage Graphs  単語の用例ペアに人手アノテーションした結果の可視化した重 み付き無向グラフ • ノードは対象単語の用例

    • 辺の重みは用例ペアの中の対象単語の語義類似度 このグラフに対しクラスタリングして、近似の語義分布が得られ る(色の違いで表現) 意味変化検出の評価基準となるデータセット 46単語 1810-1860と1960-2010の用例 6
  2. Definition Generation • 定義文の生成結果に対する評価 ◦ In distribution ▪ それぞれのデータセット上別々に Fine-tuning・テスト

    ◦ Hard domain shift ▪ WordNet上Fine-tuning、Oxford上テスト、vice versa ◦ Soft domain shift★ ▪ 三つのデータセットを同時に Fine-tuning、それぞれにテスト ◦ Zero-shot:学習せずFlan-T5 XLで生成 8
  3. Definition Embedding as Word Representation 単語の定義文表現の性能を評価:人間の判断(DWUGs)との相関 • 実験設定 ◦ タスク:DWUGsのアノテーションと同じように、用例ぺア内の対象単語それぞれに対して定義文を生成

    し、類似度を計算する。この類似度を人間がつけた類似度との相関で評価 ◦ モデル:三つのデータセット上 Fine-tuned Flan-T5(soft domain shiftでFine-tuneしたモデル) ◦ 類似度計算:定義文ベクトルの Cosine類似度・SacreBLEU・METEOR ◦ ベースライン ▪ S-BERT(DistilRoBERTa)から用例の文ベクトルで Cosine類似度 ▪ RoBERTaから対象単語のTokenベクトルの類似度 9
  4. 定義文で語義ラベリング タスク: • 対象単語の用例から可能な語義を自動的に決める • 用例に適切な語義ラベルをつける e.g.英単語”word”の語義3つ人間で決めた 1) Words of

    Language 2) A rumour 3) An oath DWUGsの用例から生成した定義を確認 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 右のような定義のクラスタから、単独な語義ラベルを生成し、用例に付与したい 12
  5. 定義文で語義ラベリング • 語義ラベルの選定 ◦ 提案手法:定義文ベクトル空間をクラスタリングし、各クラスタの平均点に一番近い定義をラベルとす る ◦ 単語Wordの場合              人間が決めた語義

    1) Words of Language 2) A rumour 3) An oath 選定された語義 1) A single spoken or written utterance 2) Information;News;Reports 3) A promise, Vow or Statement 定義文のクラスタ 1) ‘A communication, a message’, ‘The text of a book, play, movie’, etc. 2) ‘Information passed on, usually by one person to another’, ‘communication by spoken or written communication’, etc. 3) ‘An oath’, ‘a pronouncement’, etc 人間が決めた語義とほぼ一致 13
  6. 定義文で語義ラベリング • 語義ラベルの品質評価 ◦       提案手法                 比較手法  ◦ 用例と対象単語の定義を 2種類提示し、どちらの品質が高いかをアノテータが評価 ◦ 結果:約30%のケースでは定義文ベースの語義のほうがよい、用例ベースの語義は

    10%しかない →提案手法で選定した語義は信頼性が高い       定義文ベクトル空間をクラスタリング 各クラスタの平均点に一番近い 定義を ラベルとする Tokenベクトル空間をクラスタリング 各クラスタの平均点に一番近い Tokenが表す用例 の対象単語の定義文 をラベルとする 14
  7. 語義ラベルで意味変化を解釈 Record : Document (1810-1860) → Document, audio recording, highest

    score(1960-2010) audio recordingはDocumentとよく繋がっているため、そこから分離した語義と見られる現象を観測 audio recording 15