Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

文献紹介:Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

Taichi Aida

July 23, 2021
Tweet

More Decks by Taichi Aida

Other Decks in Research

Transcript

  1. Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

    Christos Xypolopoulos, Antoine Tixier, Michalis Vazirgiannis EACL2021 論文紹介
  2. 実験:多義語の度合いの順位付け - タスク:対象単語について多義語の度合いをラン キング - データ:English Wikipedia dump - 評価対象の単語選択

    - English Wikipedia で頻度の高い上位2000単語を選択 - 3000文以上ある単語(2000→1822単語)を残す 8
  3. 実験:多義語の度合いの順位付け - 比較手法(Ground Truth) - WordNet:synset 数を多義語の度合いとする - WordNet-Reduced:WordNet の

    synset 数を少なくした もの。synset 数を多義語の度合いとする - WordNet-Domains:WordNet に自動でドメインのラベル を割り振ったもの。ドメイン数が多義語の度合い 9
  4. 実験:多義語の度合いの順位付け - 比較手法(Ground Truth) - OntoNotes:様々なメディアのデータから構築。WordNet をまとめた inventory 数が多義語の度合い -

    Oxford:Oxford Dictionary にある意味の数を数える - Wikipedia:「曖昧さ回避」にあるカテゴリの数を多義語の 度合いとした - 比較手法(Baseline) - frequency:高頻度ほど多義語 - random:対数正規分布に従いランダムに並べ替える 10
  5. 実験:多義語の度合いの順位付け - 評価指標:6種類の指標で評価 - cosine similarity - Spearman’s rho -

    Kendall’s tau - precision@k - Normalized Discounted Gain (NDCG): - Rank Biased Overlap (RBO): 12
  6. 手法:アイデア - 画像処理における pyramid matching と同じ 17 Beyond Bags of

    Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. (Lazebnik+2006)