文献紹介：Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings
Christos Xypolopoulos, Antoine Tixier, Michalis Vazirgiannis EACL2021 論文紹介

導入 - 単語の多義語の度合いを予測する手法を提案 - 単語の順位付けタスクで6種類の評価指標において6種類の人手セットとの相関を示した 2

手法 - 仮定：文脈あり単語ベクトルが空間を占める大きさは多義語の度合いを示す - 手法： 1. D次元に圧縮して格子状に線を引く 2. 単語ごとに格子を占める比率を計算
3. 多義語の度合いを示すスコアを計算 3 多義語の度合い word 1 > word 2

手法 1. D次元に圧縮し、格子状に線を引く 4

手法 2. 単語ごとに格子を占める比率を計算 5 word 1, l = 1 の場合：

手法 2. 単語ごとに格子を占める比率を計算 6 word 1, l = 2 の場合：
word 1, l = 3 の場合：

手法 3. 多義語の度合いを示すスコアを計算 7 格子が粗くなるほどペナルティを与える

実験：多義語の度合いの順位付け - タスク：対象単語について多義語の度合いをランキング - データ：English Wikipedia dump - 評価対象の単語選択
- English Wikipedia で頻度の高い上位2000単語を選択 - 3000文以上ある単語（2000→1822単語）を残す 8

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - WordNet：synset 数を多義語の度合いとする - WordNet-Reduced：WordNet の
synset 数を少なくしたもの。synset 数を多義語の度合いとする - WordNet-Domains：WordNet に自動でドメインのラベルを割り振ったもの。ドメイン数が多義語の度合い 9

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - OntoNotes：様々なメディアのデータから構築。WordNet をまとめた inventory 数が多義語の度合い -
Oxford：Oxford Dictionary にある意味の数を数える - Wikipedia：「曖昧さ回避」にあるカテゴリの数を多義語の度合いとした - 比較手法（Baseline） - frequency：高頻度ほど多義語 - random：対数正規分布に従いランダムに並べ替える 10

実験：多義語の度合いの順位付け - 提案手法 - 事前訓練済み ELMo の最終層から単語ベクトルを獲得 - D：PCA でベクトルの次元を圧縮（1024→2~20）
- 格子の線の数 L：2~19 11

実験：多義語の度合いの順位付け - 評価指標：6種類の指標で評価 - cosine similarity - Spearman’s rho -
Kendall’s tau - precision@k - Normalized Discounted Gain (NDCG)： - Rank Biased Overlap (RBO)： 12

結果：多義語の度合いの順位付け - Ground Truth（cos, NDCG は特に Wiki）との相関が高く、2つの baseline も超えている
- その他の指標で評価した場合も同様 13

議論：パラメータ（縦軸：線の数 L, 横軸：圧縮後の次元 D） - D=2~4, L=3,4~8 くらいで良い性能になる 14
線の数 L 圧縮後の次元 D

応用：異なる語義の抽出 - 同じ単語でも異なる格子のマスから取り出せば、異なる語義の文を抽出できる - count：固有名詞, 番号, 数え上げ - live：住む,
ライブ - bank：銀行, 土手 15

結論 - 圧縮したベクトル空間に線を引いて、格子を占める比率から単語の多義語の度合いを計算 - 単語の順位づけタスクで人手との相関を示す（クラスタリングと比較して欲しい） 16

手法：アイデア - 画像処理における pyramid matching と同じ 17 Beyond Bags of
Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. (Lazebnik+2006)

vs. クラスタリング - 文脈あり単語ベクトルも一様ではない - クラスタリングは空間に対して均等に分割をせず（密度ベース）、外れ値のクラスタも - クラスタ数＝多義語の度合いは信頼できない
18 How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (Ethayarajh2019)

実験：多義語の度合いの順位付け - 対象の1822単語のうち、Ground Truth で使えた単語数 19

議論：単語の語義ごとに意味の近い単語を抽出 - 単語の各語義が所属するマスの中で高頻度の単語を取り出す - metal：鉱物, オリンピック, 音楽 20

文献紹介：Unsupervised Word Polysemy Quantification ...

文献紹介：Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

Taichi Aida

More Decks by Taichi Aida

Other Decks in Research

Featured

Transcript

Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

導入 - 単語の多義語の度合いを予測する手法を提案 - 単語の順位付けタスクで6種類の評価指標において6種類の人手セットとの相関を示した 2

手法 - 仮定：文脈あり単語ベクトルが空間を占める大きさは多義語の度合いを示す - 手法： 1. D次元に圧縮して格子状に線を引く 2. 単語ごとに格子を占める比率を計算

手法 1. D次元に圧縮し、格子状に線を引く 4

手法 2. 単語ごとに格子を占める比率を計算 5 word 1, l = 1 の場合：

手法 2. 単語ごとに格子を占める比率を計算 6 word 1, l = 2 の場合：

手法 3. 多義語の度合いを示すスコアを計算 7 格子が粗くなるほどペナルティを与える

実験：多義語の度合いの順位付け - タスク：対象単語について多義語の度合いをランキング - データ：English Wikipedia dump - 評価対象の単語選択

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - WordNet：synset 数を多義語の度合いとする - WordNet-Reduced：WordNet の

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - OntoNotes：様々なメディアのデータから構築。WordNet をまとめた inventory 数が多義語の度合い -

実験：多義語の度合いの順位付け - 提案手法 - 事前訓練済み ELMo の最終層から単語ベクトルを獲得 - D：PCA でベクトルの次元を圧縮（1024→2~20）

実験：多義語の度合いの順位付け - 評価指標：6種類の指標で評価 - cosine similarity - Spearman’s rho -

結果：多義語の度合いの順位付け - Ground Truth（cos, NDCG は特に Wiki）との相関が高く、2つの baseline も超えている

議論：パラメータ（縦軸：線の数 L, 横軸：圧縮後の次元 D） - D=2~4, L=3,4~8 くらいで良い性能になる 14

応用：異なる語義の抽出 - 同じ単語でも異なる格子のマスから取り出せば、異なる語義の文を抽出できる - count：固有名詞, 番号, 数え上げ - live：住む,

結論 - 圧縮したベクトル空間に線を引いて、格子を占める比率から単語の多義語の度合いを計算 - 単語の順位づけタスクで人手との相関を示す（クラスタリングと比較して欲しい） 16

手法：アイデア - 画像処理における pyramid matching と同じ 17 Beyond Bags of

vs. クラスタリング - 文脈あり単語ベクトルも一様ではない - クラスタリングは空間に対して均等に分割をせず（密度ベース）、外れ値のクラスタも - クラスタ数＝多義語の度合いは信頼できない

実験：多義語の度合いの順位付け - 対象の1822単語のうち、Ground Truth で使えた単語数 19

議論：単語の語義ごとに意味の近い単語を抽出 - 単語の各語義が所属するマスの中で高頻度の単語を取り出す - metal：鉱物, オリンピック, 音楽 20