文献紹介：Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings

Slide 1

Slide 1 text

Unsupervised Word Polysemy Quantification with Multiresolution Grids of Contextual Embeddings Christos Xypolopoulos, Antoine Tixier, Michalis Vazirgiannis EACL2021 論文紹介

Slide 2

Slide 2 text

導入 - 単語の多義語の度合いを予測する手法を提案 - 単語の順位付けタスクで6種類の評価指標において6種類の人手セットとの相関を示した 2

Slide 3

Slide 3 text

手法 - 仮定：文脈あり単語ベクトルが空間を占める大きさは多義語の度合いを示す - 手法： 1. D次元に圧縮して格子状に線を引く 2. 単語ごとに格子を占める比率を計算 3. 多義語の度合いを示すスコアを計算 3 多義語の度合い word 1 > word 2

Slide 4

Slide 4 text

手法 1. D次元に圧縮し、格子状に線を引く 4

Slide 5

Slide 5 text

手法 2. 単語ごとに格子を占める比率を計算 5 word 1, l = 1 の場合：

Slide 6

Slide 6 text

手法 2. 単語ごとに格子を占める比率を計算 6 word 1, l = 2 の場合： word 1, l = 3 の場合：

Slide 7

Slide 7 text

手法 3. 多義語の度合いを示すスコアを計算 7 格子が粗くなるほどペナルティを与える

Slide 8

Slide 8 text

実験：多義語の度合いの順位付け - タスク：対象単語について多義語の度合いをランキング - データ：English Wikipedia dump - 評価対象の単語選択 - English Wikipedia で頻度の高い上位2000単語を選択 - 3000文以上ある単語（2000→1822単語）を残す 8

Slide 9

Slide 9 text

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - WordNet：synset 数を多義語の度合いとする - WordNet-Reduced：WordNet の synset 数を少なくしたもの。synset 数を多義語の度合いとする - WordNet-Domains：WordNet に自動でドメインのラベルを割り振ったもの。ドメイン数が多義語の度合い 9

Slide 10

Slide 10 text

実験：多義語の度合いの順位付け - 比較手法（Ground Truth） - OntoNotes：様々なメディアのデータから構築。WordNet をまとめた inventory 数が多義語の度合い - Oxford：Oxford Dictionary にある意味の数を数える - Wikipedia：「曖昧さ回避」にあるカテゴリの数を多義語の度合いとした - 比較手法（Baseline） - frequency：高頻度ほど多義語 - random：対数正規分布に従いランダムに並べ替える 10

Slide 11

Slide 11 text

実験：多義語の度合いの順位付け - 提案手法 - 事前訓練済み ELMo の最終層から単語ベクトルを獲得 - D：PCA でベクトルの次元を圧縮（1024→2~20） - 格子の線の数 L：2~19 11

Slide 12

Slide 12 text

実験：多義語の度合いの順位付け - 評価指標：6種類の指標で評価 - cosine similarity - Spearman’s rho - Kendall’s tau - precision@k - Normalized Discounted Gain (NDCG)： - Rank Biased Overlap (RBO)： 12

Slide 13

Slide 13 text

結果：多義語の度合いの順位付け - Ground Truth（cos, NDCG は特に Wiki）との相関が高く、2つの baseline も超えている - その他の指標で評価した場合も同様 13

Slide 14

Slide 14 text

議論：パラメータ（縦軸：線の数 L, 横軸：圧縮後の次元 D） - D=2~4, L=3,4~8 くらいで良い性能になる 14 線の数 L 圧縮後の次元 D

Slide 15

Slide 15 text

応用：異なる語義の抽出 - 同じ単語でも異なる格子のマスから取り出せば、異なる語義の文を抽出できる - count：固有名詞, 番号, 数え上げ - live：住む, ライブ - bank：銀行, 土手 15

Slide 16

Slide 16 text

結論 - 圧縮したベクトル空間に線を引いて、格子を占める比率から単語の多義語の度合いを計算 - 単語の順位づけタスクで人手との相関を示す（クラスタリングと比較して欲しい） 16

Slide 17

Slide 17 text

手法：アイデア - 画像処理における pyramid matching と同じ 17 Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories. (Lazebnik+2006)

Slide 18

Slide 18 text

vs. クラスタリング - 文脈あり単語ベクトルも一様ではない - クラスタリングは空間に対して均等に分割をせず（密度ベース）、外れ値のクラスタも - クラスタ数＝多義語の度合いは信頼できない 18 How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (Ethayarajh2019)

Slide 19

Slide 19 text

実験：多義語の度合いの順位付け - 対象の1822単語のうち、Ground Truth で使えた単語数 19

Slide 20

Slide 20 text

議論：単語の語義ごとに意味の近い単語を抽出 - 単語の各語義が所属するマスの中で高頻度の単語を取り出す - metal：鉱物, オリンピック, 音楽 20