文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

Slide 1

Slide 1 text

Analyzing the Limitations of Cross-lingual Word Embedding Mappings 文献紹介 (2019/06/25) 長岡技術科学大学自然言語処理研究室稲岡夢人

Slide 2

Slide 2 text

Literature Title: Analyzing the Limitations of Cross-lingual Word Embedding Mappings Author: Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa, Eneko Agirre Conf.: ACL 2019 Year: 2019 URL: https://arxiv.org/abs/1906.05407 2

Slide 3

Slide 3 text

Abstract • Cross-lingual Word Embeddingsの学習は、単言語で学習したWord Embeddingsを線形変換して共有空間にマッピングするのがほとんど → そもそも線形変換でマッピング出来るかは疑問 • 別々に学習する場合と一緒に学習する場合で比較 • 一緒に学習した方がより同型(Isomorphism)でハブ(Hubness)に敏感でない結果となった 3

Slide 4

Slide 4 text

Cross-lingual Word Embeddings • 既存のCross-lingual Word Embeddings(CWE)は大きく2つの学習方法に分けられる • Joint methods: 並列コーパスで複数のWord Embeddingsを同時に学習する • Mapping methods: 別々に学習して線形変換を介して共有空間にマッピングする手法 4

Slide 5

Slide 5 text

Limitation of mapping method • マッピングするためには空間が言語によらず同じ構造を持っている必要がある → 仮定が正しくなければマッピングには制限がある • 異言語、異ドメインにおいて空間構造は一致せずマッピングを妨げることが知られている 5

Slide 6

Slide 6 text

Methods Mapping method: 1. 各言語で300次元のskip-gramを学習 2. VecMapで教師なしマッピングの自己学習を反復* Joint learning: 1. 文脈として原言語と目的言語の両方を与える BiVecを学習 * Artetxe et al. A robust self-learning method for fully unsupervised cross- lingual mappings of word embeddings. ACL 2018. 6

Slide 7

Slide 7 text

Isomorphism (同型) • 両言語の構造的類似性を測定 1. 各言語の高頻度語上位10,000語で最近傍グラフを作成 2. それらのラプラシアン行列L 1 , L 2 を計算 3. L 1 , L 2 においてK 1 , K 2 個の固有値の合計が全体の合計の90%になるような最小のK 1 , K 2 を求める 4. ∆ = σ =1 min 1,2 1 − 2 2 を求める 7

Slide 8

Slide 8 text

Hubness • ある単語が他のあらゆる単語と近くなる現象が Cross-lingual Word Embeddingでは問題となる • 原言語単語のN%の最近傍である目的言語単語の最小パーセンテージH N を求める(Nはパラメータ) • 例えばH 10% =0.3% の場合、目的言語単語の0.3% が原言語単語の10%の最近傍であることを示す 8

Slide 9

Slide 9 text

Nearest neighbor retrieval • Hubnessの計算では最近傍検索を行う • 最近傍検索ではコサイン類似度を用いるのが一般的 • コサイン類似度を用いた最近傍検索において、 yがxの最近傍であることはxがyの最近傍であることを意味しない（非対称性） ← 画像特徴マッチングから言語理解までの様々な所で問題視されている → Cross-domain Similarity Local Scaling(CSLS)を利用 9

Slide 10

Slide 10 text

Bilingual Lexicon Induction • 原言語の各単語を目的言語の最近傍単語にリンクさせて対訳辞書を作成 • 上の辞書とGold-standardの辞書を比較 • Precision@1で精度を測定 11

Slide 11

Slide 11 text

Datasets (Word Embeddings) • 英語を目的言語として、それと比較的近い言語のドイツ語、スペイン語、イタリア語を原言語とする • 膠着語であるフィンランド語も原言語に用いる • ParaCrawlコーパスから学習 • de/es/it/fi = 503M/492M/308M/55M (tokens in En.) 12

Slide 12

Slide 12 text

Datasets (Dictionary) • Eparl Europarlの単語アライメントから抽出(1,500件) • MUSE Facebookの内部翻訳ツールを用いて収集(1,500件) 13

Slide 13

Slide 13 text

Results 14

Slide 14

Slide 14 text

Results (isomorphism •Joint learningがより同型 (isomorphic)な結果 •Mappingと比較してより構造的に類似した空間を持つことを示す •訓練コーパスが小さく離れたフィンランド語で向上が大きい 15

Slide 15

Slide 15 text

Results (Hubness) •ドイツ語以外で良好な結果 → 言語の相違がマッピングに深刻な影響を与える示唆 •CSLSは特にMappingで非常に効果的 16

Slide 16

Slide 16 text

Results (Dictionary) •特にフィンランド語において Joint learningの効果が大きい •CSLSは特にMappingで効果的 17

Slide 17

Slide 17 text

Discussion • 同じ条件下で対訳コーパスを訓練した場合に Joint learningはMappingよりも優れた表現を得る • Joint learningによって言語間の相違が軽減される • Joint learningがMappingよりも優れているという主張ではない • 結果はMapping methodの根本的な制限を示す 18

Slide 18

Slide 18 text

Conclusions • 並列コーパスによるCross-lingual Word Embeddings の学習を通じてJoint learningとMappingの特性の違いを比較 • Joint learningがより良い表現を得ることを確認 • 現行のMappingには強い制限がある • 単言語コーパスでの学習にJoint learningを用いる新たな手法が求められる 19