2019/06/25の文献紹介で発表
Analyzing the Limitations ofCross-lingual Word Embedding Mappings文献紹介 (2019/06/25)長岡技術科学大学 自然言語処理研究室稲岡 夢人
View Slide
LiteratureTitle:Analyzing the Limitations of Cross-lingualWord Embedding MappingsAuthor:Aitor Ormazabal, Mikel Artetxe, Gorka Labaka,Aitor Soroa, Eneko AgirreConf.: ACL 2019Year: 2019URL: https://arxiv.org/abs/1906.054072
Abstract• Cross-lingual Word Embeddingsの学習は、単言語で学習したWord Embeddingsを線形変換して共有空間にマッピングするのがほとんど→ そもそも線形変換でマッピング出来るかは疑問• 別々に学習する場合と一緒に学習する場合で比較• 一緒に学習した方がより同型(Isomorphism)でハブ(Hubness)に敏感でない結果となった3
Cross-lingual Word Embeddings• 既存のCross-lingual Word Embeddings(CWE)は大きく2つの学習方法に分けられる• Joint methods:並列コーパスで複数のWord Embeddingsを同時に学習する• Mapping methods:別々に学習して線形変換を介して共有空間にマッピングする手法4
Limitation of mapping method• マッピングするためには空間が言語によらず同じ構造を持っている必要がある→ 仮定が正しくなければマッピングには制限がある• 異言語、異ドメインにおいて空間構造は一致せずマッピングを妨げることが知られている5
MethodsMapping method:1. 各言語で300次元のskip-gramを学習2. VecMapで教師なしマッピングの自己学習を反復*Joint learning:1. 文脈として原言語と目的言語の両方を与えるBiVecを学習* Artetxe et al. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. ACL 2018.6
Isomorphism (同型)• 両言語の構造的類似性を測定1. 各言語の高頻度語上位10,000語で最近傍グラフを作成2. それらのラプラシアン行列L1, L2を計算3. L1, L2においてK1, K2個の固有値の合計が全体の合計の90%になるような最小のK1, K2を求める4. ∆ = σ=1min 1,2 1− 22 を求める7
Hubness• ある単語が他のあらゆる単語と近くなる現象がCross-lingual Word Embeddingでは問題となる• 原言語単語のN%の最近傍である目的言語単語の最小パーセンテージHNを求める(Nはパラメータ)• 例えばH10%=0.3% の場合、目的言語単語の0.3%が原言語単語の10%の最近傍であることを示す8
Nearest neighbor retrieval• Hubnessの計算では最近傍検索を行う• 最近傍検索ではコサイン類似度を用いるのが一般的• コサイン類似度を用いた最近傍検索において、yがxの最近傍であることはxがyの最近傍であることを意味しない(非対称性)← 画像特徴マッチングから言語理解までの様々な所で問題視されている→ Cross-domain Similarity Local Scaling(CSLS)を利用9
Bilingual Lexicon Induction• 原言語の各単語を目的言語の最近傍単語にリンクさせて対訳辞書を作成• 上の辞書とGold-standardの辞書を比較• Precision@1で精度を測定11
Datasets (Word Embeddings)• 英語を目的言語として、それと比較的近い言語のドイツ語、スペイン語、イタリア語を原言語とする• 膠着語であるフィンランド語も原言語に用いる• ParaCrawlコーパスから学習• de/es/it/fi = 503M/492M/308M/55M (tokens in En.)12
Datasets (Dictionary)• EparlEuroparlの単語アライメントから抽出(1,500件)• MUSEFacebookの内部翻訳ツールを用いて収集(1,500件)13
Results14
Results (isomorphism•Joint learningがより同型(isomorphic)な結果•Mappingと比較してより構造的に類似した空間を持つことを示す•訓練コーパスが小さく離れたフィンランド語で向上が大きい15
Results (Hubness)•ドイツ語以外で良好な結果→ 言語の相違がマッピングに深刻な影響を与える示唆•CSLSは特にMappingで非常に効果的16
Results (Dictionary)•特にフィンランド語においてJoint learningの効果が大きい•CSLSは特にMappingで効果的17
Discussion• 同じ条件下で対訳コーパスを訓練した場合にJoint learningはMappingよりも優れた表現を得る• Joint learningによって言語間の相違が軽減される• Joint learningがMappingよりも優れているという主張ではない• 結果はMapping methodの根本的な制限を示す18
Conclusions• 並列コーパスによるCross-lingual Word Embeddingsの学習を通じてJoint learningとMappingの特性の違いを比較• Joint learningがより良い表現を得ることを確認• 現行のMappingには強い制限がある• 単言語コーパスでの学習にJoint learningを用いる新たな手法が求められる19