Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

2019/06/25の文献紹介で発表

Yumeto Inaoka

June 25, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Analyzing the Limitations of Cross-lingual Word Embedding Mappings 文献紹介 (2019/06/25)

    長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature Title: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

    Author: Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa, Eneko Agirre Conf.: ACL 2019 Year: 2019 URL: https://arxiv.org/abs/1906.05407 2
  3. Abstract • Cross-lingual Word Embeddingsの学習は、 単言語で学習したWord Embeddingsを線形変換 して共有空間にマッピングするのがほとんど → そもそも線形変換でマッピング出来るかは疑問

    • 別々に学習する場合と一緒に学習する場合で比較 • 一緒に学習した方がより同型(Isomorphism)で ハブ(Hubness)に敏感でない結果となった 3
  4. Cross-lingual Word Embeddings • 既存のCross-lingual Word Embeddings(CWE)は 大きく2つの学習方法に分けられる • Joint

    methods: 並列コーパスで複数のWord Embeddingsを 同時に学習する • Mapping methods: 別々に学習して線形変換を介して共有空間に マッピングする手法 4
  5. Methods Mapping method: 1. 各言語で300次元のskip-gramを学習 2. VecMapで教師なしマッピングの自己学習を反復* Joint learning: 1.

    文脈として原言語と目的言語の両方を与える BiVecを学習 * Artetxe et al. A robust self-learning method for fully unsupervised cross- lingual mappings of word embeddings. ACL 2018. 6
  6. Isomorphism (同型) • 両言語の構造的類似性を測定 1. 各言語の高頻度語上位10,000語で最近傍 グラフを作成 2. それらのラプラシアン行列L 1

    , L 2 を計算 3. L 1 , L 2 においてK 1 , K 2 個の固有値の合計が全体の 合計の90%になるような最小のK 1 , K 2 を求める 4. ∆ = σ =1 min 1,2 1 − 2 2 を求める 7
  7. Hubness • ある単語が他のあらゆる単語と近くなる現象が Cross-lingual Word Embeddingでは問題となる • 原言語単語のN%の最近傍である目的言語単語の 最小パーセンテージH N

    を求める(Nはパラメータ) • 例えばH 10% =0.3% の場合、目的言語単語の0.3% が原言語単語の10%の最近傍であることを示す 8
  8. Nearest neighbor retrieval • Hubnessの計算では最近傍検索を行う • 最近傍検索ではコサイン類似度を用いるのが一般的 • コサイン類似度を用いた最近傍検索において、 yがxの最近傍であることはxがyの最近傍であること

    を意味しない(非対称性) ← 画像特徴マッチングから言語理解までの様々な所 で問題視されている → Cross-domain Similarity Local Scaling(CSLS)を利用 9
  9. Conclusions • 並列コーパスによるCross-lingual Word Embeddings の学習を通じてJoint learningとMappingの特性の 違いを比較 • Joint

    learningがより良い表現を得ることを確認 • 現行のMappingには強い制限がある • 単言語コーパスでの学習にJoint learningを用いる 新たな手法が求められる 19