Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

文献紹介: Analyzing the Limitations of Cross-lingual Word Embedding Mappings

2019/06/25の文献紹介で発表

Yumeto Inaoka

June 25, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Analyzing the Limitations of
    Cross-lingual Word Embedding Mappings
    文献紹介 (2019/06/25)
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Literature
    Title:
    Analyzing the Limitations of Cross-lingual
    Word Embedding Mappings
    Author:
    Aitor Ormazabal, Mikel Artetxe, Gorka Labaka,
    Aitor Soroa, Eneko Agirre
    Conf.: ACL 2019
    Year: 2019
    URL: https://arxiv.org/abs/1906.05407
    2

    View Slide

  3. Abstract
    • Cross-lingual Word Embeddingsの学習は、
    単言語で学習したWord Embeddingsを線形変換
    して共有空間にマッピングするのがほとんど
    → そもそも線形変換でマッピング出来るかは疑問
    • 別々に学習する場合と一緒に学習する場合で比較
    • 一緒に学習した方がより同型(Isomorphism)で
    ハブ(Hubness)に敏感でない結果となった
    3

    View Slide

  4. Cross-lingual Word Embeddings
    • 既存のCross-lingual Word Embeddings(CWE)は
    大きく2つの学習方法に分けられる
    • Joint methods:
    並列コーパスで複数のWord Embeddingsを
    同時に学習する
    • Mapping methods:
    別々に学習して線形変換を介して共有空間に
    マッピングする手法
    4

    View Slide

  5. Limitation of mapping method
    • マッピングするためには空間が言語によらず
    同じ構造を持っている必要がある
    → 仮定が正しくなければマッピングには制限がある
    • 異言語、異ドメインにおいて空間構造は一致せず
    マッピングを妨げることが知られている
    5

    View Slide

  6. Methods
    Mapping method:
    1. 各言語で300次元のskip-gramを学習
    2. VecMapで教師なしマッピングの自己学習を反復*
    Joint learning:
    1. 文脈として原言語と目的言語の両方を与える
    BiVecを学習
    * Artetxe et al. A robust self-learning method for fully unsupervised cross-
    lingual mappings of word embeddings. ACL 2018.
    6

    View Slide

  7. Isomorphism (同型)
    • 両言語の構造的類似性を測定
    1. 各言語の高頻度語上位10,000語で最近傍
    グラフを作成
    2. それらのラプラシアン行列L
    1
    , L
    2
    を計算
    3. L
    1
    , L
    2
    においてK
    1
    , K
    2
    個の固有値の合計が全体の
    合計の90%になるような最小のK
    1
    , K
    2
    を求める
    4. ∆ = σ
    =1
    min 1,2 1
    − 2
    2 を求める
    7

    View Slide

  8. Hubness
    • ある単語が他のあらゆる単語と近くなる現象が
    Cross-lingual Word Embeddingでは問題となる
    • 原言語単語のN%の最近傍である目的言語単語の
    最小パーセンテージH
    N
    を求める(Nはパラメータ)
    • 例えばH
    10%
    =0.3% の場合、目的言語単語の0.3%
    が原言語単語の10%の最近傍であることを示す
    8

    View Slide

  9. Nearest neighbor retrieval
    • Hubnessの計算では最近傍検索を行う
    • 最近傍検索ではコサイン類似度を用いるのが一般的
    • コサイン類似度を用いた最近傍検索において、
    yがxの最近傍であることはxがyの最近傍であること
    を意味しない(非対称性)
    ← 画像特徴マッチングから言語理解までの様々な所
    で問題視されている
    → Cross-domain Similarity Local Scaling(CSLS)を利用
    9

    View Slide

  10. Bilingual Lexicon Induction
    • 原言語の各単語を目的言語の最近傍単語にリンク
    させて対訳辞書を作成
    • 上の辞書とGold-standardの辞書を比較
    • Precision@1で精度を測定
    11

    View Slide

  11. Datasets (Word Embeddings)
    • 英語を目的言語として、それと比較的近い言語の
    ドイツ語、スペイン語、イタリア語を原言語とする
    • 膠着語であるフィンランド語も原言語に用いる
    • ParaCrawlコーパスから学習
    • de/es/it/fi = 503M/492M/308M/55M (tokens in En.)
    12

    View Slide

  12. Datasets (Dictionary)
    • Eparl
    Europarlの単語アライメントから抽出(1,500件)
    • MUSE
    Facebookの内部翻訳ツールを用いて収集(1,500件)
    13

    View Slide

  13. Results
    14

    View Slide

  14. Results (isomorphism
    •Joint learningがより同型
    (isomorphic)な結果
    •Mappingと比較してより
    構造的に類似した空間を
    持つことを示す
    •訓練コーパスが小さく
    離れたフィンランド語で
    向上が大きい
    15

    View Slide

  15. Results (Hubness)
    •ドイツ語以外で良好な結果
    → 言語の相違がマッピングに
    深刻な影響を与える示唆
    •CSLSは特にMappingで
    非常に効果的
    16

    View Slide

  16. Results (Dictionary)
    •特にフィンランド語において
    Joint learningの効果が大きい
    •CSLSは特にMappingで
    効果的
    17

    View Slide

  17. Discussion
    • 同じ条件下で対訳コーパスを訓練した場合に
    Joint learningはMappingよりも優れた表現を得る
    • Joint learningによって言語間の相違が軽減される
    • Joint learningがMappingよりも優れているという
    主張ではない
    • 結果はMapping methodの根本的な制限を示す
    18

    View Slide

  18. Conclusions
    • 並列コーパスによるCross-lingual Word Embeddings
    の学習を通じてJoint learningとMappingの特性の
    違いを比較
    • Joint learningがより良い表現を得ることを確認
    • 現行のMappingには強い制限がある
    • 単言語コーパスでの学習にJoint learningを用いる
    新たな手法が求められる
    19

    View Slide