Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

文献紹介

長岡技術科学大学 自然言語処理研究室
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

June 19, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. A robust self-learning method for fully unsupervised cross-lingual mappings of

    word embeddings Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 789–798, 2018. 文献紹介 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2. Abstract • 先行研究でadversarial trainingによって教師なしで複数言語の分散表現を 共有することが可能になった ◦ 良い精度 ◦ しかし、評価は非常に近い単語間でのみ行われている •

    より堅牢なモデルの提案 ◦ 単語分散表現の構造的類似性を明示的に活用する完全に教師なしの初期化 ◦ iterative self-learningに基づく代替アプローチ 実装は以下で公開されている https://github.com/artetxem/vecmap 2
  3. Introduction • Cross-lingual embedding mappings ◦ 単一言語コーパスを使用して異なる言語ごとに分散表現を個別に訓練し、線形変換によっ て共有空間にマッピングする ▪ 辞書を必要とするものがほとんど

    ▪ 最近、adversarial trainingで教師なしが可能に ◦ iterative self-learningは非常に小さい辞書( 25対の単語程)からの高品質なマッピングが可 能 (Artetxe et al., 2017) • 単語類似度の分布をもとに初期解を構築 ◦ 教師なし 3
  4. Proposed method • XW X = ZW Z となるようにW X

    ,W Z を学習 X,Z:各言語の分散表現 ◦ 1: 分散表現の初期化、前処理 ◦ 2: 初期解を生成 ◦ 3: self-learningを繰り返して解を改善 ◦ 4: 得られるマッピングをさらに改善する最終的な改良 4 init_dict map dict
  5. Embedding normalization 前処理 ベクトルの長さを正規化  ↓ 各次元の兵権を中心に揃える  ↓ 再び、長さを正規化 内積を取るとcos類似度が計算できる ユークリッド距離が類似度の尺度とみなせる

    5
  6. Fully unsupervised initialization • それぞれの語彙を対応させる最初の辞書 ◦ M X == XXT,

    M Z = ZZT の間で一致を見つける 6
  7. Robust self-learning 学習は収束するまで次の2つのステップを繰り返す • 現在の辞書Dを最大化する直交マッピングを計算 • 最近傍検索 ◦ 7

  8. Robust self-learning • Stochastic dictionary induction ◦ 類似度行列を確率pで保持、残りを0にする ◦ p

    = 0.1から徐々に増やす • Frequency-based vocabulary cutoff ◦ 各言語で高頻度のk単語に制限 • CSLS retrieval ◦ k最近傍の平均コサイン類似度 • Bidirectional dictionary induction 8
  9. Symmetric re-weighting • それぞれの相互相関に従って再加重 9

  10. Experimental settings 対訳辞書抽出の精度を評価 Dinu et al. (2015),subsequent extensions of Artetxe

    et al. (2017, 2018) • 分散表現(CBOW: 300-dimension) ◦ WacKy crawling corpora (English, Italian, German) ◦ Common Crawl (Finnish) ◦ WMT News Crawl (Spanish) Zhang et al. (2017a) • 分散表現(CBOW: 50-dimension) ◦ Wikipedia 10
  11. Results 11

  12. Results 12

  13. Ablation test 13

  14. Conclusions • self-learningと初期の弱いマッピング手法を組み合わせたモデルの提案 ◦ 教師なし、ハイパーパラメータに強く依存しない • 教師なし、教師つきマッピングに関する以前の研究と比較して最良の結果を 示した • 将来的には、バイリンガルからマルチリンガルへと拡張し、さらに長いフレー

    ズを埋め込む 14