Upgrade to Pro — share decks privately, control downloads, hide ads and more …

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

文献紹介

長岡技術科学大学 自然言語処理研究室
勝田 哲弘

katsutan

June 19, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. A robust self-learning method for fully unsupervised
    cross-lingual mappings of word embeddings
    Proceedings of the 56th Annual Meeting of the Association for
    Computational Linguistics (Long Papers), pages 789–798, 2018.
    文献紹介
    長岡技術科学大学 自然言語処理研究室
    勝田 哲弘

    View Slide

  2. Abstract
    ● 先行研究でadversarial trainingによって教師なしで複数言語の分散表現を
    共有することが可能になった
    ○ 良い精度
    ○ しかし、評価は非常に近い単語間でのみ行われている
    ● より堅牢なモデルの提案
    ○ 単語分散表現の構造的類似性を明示的に活用する完全に教師なしの初期化
    ○ iterative self-learningに基づく代替アプローチ
    実装は以下で公開されている
    https://github.com/artetxem/vecmap
    2

    View Slide

  3. Introduction
    ● Cross-lingual embedding mappings
    ○ 単一言語コーパスを使用して異なる言語ごとに分散表現を個別に訓練し、線形変換によっ
    て共有空間にマッピングする
    ■ 辞書を必要とするものがほとんど
    ■ 最近、adversarial trainingで教師なしが可能に
    ○ iterative self-learningは非常に小さい辞書( 25対の単語程)からの高品質なマッピングが可
    能 (Artetxe et al., 2017)
    ● 単語類似度の分布をもとに初期解を構築
    ○ 教師なし
    3

    View Slide

  4. Proposed method
    ● XW
    X
    = ZW
    Z
    となるようにW
    X
    ,W
    Z
    を学習 X,Z:各言語の分散表現
    ○ 1: 分散表現の初期化、前処理
    ○ 2: 初期解を生成
    ○ 3: self-learningを繰り返して解を改善
    ○ 4: 得られるマッピングをさらに改善する最終的な改良
    4
    init_dict map dict

    View Slide

  5. Embedding normalization
    前処理
    ベクトルの長さを正規化
     ↓
    各次元の兵権を中心に揃える
     ↓
    再び、長さを正規化
    内積を取るとcos類似度が計算できる
    ユークリッド距離が類似度の尺度とみなせる
    5

    View Slide

  6. Fully unsupervised initialization
    ● それぞれの語彙を対応させる最初の辞書
    ○ M
    X
    == XXT, M
    Z
    = ZZT の間で一致を見つける
    6

    View Slide

  7. Robust self-learning
    学習は収束するまで次の2つのステップを繰り返す
    ● 現在の辞書Dを最大化する直交マッピングを計算
    ● 最近傍検索

    7

    View Slide

  8. Robust self-learning
    ● Stochastic dictionary induction
    ○ 類似度行列を確率pで保持、残りを0にする
    ○ p = 0.1から徐々に増やす
    ● Frequency-based vocabulary cutoff
    ○ 各言語で高頻度のk単語に制限
    ● CSLS retrieval
    ○ k最近傍の平均コサイン類似度
    ● Bidirectional dictionary induction
    8

    View Slide

  9. Symmetric re-weighting
    ● それぞれの相互相関に従って再加重
    9

    View Slide

  10. Experimental settings
    対訳辞書抽出の精度を評価
    Dinu et al. (2015),subsequent extensions of Artetxe et al. (2017, 2018)
    ● 分散表現(CBOW: 300-dimension)
    ○ WacKy crawling corpora (English, Italian, German)
    ○ Common Crawl (Finnish)
    ○ WMT News Crawl (Spanish)
    Zhang et al. (2017a)
    ● 分散表現(CBOW: 50-dimension)
    ○ Wikipedia
    10

    View Slide

  11. Results
    11

    View Slide

  12. Results
    12

    View Slide

  13. Ablation test
    13

    View Slide

  14. Conclusions
    ● self-learningと初期の弱いマッピング手法を組み合わせたモデルの提案
    ○ 教師なし、ハイパーパラメータに強く依存しない
    ● 教師なし、教師つきマッピングに関する以前の研究と比較して最良の結果を
    示した
    ● 将来的には、バイリンガルからマルチリンガルへと拡張し、さらに長いフレー
    ズを埋め込む
    14

    View Slide