A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

A robust self-learning method for fully unsupervised cross-lingual mappings of
word embeddings Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 789–798, 2018. 文献紹介長岡技術科学大学自然言語処理研究室勝田哲弘

Abstract • 先行研究でadversarial trainingによって教師なしで複数言語の分散表現を共有することが可能になった ◦ 良い精度 ◦ しかし、評価は非常に近い単語間でのみ行われている •
より堅牢なモデルの提案 ◦ 単語分散表現の構造的類似性を明示的に活用する完全に教師なしの初期化 ◦ iterative self-learningに基づく代替アプローチ実装は以下で公開されている https://github.com/artetxem/vecmap 2

Introduction • Cross-lingual embedding mappings ◦ 単一言語コーパスを使用して異なる言語ごとに分散表現を個別に訓練し、線形変換によって共有空間にマッピングする ▪ 辞書を必要とするものがほとんど
▪ 最近、adversarial trainingで教師なしが可能に ◦ iterative self-learningは非常に小さい辞書（ 25対の単語程）からの高品質なマッピングが可能　(Artetxe et al., 2017) • 単語類似度の分布をもとに初期解を構築 ◦ 教師なし 3

Proposed method • XW X = ZW Z となるようにW X
,W Z を学習　X,Z:各言語の分散表現 ◦ 1: 分散表現の初期化、前処理 ◦ 2: 初期解を生成 ◦ 3: self-learningを繰り返して解を改善 ◦ 4: 得られるマッピングをさらに改善する最終的な改良 4 init_dict map dict

Embedding normalization 前処理ベクトルの長さを正規化　↓ 各次元の兵権を中心に揃える　↓ 再び、長さを正規化内積を取るとcos類似度が計算できるユークリッド距離が類似度の尺度とみなせる
5

Fully unsupervised initialization • それぞれの語彙を対応させる最初の辞書 ◦ M X == XXT,
M Z = ZZT の間で一致を見つける 6

Robust self-learning 学習は収束するまで次の2つのステップを繰り返す • 現在の辞書Dを最大化する直交マッピングを計算 • 最近傍検索 ◦ 7

Robust self-learning • Stochastic dictionary induction ◦ 類似度行列を確率pで保持、残りを0にする ◦ p
= 0.1から徐々に増やす • Frequency-based vocabulary cutoff ◦ 各言語で高頻度のk単語に制限 • CSLS retrieval ◦ k最近傍の平均コサイン類似度 • Bidirectional dictionary induction 8

Symmetric re-weighting • それぞれの相互相関に従って再加重 9

Experimental settings 対訳辞書抽出の精度を評価 Dinu et al. (2015),subsequent extensions of Artetxe
et al. (2017, 2018) • 分散表現（CBOW: 300-dimension） ◦ WacKy crawling corpora (English, Italian, German) ◦ Common Crawl (Finnish) ◦ WMT News Crawl (Spanish) Zhang et al. (2017a) • 分散表現（CBOW: 50-dimension） ◦ Wikipedia 10

Results 11

Results 12

Ablation test 13

Conclusions • self-learningと初期の弱いマッピング手法を組み合わせたモデルの提案 ◦ 教師なし、ハイパーパラメータに強く依存しない • 教師なし、教師つきマッピングに関する以前の研究と比較して最良の結果を示した • 将来的には、バイリンガルからマルチリンガルへと拡張し、さらに長いフレー
ズを埋め込む 14

A robust self-learning method for fully unsuper...

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript