Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介201905_Context-Aware Cross-Lingual Mapping

文献紹介201905_Context-Aware Cross-Lingual Mapping

T.Tada

May 08, 2019
Tweet

More Decks by T.Tada

Other Decks in Technology

Transcript

  1. About the paper 2 Authors: Hanan Aldarmaki : The George

    Washington University Mona Diab : AWS, Amazon AI Conference: NAACL-HLT 2019 (short paper)
  2. Introduction ・クロスリンガル単語ベクトルモデルは、言語間の辞書拡張などを可能にするために、複数の 言語からの単語を共有ベクトル空間に埋め込むことが目的(Upadhyay et al.,2016) ・マッピングに直交性の制約を課すことで、元のペアワイズ距離が保持され、単語の翻訳検 索が向上(Artetxe et al., 2016;

    Smith et al.,2017) ・単語ベクトル空間は言語間で一貫している傾向がある(Aldarmaki et al.,2018)   語義曖昧性のある語(例: 'bank'、 'coast')および句動詞( 'stand up'の個々の単語な   ど)は、使用分布が異なるため、多言語ベクトル空間では一貫性が低下  →アライメント辞書で上のような単語を使用すると、全体的に最適でないマッピング   になる可能性がある 4
  3. Approach - Mapping of Contextualized Embeddings - ソース言語とソース言語の翻訳における単語埋め込みは同様の構造を有する傾向がある (Aldarmaki et

    al.,2018)  しかし、語義曖昧性のある語や句動詞は、使用分布が異なるため、多言語ベクトル空間では  一貫性が低下 →結果、全体的に最適でないマッピングになる可能性がある ・ELMoから文脈化された単語埋め込みを得る(Peters et al.,2018) ・文の埋め込みは、単語埋め込みを平均化しELMoから得る(Perone et al.,2018) ・単語アラインメントを有する並列コーパス、すなわちIBMモデル(Brown et al., 1993)を使用し、 アライメントから文脈化された単語埋め込みの動的辞書を抽出し使用 7
  4. Experiments - Data - ・すべてのモデル同じ単一言語と対訳のデータセットを用いて学習をおこなう ・単言語トレーニング the 1 Billion Word

    benchmark (Chelba et al., 2014) WMT’13 (Bojar et al., 2013)から約4億トークン相当のサブセット 単言語のELMoとFastTextをトレーニング(パラメータはデフォルト) ・言語間マッピング WMT’13のコモンクロールデータ ・文の翻訳検索の評価 WMT 13テストセット 9
  5. Experiments - Alignment Schemes - ELMoでは、単語の埋め込みは文脈から計算する必要がある ・Fast Align(Dyer et al.,

    2013)を使用して単語レベルのアライメントを適用することで、 対訳コーパスから文脈化単語の辞書を抽出 ・ソース文とターゲット文に対する文脈化単語埋め込みを計算し,一対一のアライメントを 持つ単語から辞書を抽出した(効率のために辞書の単語数を1Mに制限) ・FastTextでも、同じ対訳セットを使用して単語アライメント確率から辞書を抽出   すべてのアライメントは、ソース言語から英語に実行 11