文献紹介201905_Context-Aware Cross-Lingual Mapping

- 文献紹介 2019/5/7 - Context-Aware Cross-Lingual Mapping 長岡技術科学大学自然言語処理研究室多田太郎

About the paper 2 Authors： Hanan Aldarmaki : The George
Washington University Mona Diab : AWS, Amazon AI Conference： NAACL-HLT 2019 (short paper)

Abstract ・文レベルの類似性をより反映する、単語レベルのマッピングに代わる方法を提案・対訳コーパス内のアライメントされた文埋め込みを直接マッピングすることにより、変換行列にコンテキストを組み込む・単語アラインメントを有する対訳文を使用して、文脈化された単語埋め込みのマッピングを実施 3

Introduction ・クロスリンガル単語ベクトルモデルは、言語間の辞書拡張などを可能にするために、複数の言語からの単語を共有ベクトル空間に埋め込むことが目的（Upadhyay et al.,2016）・マッピングに直交性の制約を課すことで、元のペアワイズ距離が保持され、単語の翻訳検索が向上（Artetxe et al., 2016;
Smith et al.,2017）・単語ベクトル空間は言語間で一貫している傾向がある（Aldarmaki et al.,2018）　　語義曖昧性のある語（例： 'bank'、 'coast'）および句動詞（ 'stand up'の個々の単語な　　ど）は、使用分布が異なるため、多言語ベクトル空間では一貫性が低下　→アライメント辞書で上のような単語を使用すると、全体的に最適でないマッピング　　になる可能性がある 4

Introduction ・明示的な語義曖昧解消や言語資源追加なしに、文章の文脈をマッピングプロセスに組み込むことにより、これら影響を打ち消すための2つのアプローチを提案 1. 言語モデルELMoを基にした文脈化された埋め込み（Peters et al。、2018）　対訳コーパスと単語アライメントを使用して、文脈を反映した埋め込みを抽出して、　マッピングのための辞書を構築 2.
個々の単語の埋め込みではなく、文埋め込みの変換を学習する　埋め込みは全文にわたる文脈を含んでいるので、このレベルで学習されたマッピング　は個々の単語に対してよりロバストと考えられる 5

Approach - Orthogonal Bilingual Mapping - ソースとターゲットのペア<x、y> 列が対応する辞書項目のベクトル表現である行列表現XとY 直交性の制約により、元のソースベクトル空間内のペアワイズ距離が変換後も維持される解はY
X Tの特異値分解によって求めることができる(Schönemann, 1966) Rは、ソースベクトル空間内の追加のベクトルを変換するために使用できる 6

Approach - Mapping of Contextualized Embeddings - ソース言語とソース言語の翻訳における単語埋め込みは同様の構造を有する傾向がある（Aldarmaki et
al.,2018）　しかし、語義曖昧性のある語や句動詞は、使用分布が異なるため、多言語ベクトル空間では　一貫性が低下　→結果、全体的に最適でないマッピングになる可能性がある・ＥＬＭｏから文脈化された単語埋め込みを得る（Ｐｅｔｅｒｓ et al.,２０１８）・文の埋め込みは、単語埋め込みを平均化しELMoから得る（Perone et al.,2018）・単語アラインメントを有する並列コーパス、すなわちＩＢＭモデル（Ｂｒｏｗｎ et al., １９９３）を使用し、アライメントから文脈化された単語埋め込みの動的辞書を抽出し使用 7

Experiments ・単語埋め込みにはFastText（Bojanowski et al., 2017）を用いたskipgramを使用・文脈化単語埋め込みにはELMoを使用・文章の埋め込みは、文脈化された平均単語埋め込みとしてELMoから計算　 8

Experiments - Data - ・すべてのモデル同じ単一言語と対訳のデータセットを用いて学習をおこなう・単言語トレーニング the 1 Billion Word
benchmark (Chelba et al., 2014) WMT’13 (Bojar et al., 2013)から約4億トークン相当のサブセット単言語のELMoとFastTextをトレーニング（パラメータはデフォルト）・言語間マッピング WMT’13のコモンクロールデータ・文の翻訳検索の評価 WMT 13テストセット 9

Experiments - Evaluation Framework - ・最近傍探索を用いて、テスト対訳コーパスのターゲット側で正しい翻訳の検索精度 →文翻訳検索におけるクロスリンガルマッピングアプローチの評価をおこなう・データからどのように影響を受けるか →トレーニングコーパスを分割して100〜100万文で実験　
10

Experiments - Alignment Schemes - ELMoでは、単語の埋め込みは文脈から計算する必要がある・Fast Align(Dyer et al.,
2013)を使用して単語レベルのアライメントを適用することで、対訳コーパスから文脈化単語の辞書を抽出・ソース文とターゲット文に対する文脈化単語埋め込みを計算し,一対一のアライメントを持つ単語から辞書を抽出した（効率のために辞書の単語数を1Mに制限）・FastTextでも、同じ対訳セットを使用して単語アライメント確率から辞書を抽出　　すべてのアライメントは、ソース言語から英語に実行 11

Experiments - Results - 12

Experiments - Word-level Evaluation - クロスリンガルの単語埋め込みは、他言語の語彙から正しく翻訳を検索する精度で評価される　→単語レベルでは文脈とは離れたタスクなので、FastTextのパフォーマンスで評価　　文レベルで学習した言語間の変換行列を用いて単語の埋め込みを変換する。また,人間の判断に対するPearsonとSpearman相関係数の平均を用いて測定した SemEval’17クロスリンガル単語類似性タスク(Camacho-Colladosら、2017)についても評価
　 13

Experiments - Word-level Evaluation - 14

Experiments - Word-level Evaluation - 15

Conclusions ・マッピングにコンテキストを組み込んだ、単語マッピングアプローチを提案・単語アラインメントを有する対訳文を使用して、文脈化された単語埋め込みのマッピングを実施・文章翻訳検索において文脈に依存しない単語マッピングよりも優れた精度・文レベルの変換は、単語の翻訳品質を損なうことなく、単語レベルのマッピングに使用可 16

文献紹介201905_Context-Aware Cross-Lingual Mapping

文献紹介201905_Context-Aware Cross-Lingual Mapping

T.Tada

More Decks by T.Tada

Other Decks in Technology

Featured

Transcript

- 文献紹介 2019/5/7 - Context-Aware Cross-Lingual Mapping 長岡技術科学大学自然言語処理研究室多田太郎

About the paper 2 Authors： Hanan Aldarmaki : The George

Approach - Orthogonal Bilingual Mapping - ソースとターゲットのペア<x、y> 列が対応する辞書項目のベクトル表現である行列表現XとY 直交性の制約により、元のソースベクトル空間内のペアワイズ距離が変換後も維持される解はY

Approach - Mapping of Contextualized Embeddings - ソース言語とソース言語の翻訳における単語埋め込みは同様の構造を有する傾向がある（Aldarmaki et

Experiments ・単語埋め込みにはFastText（Bojanowski et al., 2017）を用いたskipgramを使用・文脈化単語埋め込みにはELMoを使用・文章の埋め込みは、文脈化された平均単語埋め込みとしてELMoから計算　 8

Experiments - Data - ・すべてのモデル同じ単一言語と対訳のデータセットを用いて学習をおこなう・単言語トレーニング the 1 Billion Word

Experiments - Alignment Schemes - ELMoでは、単語の埋め込みは文脈から計算する必要がある・Fast Align(Dyer et al.,

Experiments - Results - 12

Experiments - Word-level Evaluation - 14

Experiments - Word-level Evaluation - 15