論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences

発表者: 小町研 M1 今藤誠一郎 2021/07/01 @論文紹介2021 1

概要 • 機械翻訳における新しいタスクの提案 → 対訳コーパスを用いず、対訳辞書と単言語コーパスが利用可能な条件における機械翻訳 • このタスクに取り組むために anchored training (AT)
を提案 → 対訳辞書を用いてsrc言語とtgt言語の埋め込み表現の差を小さくする • 辞書ベースの単語間翻訳や辞書教師ありの言語間単語埋め込み変換、教師なし MTなどのベースラインよりも優位に優れていることを示した • 教師なしMTではうまくいかない遠い言語対でも優れた性能を発揮し、 400万以上の並列文で楽手された教師ありSMTに匹敵する性能も示した 2

背景 • 人が辞書を引いて翻訳能力を獲得することからこのタスクを提案 • 教師なしMTは辞書を含む対訳リソースの使用不可 • 半教師あり / 教師ありMTでは並列文を用いる •
これまでのnlpにおける対訳辞書の使用用途 → 対訳辞書構築（BLI）においてシードとして（ Mikolov et al., 2013） → 教師ありMTの低頻出語の翻訳（ Arthur et al., 2016; Zhang and Zong, 2016） ↓ この研究は対訳辞書と大量の単言語コーパスのみを用いて、 MTが対訳文なしでどこまで能力を発揮できるのかを調べる初めての試み 3 過去のどのタスクとも異なる

提案手法 • 大規模な単言語コーパスにアンカリングポイントを置くことによって対訳辞書を MTの学習に導入 → 両言語の意味空間を近づけて翻訳を容易にする • Anchored Traning (AT)
と Bi-view AT の二つの手法を提案 4

Anchored Training (AT) ソース文：　　　　　 → ATのプロセスではこのアンカーを用いて埋め込み空間の一貫性を強化学習プロセス 1. 　　　　　　から
src-to-tgt でを生成 2. と　　　　　　を文対として tgt-to-src のモデルを学習 3. tgt-to-src でから　　　　　　を生成 4. と　　　　を文対として src-to-tgt のモデルを学習モデルの学習はMTモデルの出力文を入力とし、元の文またはアンカーに置き換えられた文を出力として行われる教師なしMT（Lample et al., 2018）におけるノイズ除去も行われている（デリーションや語順の入れ替え） 5 対訳辞書に基づく置き換えアンカーデコード学習

Anchored Training (AT) テスト時 1. 対訳辞書を調べてsrc文をアンカーを含む文に変換 2. src-to-tgt モデルを用いてアンカーを含む文をデコード 4層からなるエンコーダー、デコーダーを持つ
Transformerを採用エンコーダーの最終 3層とデコーダーの最初の 3層を両言語で共有 → 2つの言語の共通の特性と固有の特性を一つのモデルに取り込んで学習できる ↓ この手法はターゲット言語視点で両言語の文をモデル化しようとしている 6 デコード学習

Bi-view AT もう一つの視点を取り入れて ATを強化した手法学習プロセス 1. 両方の視点を並列して AT同様に学習 2. 擬似文と真の文からなるペアを作成
7 ターゲット文を辞書に基づいて置き換える

Anchored Cross-lingual Pretraining (ACP) • 教師なしMTで効果を出している Cross-lingual Pretraining を応用 →
単言語コーパスの単語をランダムにマスクして穴埋めタスクを行う • ACPではアンカーを使った文から元の文に変換するようなタスクを行う → 先の方法よりもsrc言語空間とtgt言語空間のギャップを小さくすることができる（後述） • 対応するATのエンコーダーをACPで事前学習したもので初期化する。 • (Lample and Conneau, 2019) のXLMに従って行い、アンカーされた文ともう一方の言語の元の文を連結したもので事前学習する。（具体的な二文の選び方は明示されていないがおそらくランダム） (Lample and Conneau, 2019) の4.5、Lample et al. (2018a) 4.2から 10

実験 • 近い言語ペアとしてEn-Fr, 遠い言語ペアとしてEn-Ru, En-Zhで実験 • En-Fr → Wikipedia dumps
• En-Ru → News Crawl 2007~2017 • En-Zh → LDCの対訳コーパス4.4Mから半分ずつを単言語コーパスとして利用 • closs-lingual pretraining → Wikipedia dumps • Muse ground-truth bilingual dictionaries • cross lingual pretrainingなし → 4層からなるTransformer （先行研究のUNMT） • cross lingual pretrainingあり → 6層からなるTransformer （先行研究のXLM） • joint BPEを用いてエンコード、語彙は共有 • En-Fr, En-Ruは60Kトークン、En-Zhは40Kトークン 11

ベースライン • Word-by-word translation • Unsupervised translation（UNMT） • UNMT initialized
by Unsupervised Word Embedding Transformation (UNMT+UWET) → 対訳辞書なし • UNMT system initialized by Supervised Word Embedding Transformation (UNMT+SWET) → 対訳辞書で src word を tgt word に変換することで初期化 12

結果 13

結果 14 word-by-wordはほとんど性能が出せていない

結果 15 言語距離が遠い時には WETの効果が見られる

結果 16 対訳コーパスを用いたベースラインを含めたどのベースラインよりも高い性能 Bi-view ATがどの言語対においても最高のスコアを出している

結果 17

結果 18

Effect on Bilingual Word Embeddings En-ZhにおいてBi-view ATで学習した後、辞書に含まれていない英語の単語埋め込みを可視化各単語に対して最近傍の中国語単語の埋め込み空間を可視化
対訳ペアを構成する単語が隣接した点として現れている 19

Precision of New Word Pairs 対訳辞書を学習用とテスト用に分けて分析単語埋め込み空間で k近傍の中に正解が入っている割合距離はCLSL距離で計算 (Conneau
et al., 2018) Bi-view ATはビームサーチを用いたデコードでより良い翻訳を見つけられる 20

Sentence Level Similarity of Parallel Sentences 各エンコーダー層で max-poolingを適用して文ベクトル En-Zhにおいて各文対のcos類似度を測り、その平均で評価
21

Ground-Truth Dictionary Vs Artificial Dictionary 22 The Effect of The
Dictionary Size

まとめ • 対訳辞書と大規模な単言語コーパス飲みを用いた場合に MTがどの程度の能力を発揮できるのか探った • この実験設定において、対訳辞書をアンカー付きの学習によって MTに導入することを提案 • 近い言語ペア、遠い言語ペアの両方で提案手法が両言語空間の差を効果的に小さくした •
辞書を用いないMT手法や、辞書でクロスリンガルな単語埋め込み変換を用いる手法に比べて翻訳精度を大幅に向上させることを確認した 23

貢献 • 対訳文を用いないで対訳辞書と単言語コーパスのみを用いるという新しい MTタスクの提案 • このタスクにATを使って取り組んだ対訳辞書を用いてsrcとtgtの言語空間を近づけることで翻訳を容易にできるようにした • 24

関連研究 • これまでの対訳辞書の主な使用用途 → 対訳辞書構築（BLI）... 単言語コーパスを用いて各言語の埋め込み表現を学習して、辞書に含まれるすべて単語ペアのユークリッド距離を最小化することで埋め込み空間から別の空間への変換を学習 • 教師なしNMTは対訳コーパスを用いないという点で同じ教師なしBLIで生成される擬似対訳コーパスを用いて初期化するか、
joint BPEを用いる • 本研究は正確な対訳辞書を用いて新学習プロセスを適用 → 遠い言語ペアにおいて翻訳精度が著しく落ちるという UNMTの問題を低減（対訳辞書の必要性） • 対訳辞書はMT以外だと多言語構文解析や教師なし多言語会話タギングなどで利用 25

論文紹介2021前期_Bilingual Dictionary Based Neural Ma...

論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences

maskcott

More Decks by maskcott

Other Decks in Research

Featured

Transcript

発表者: 小町研 M1 今藤誠一郎 2021/07/01 @論文紹介2021 1

概要 • 機械翻訳における新しいタスクの提案 → 対訳コーパスを用いず、対訳辞書と単言語コーパスが利用可能な条件における機械翻訳 • このタスクに取り組むために anchored training (AT)

背景 • 人が辞書を引いて翻訳能力を獲得することからこのタスクを提案 • 教師なしMTは辞書を含む対訳リソースの使用不可 • 半教師あり / 教師ありMTでは並列文を用いる •

提案手法 • 大規模な単言語コーパスにアンカリングポイントを置くことによって対訳辞書を MTの学習に導入 → 両言語の意味空間を近づけて翻訳を容易にする • Anchored Traning (AT)

Anchored Training (AT) ソース文：　　　　　 → ATのプロセスではこのアンカーを用いて埋め込み空間の一貫性を強化学習プロセス 1. 　　　　　　から

Anchored Training (AT) テスト時 1. 対訳辞書を調べてsrc文をアンカーを含む文に変換 2. src-to-tgt モデルを用いてアンカーを含む文をデコード 4層からなるエンコーダー、デコーダーを持つ

Bi-view AT もう一つの視点を取り入れて ATを強化した手法学習プロセス 1. 両方の視点を並列して AT同様に学習 2. 擬似文と真の文からなるペアを作成

Bi-view AT もう一つの視点を取り入れて ATを強化した手法学習プロセス 1. 両方の視点を並列して AT同様に学習 2. 擬似文と真の文からなるペアを作成

Bi-view AT もう一つの視点を取り入れて ATを強化した手法学習プロセス 1. 両方の視点を並列して AT同様に学習 2. 擬似文と真の文からなるペアを作成

Anchored Cross-lingual Pretraining (ACP) • 教師なしMTで効果を出している Cross-lingual Pretraining を応用 →

実験 • 近い言語ペアとしてEn-Fr, 遠い言語ペアとしてEn-Ru, En-Zhで実験 • En-Fr → Wikipedia dumps

ベースライン • Word-by-word translation • Unsupervised translation（UNMT） • UNMT initialized

結果 13

結果 14 word-by-wordはほとんど性能が出せていない

結果 15 言語距離が遠い時には WETの効果が見られる

結果 16 対訳コーパスを用いたベースラインを含めたどのベースラインよりも高い性能 Bi-view ATがどの言語対においても最高のスコアを出している

結果 17

結果 18

Effect on Bilingual Word Embeddings En-ZhにおいてBi-view ATで学習した後、辞書に含まれていない英語の単語埋め込みを可視化各単語に対して最近傍の中国語単語の埋め込み空間を可視化

Precision of New Word Pairs 対訳辞書を学習用とテスト用に分けて分析単語埋め込み空間で k近傍の中に正解が入っている割合距離はCLSL距離で計算 (Conneau

Sentence Level Similarity of Parallel Sentences 各エンコーダー層で max-poolingを適用して文ベクトル En-Zhにおいて各文対のcos類似度を測り、その平均で評価

Ground-Truth Dictionary Vs Artificial Dictionary 22 The Effect of The