Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences

論文紹介2021前期_Bilingual Dictionary Based Neural Machine Translation without Using Parallel Sentences

maskcott

July 01, 2021
Tweet

More Decks by maskcott

Other Decks in Research

Transcript

  1. 概要 • 機械翻訳における新しいタスクの提案 → 対訳コーパスを用いず、対訳辞書と単言語コーパスが利用可能な条件における機械翻訳 • このタスクに取り組むために anchored training (AT)

    を提案 → 対訳辞書を用いてsrc言語とtgt言語の埋め込み表現の差を小さくする • 辞書ベースの単語間翻訳や辞書教師ありの言語間単語埋め込み変換、教師なし MTなどのベースライン よりも優位に優れていることを示した • 教師なしMTではうまくいかない遠い言語対でも優れた性能を発揮し、 400万以上の並列文で楽手された 教師ありSMTに匹敵する性能も示した 2
  2. 背景 • 人が辞書を引いて翻訳能力を獲得することからこのタスクを提案 • 教師なしMTは辞書を含む対訳リソースの使用不可 • 半教師あり / 教師ありMTでは並列文を用いる •

    これまでのnlpにおける対訳辞書の使用用途 → 対訳辞書構築(BLI)においてシードとして( Mikolov et al., 2013) → 教師ありMTの低頻出語の翻訳( Arthur et al., 2016; Zhang and Zong, 2016) ↓ この研究は対訳辞書と大量の単言語コーパスのみを用いて、 MTが対訳文なしでどこまで能力を発揮できるの かを調べる初めての試み 3 過去のどのタスクとも異なる
  3. Anchored Training (AT) ソース文:      → ATのプロセスではこのアンカーを用いて埋め込み空間の一貫性を強化 学習プロセス 1.        から

    src-to-tgt で を生成 2. と       を文対として tgt-to-src のモデルを学習 3. tgt-to-src で から       を生成 4. と     を文対として src-to-tgt のモデルを学習 モデルの学習はMTモデルの出力文を入力とし、元の文またはアンカーに置き換えられた 文を出力として行われる 教師なしMT(Lample et al., 2018)におけるノイズ除去も行われている (デリーションや語順の入れ替え) 5 対訳辞書に基づく置き換え アンカー デコード 学習
  4. Anchored Training (AT) テスト時 1. 対訳辞書を調べてsrc文をアンカーを含む文に変換 2. src-to-tgt モデルを用いてアンカーを含む文をデコード 4層からなるエンコーダー、デコーダーを持つ

    Transformerを採用 エンコーダーの最終 3層とデコーダーの最初の 3層を両言語で共有 → 2つの言語の共通の特性と固有の特性を一つのモデルに取り込んで学習できる ↓ この手法はターゲット言語視点で両言語の文をモデル化しようとしている 6 デコード 学習
  5. Anchored Cross-lingual Pretraining (ACP) • 教師なしMTで効果を出している Cross-lingual Pretraining を応用 →

    単言語コーパスの単語をランダムにマスクして穴埋めタスクを行う • ACPではアンカーを使った文から元の文に変換するようなタスクを行う → 先の方法よりもsrc言語空間とtgt言語空間のギャップを小さくすることができる(後述) • 対応するATのエンコーダーをACPで事前学習したもので初期化する。 • (Lample and Conneau, 2019) のXLMに従って行い、アンカーされた文ともう一方の言語の元の文を連 結したもので事前学習する。 (具体的な二文の選び方は明示されていないがおそらくランダム) (Lample and Conneau, 2019) の4.5、Lample et al. (2018a) 4.2から 10
  6. 実験 • 近い言語ペアとしてEn-Fr, 遠い言語ペアとしてEn-Ru, En-Zhで実験 • En-Fr → Wikipedia dumps

    • En-Ru → News Crawl 2007~2017 • En-Zh → LDCの対訳コーパス4.4Mから半分ずつを単言語コーパスとして利用 • closs-lingual pretraining → Wikipedia dumps • Muse ground-truth bilingual dictionaries • cross lingual pretrainingなし → 4層からなるTransformer (先行研究のUNMT) • cross lingual pretrainingあり → 6層からなるTransformer (先行研究のXLM) • joint BPEを用いてエンコード、語彙は共有 • En-Fr, En-Ruは60Kトークン、En-Zhは40Kトークン 11
  7. ベースライン • Word-by-word translation • Unsupervised translation(UNMT) • UNMT initialized

    by Unsupervised Word Embedding Transformation (UNMT+UWET) → 対訳辞書なし • UNMT system initialized by Supervised Word Embedding Transformation (UNMT+SWET) → 対訳辞書で src word を tgt word に変換することで初期化 12
  8. 関連研究 • これまでの対訳辞書の主な使用用途 → 対訳辞書構築(BLI)... 単言語コーパスを用いて各言語の埋め込み表現を学習して、辞書に含まれる すべて単語ペアのユークリッド距離を最小化することで埋め込み空間から別の空間への変換を学習 • 教師なしNMTは対訳コーパスを用いないという点で同じ 教師なしBLIで生成される擬似対訳コーパスを用いて初期化するか、

    joint BPEを用いる • 本研究は正確な対訳辞書を用いて新学習プロセスを適用 → 遠い言語ペアにおいて翻訳精度が著しく落ちるという UNMTの問題を低減(対訳辞書の必要性) • 対訳辞書はMT以外だと多言語構文解析や教師なし多言語会話タギングなどで利用 25