文献紹介: Self-Supervised_Neural_Machine_Translation

Slide 1

Slide 1 text

Self-Supervised Neural Machine Translation 文献紹介 2019/12/13 長岡技術科学大学自然言語処理研究室稲岡夢人

Slide 2

Slide 2 text

Literature 2 Title: Self-Supervised Neural Machine Translation Authors: Dana Ruiter, Cristina España-Bonet, Josef van Genabith Volume: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics Pages: 1828–1834 Year: 2019

Slide 3

Slide 3 text

Abstract • NMTの学習で得られる内部表現を用いて訓練データを選択する自己教師あり学習を提案 • 表現の学習とデータ選択はお互いを強化するように並列データなしで行なわれる • 言語に依存しない & 追加のハイパーパラメータなし 3

Slide 4

Slide 4 text

Low-resource NMT • NMTは高品質の並列コーパスに依存している → 多数の低資源言語では存在しない • NMTであらゆる言語をカバーするためには教師なし手法の開発、並列データの抽出が必要 4

Slide 5

Slide 5 text

Their approach • NMTモデルは有用な文ペアを判断するのに充分なほど学習される • MTの学習とCross-lingualな近い文を見つける補助タスクで相互に自己教師あり学習を繰り返させる 5

Slide 6

Slide 6 text

Joint Model Architecture • EncoderとDecoderのどちらも両方の言語情報を持つ双方向NMTを考える ← 入力文に目的言語のタグを付けることで実現 • 以下の2つを文のベクトル表現とする - Ce: 単語埋め込みの合計 - Ch: Encoderの隠れ状態の合計 6

Slide 7

Slide 7 text

Score input sentence pairs • 2つの文ベクトルを使ってペアをスコアリング • コサイン類似度による方法ではしきい値を決める必要がある → Margin-basedな手法を用いる 7

Slide 8

Slide 8 text

Selection process • 以下の4つの戦略を検討する • Ce, Chのいずれか、または両方利用 1. Threshold dependent 2. High precision, medium recall (System P) 3. Medium precision, high recall (System R) 4. Low precision, high recall 8

Slide 9

Slide 9 text

Threshold dependent • 各原文で一番スコアの高い目的言語文を見つける • Ce, Chのいずれかを使用 • 両言語方向で一致したペアのみを用いる • 誤検知を除外するためのしきい値は経験的に決定 9

Slide 10

Slide 10 text

High precision, medium recall • Threshold dependentとほとんど同じ • Ch, Ceの両方の表現を用いる • 両言語方向かつ両表現で一致したペアのみを用いる • 補完的なCh, Ceによってしきい値は不要となる 10

Slide 11

Slide 11 text

Medium precision, high recall • High precision, medium recallは制限が強い • 最高スコアの目的言語文だけを用いるのではなく top-n (本実験ではn=2) を用いるようにする • 両方の表現を用いるのは同じだが、上の拡張は Chにおいてのみ使用する 11

Slide 12

Slide 12 text

Low precision, high recall • Medium precision, high recall における source-targetとCh-Ce を対称にした手法 12

Slide 13

Slide 13 text

Experimental Setup (Data) • 初期の単語埋め込みの計算： Wikipedia の En/Fr (92M/27M sents.)を使用 • 学習コーパス：言語間でリンクできる記事のみを使用 (12M/8M) 13

Slide 14

Slide 14 text

Experimental Setup (Model) • OpenNMT toolkitを使用 • LSTM: 1-layer Bi-LSTM with Attention, SGD • Transformer: 6-layer, 8-head, Adam 14

Slide 15

Slide 15 text

Experimental Setup (Model) • simP: CeとChを使用, high precision, sim関数を使用 • margP: simPと同じ, margin関数を使用 • margR: margPと同じ, high recall • margH: margPと同じ, Chのみ使用, しきい値は1.0 • margE: margPと同じ, Ceのみ使用, しきい値は1.2 15

Slide 16

Slide 16 text

Results (Epochs - #Pairs) • epochが進むにつれて使われるペアが増える • 学習の前半では数字や固有表現を含む文が選ばれる • 学習が進むにつれて同じ意味の複雑な文が選ばれる 16

Slide 17

Slide 17 text

Results (Epochs – BLEU) • Epochが進むにつれて TransformerのBLEUが向上 → この傾向は一般的 17

Slide 18

Slide 18 text

Results • BLEUによる各システムの比較 • sim()とmargin()の差が明確 • 用いる表現による差は小さい • margEやmergHは両方使うより 2~10ポイント低い • UNMTより少ないコーパスで同程度の結果が得られている → monolingual dataかcomparable corpusかの差 18

Slide 19

Slide 19 text

Conclusions • 翻訳の学習とデータの選択を同時に行なう手法の提案 → 互いに増分的に助け合う自己教師あり形式 • 使用する表現、選択に用いる関数に注目 → ハイパーパラメータ設定を回避 • marginによるスコアと文表現の組み合わせが重要 19