Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Self-Supervised_Neural_Machine_Translation

Yumeto Inaoka
December 13, 2019

文献紹介: Self-Supervised_Neural_Machine_Translation

2019/12/13の文献紹介で発表

Yumeto Inaoka

December 13, 2019
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Self-Supervised
    Neural Machine Translation
    文献紹介 2019/12/13
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人

    View Slide

  2. Literature
    2
    Title: Self-Supervised Neural Machine Translation
    Authors: Dana Ruiter, Cristina España-Bonet, Josef van Genabith
    Volume:
    Proceedings of the 57th Annual Meeting of the Association for
    Computational Linguistics
    Pages: 1828–1834
    Year: 2019

    View Slide

  3. Abstract
    • NMTの学習で得られる内部表現を用いて訓練データ
    を選択する自己教師あり学習を提案
    • 表現の学習とデータ選択はお互いを強化するように
    並列データなしで行なわれる
    • 言語に依存しない & 追加のハイパーパラメータなし
    3

    View Slide

  4. Low-resource NMT
    • NMTは高品質の並列コーパスに依存している
    → 多数の低資源言語では存在しない
    • NMTであらゆる言語をカバーするためには
    教師なし手法の開発、並列データの抽出が必要
    4

    View Slide

  5. Their approach
    • NMTモデルは有用な文ペアを判断するのに充分な
    ほど学習される
    • MTの学習とCross-lingualな近い文を見つける補助
    タスクで相互に自己教師あり学習を繰り返させる
    5

    View Slide

  6. Joint Model Architecture
    • EncoderとDecoderのどちらも両方の言語情報を持つ
    双方向NMTを考える
    ← 入力文に目的言語のタグを付けることで実現
    • 以下の2つを文のベクトル表現とする
    - Ce: 単語埋め込みの合計
    - Ch: Encoderの隠れ状態の合計
    6

    View Slide

  7. Score input sentence pairs
    • 2つの文ベクトルを使ってペアをスコアリング
    • コサイン類似度による方法ではしきい値を決める
    必要がある → Margin-basedな手法を用いる
    7

    View Slide

  8. Selection process
    • 以下の4つの戦略を検討する
    • Ce, Chのいずれか、または両方利用
    1. Threshold dependent
    2. High precision, medium recall (System P)
    3. Medium precision, high recall (System R)
    4. Low precision, high recall
    8

    View Slide

  9. Threshold dependent
    • 各原文で一番スコアの高い目的言語文を見つける
    • Ce, Chのいずれかを使用
    • 両言語方向で一致したペアのみを用いる
    • 誤検知を除外するためのしきい値は経験的に決定
    9

    View Slide

  10. High precision, medium recall
    • Threshold dependentとほとんど同じ
    • Ch, Ceの両方の表現を用いる
    • 両言語方向かつ両表現で一致したペアのみを用いる
    • 補完的なCh, Ceによってしきい値は不要となる
    10

    View Slide

  11. Medium precision, high recall
    • High precision, medium recallは制限が強い
    • 最高スコアの目的言語文だけを用いるのではなく
    top-n (本実験ではn=2) を用いるようにする
    • 両方の表現を用いるのは同じだが、上の拡張は
    Chにおいてのみ使用する
    11

    View Slide

  12. Low precision, high recall
    • Medium precision, high recall における
    source-targetとCh-Ce を対称にした手法
    12

    View Slide

  13. Experimental Setup (Data)
    • 初期の単語埋め込みの計算:
    Wikipedia の En/Fr (92M/27M sents.)を使用
    • 学習コーパス:
    言語間でリンクできる記事のみを使用 (12M/8M)
    13

    View Slide

  14. Experimental Setup (Model)
    • OpenNMT toolkitを使用
    • LSTM: 1-layer Bi-LSTM with Attention, SGD
    • Transformer: 6-layer, 8-head, Adam
    14

    View Slide

  15. Experimental Setup (Model)
    • simP: CeとChを使用, high precision, sim関数を使用
    • margP: simPと同じ, margin関数を使用
    • margR: margPと同じ, high recall
    • margH: margPと同じ, Chのみ使用, しきい値は1.0
    • margE: margPと同じ, Ceのみ使用, しきい値は1.2
    15

    View Slide

  16. Results (Epochs - #Pairs)
    • epochが進むにつれて使われる
    ペアが増える
    • 学習の前半では数字や固有表現
    を含む文が選ばれる
    • 学習が進むにつれて同じ意味の
    複雑な文が選ばれる
    16

    View Slide

  17. Results (Epochs – BLEU)
    • Epochが進むにつれて
    TransformerのBLEUが向上
    → この傾向は一般的
    17

    View Slide

  18. Results
    • BLEUによる各システムの比較
    • sim()とmargin()の差が明確
    • 用いる表現による差は小さい
    • margEやmergHは両方使うより
    2~10ポイント低い
    • UNMTより少ないコーパスで
    同程度の結果が得られている
    → monolingual dataかcomparable corpusかの差
    18

    View Slide

  19. Conclusions
    • 翻訳の学習とデータの選択を同時に行なう手法の提案
    → 互いに増分的に助け合う自己教師あり形式
    • 使用する表現、選択に用いる関数に注目
    → ハイパーパラメータ設定を回避
    • marginによるスコアと文表現の組み合わせが重要
    19

    View Slide