Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation

Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation

研究室のEMNLP読み会の発表資料です。

ryoma yoshimura

January 23, 2019
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation

    Renji Zheng, Mingbo Ma, Liang Huang EMNLP2018 研究室EMNLP読み会 紹介者 吉村
  2. 複数のリファレンスでの学習法 • Sample One ◦ 各エポックでランダムに1つリファレンスを決める • Uniform ◦ 複数の各リファレンスに同じ入力をつける

    • Shuffle ◦ Uniformで各エポックごとにシャッフルする x i : source y i : reference D : multiple reference dataset D’ : single reference dataset ※ D’ は順序集合
  3. Hard word Alignment • Indonesia, opposition, to, foreign をマージ •

    (c)をたどることで 33個の擬似リファレンスができる
  4. Hard Word Alignment の問題点 • 類義語を考慮できない ◦ 例での reiterated, repeats,

    reiterates • 同一の単語は他の文では異なる意味をもつ可能性がある ◦ toなど(不定詞、前置詞)
  5. Soft Word Alignment • 文y i と文y j に対して semantic

    substitution matrix を作る • 各セルM u,v の値は単語y i,u と単語y j,v の類似度スコア • bidirectional LMの隠れベクトルのcos類似度 • Mを使ってアラインメントする ◦ M 0,0 からM |yi|,|yj| までの最適パスを動的計画法で求める
  6. 実験(MT) • NIST(2002-2005, 2006, 2008) zh-en ◦ single ref 1Mペア

    (pre-train) 4 ref 5974ペア (train, valid, test) • global penalty 0.9 ◦ 100文集まるまで global penalty を減らしていく BLEUは上位50件のみ • bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove • encoderとdecoderは2層のbi-LSTMでBPEを使用 • pre-train: batch size 64, beam size 15, dropout 0.3 • multi-reference-train: batch size 100, 200, 400のベスト
  7. 実験(Image Captioning) • MSCOCO • Resnet を LSTM に繋げる •

    batch size: 50, 250, 500, 1000 での最適なサイズ • beam size: 5 • global penalty: 0.6