Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation

Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation
Renji Zheng, Mingbo Ma, Liang Huang EMNLP2018 研究室EMNLP読み会　紹介者　吉村

概要 • 複数のリファレンスでモデルを学習 ◦ テキスト生成の正解は1つではないので複数あったほうがいい ◦ 複数のリファレンスがあるデータセットを使用 • 複数のリファレンスから lattice
を作ってさらに多くの擬似リファレンスを作成 ◦ 4~5個のリファレンスでは潜在的なリファレンスをカバーできない

Main Contributions • 機械翻訳と画像キャプションにおいてマルチリファレンスでの学習法を3つ調査 • 複数の参照訳を lattice にするための新しいネットワークベースの複数の系列アラインメントモデルを提案
• 擬似リファレンスでを用いた学習でMTでBLEUが+1.5、画像キャプションでBLEUが+3.1、CIDErで+11.7

複数のリファレンスでの学習法 • 学習データを変えるだけでモデルは変更しなくていい • 複数のリファレンスがあるデータセットをシングルリファレンスのデータセットに変換 • 作り方はSample One、Uniform、Shuffleの３つ

複数のリファレンスでの学習法 • Sample One ◦ 各エポックでランダムに1つリファレンスを決める • Uniform ◦ 複数の各リファレンスに同じ入力をつける
• Shuffle ◦ Uniformで各エポックごとにシャッフルする x i : source y i : reference D : multiple reference dataset D’ : single reference dataset ※ D’ は順序集合

擬似リファレンスの作り方 • 複数のリファレンスから lattice を構築してそれをたどることで擬似リファレンスを生成 ◦ 似た単語をマージする ◦ 元のリファレンスとBLEUを測って高いものを採用
• Hard alignと Soft align がある

Hard word Alignment • ペアワイズで同じ表層の単語をマージしていく • 以下の3文を考える

Hard word Alignment • Indonesia, its, opposition, foreign をマージ

Hard word Alignment • Indonesia, opposition, to, foreign をマージ •
(c)をたどることで 33個の擬似リファレンスができる

Hard Word Alignment の問題点 • 類義語を考慮できない ◦ 例での reiterated, repeats,
reiterates • 同一の単語は他の文では異なる意味をもつ可能性がある ◦ toなど（不定詞、前置詞）

Soft Word Alignment • 文y i と文y j に対して semantic
substitution matrix を作る • 各セルM u,v の値は単語y i,u と単語y j,v の類似度スコア • bidirectional LMの隠れベクトルのcos類似度 • Mを使ってアラインメントする ◦ M 0,0 からM |yi|,|yj| までの最適パスを動的計画法で求める

単語アラインメント状態遷移関数 global penalty p: M u,v ≦ p では
align しない

Soft Word Alignment の結果

実験（MT） • NIST（2002-2005, 2006, 2008） zh-en ◦ single ref 1Mペア
（pre-train） 4 ref 5974ペア（train, valid, test） • global penalty 0.9 ◦ 100文集まるまで global penalty を減らしていく　BLEUは上位50件のみ • bi-LMはpre-training dataとtraining dataで学習, word enmmbeding は Glove • encoderとdecoderは2層のbi-LSTMでBPEを使用 • pre-train: batch size 64, beam size 15, dropout 0.3 • multi-reference-train: batch size 100, 200, 400のベスト

Analysis of generated references • リファレンスの文長が長いほど、生成されるリファレンスの数が増える

結果

結果各エポックで使うリファレンスの分散が高いため、 sample one はリファレンス数が10を越えると急激に悪くなる

実験（Image Captioning） • MSCOCO • Resnet を LSTM に繋げる •
batch size: 50, 250, 500, 1000 での最適なサイズ • beam size: 5 • global penalty: 0.6

Analysis of generated references • MTと比べてオリジナルのリファレンスが短いので質が低く、数も少ない

MTと違ってShuffleが良くなってる ⇨　機械翻訳の参照よりも多様であるから　　Uniform だと1つのバッチ内でリファレンスの　　分散が大きくなるとモデルに悪影響

Case Study BLEUが100だがオリジナルリファレンスとは異なる文 BLEUが0だが画像を説明できている

Conclusion • マルチリファレンスでの学習方法を調査 • 既存のマルチリファレンスから擬似リファレンスを生成する手法を提案 • MTと画像キャプションの両タスクでベースラインを上回る

Multi-Reference Training with Pseudo-References...

Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation

ryoma yoshimura

More Decks by ryoma yoshimura

Other Decks in Research

Featured

Transcript