論文紹介: A convolutional encoder model for neural machine translation

A Convolutional Encoder Model for Neural Machine Translation Gehring et
al., ACL 2017 小町研 B4 勝又智

概要 • 通常、MTのencodeは双方向LSTMだが、今回、畳み込みを用いたencoderを提案する。 ◦ 双方向LSTMは逐次的に計算を行うが、CNNなら入力文を平行にencodeできる。 • 既存のLSTMと同程度の精度を実現。 ◦ WMT’16
English-Romanian、WMT’15 En-Ge、WMT’14 En-Fr • generateについて、精度はそのままでLSTMと比べて2倍以上速い。 ◦ IWSLT’14 En-Ge、Ge-En 2

CNN Encoder のうま味（RNNと比べて） • 入力文に対して平行に計算を行う。 • RNNと比べて入力文内の単語の関係性がより短いパス（計算数の話ではない）で取れる。 ◦ RNN:
sequence length n が必要 ◦ CNN: max(1, [(n-1) / (k-1)]) が必要（k: kernel width） • CNNは入力文の各単語に対して均等に処理を行っていく。一方でRNNは最初の単語と最後の単語で処理された数が異なる。 CNN RNN 例: 下図 n=4、k=2のとき RNNはそのまま4 CNNは左のように3 3 （実際のモデルではストライド1）

Model : Decoder とか attention まわり Decoder (隠れ層si+1 を求める) •
si+1 の計算として、１つ前の隠れ層si と１つ前の出力embedding gi 、attentionで計算したci を用いる ◦ 具体的にciはgiとconcateしてLSTMに入れてsi+1を求める (siの中にcell vecとhidden vec (hi)) Attention (ci を求める) • di の計算として、hi を線形変換したものと１つ前の出力gi を足す。このdi とencoder output zj のdot product を計算する。最終的な出力→ 4

Model: Baseline (LSTM encoder, pooling encoder) bi-directional LSTM encoder (BiLSTM)
• 入力文をembeddingしたものを順方向と逆方向のRNNに入れてconcateし、線形変換を行いencode output zを返す。 pooling encoder • こちらは非再帰的なencoderのbaselineで、k個の連続した単語のembedding の平均をとったモデル。(Ranzato et al., 2015) • 今回は単語のembedding wj に対して、その単語の入力文における絶対位置を足した。(ℓj: position embedding) attentionについて aijの計算は先ほどと同じだが ciの計算でzjでなくejを使っている 5

Model : Convolutional Encoder • pooling encoderのようにposition embeddingを行い、畳み込みを行っていく。 ◦ pooling
layerは持ってない。 • 畳み込み層を重ねていく。→最終的な出力は複数の文脈を見ているはず。 ◦ 畳み込みの入出力はresidual connection (He et al., 2015)を用いている。 • attention計算のために２つの畳み込み計算を行ってencodeを行う。 ◦ CNN_a: aを計算するためのやつ ◦ CNN_c: cを計算するためのやつ 6 CNN_a CNN_c （diは２つ前のスライドと同じ）

他のCNN Encoder と比べて何が嬉しいのか • これまでのCNN encoderでは既存のRNN encoderより性能が低かった。 → 今回、既存のRNN encoderに匹敵する性能が出た！
• (Kalchbrenner and Blunsom, 2013) → 文に対して畳み込みencodeを用いた。 ◦ sentenceやn-gramに対してCNN encodeを行い、decoderへの入力トークンを生成する。 ◦ SMT出力のn-best rescoring で使われた。 • (Cho et al., 2014) → 固定長の表現が得られるまで繰り返しCNNを用いた。 ◦ recurrent encoder の方が高い精度を達成した。 • (Kalchbrenner et al., 2016) → 畳み込みで翻訳を行うモデル (ByteNet) を提案。 ◦ このモデルはattention機構が無く、SOTAに届かなかった。 • (Lamb and Xie, 2016) → encodeに多層のCNNを用いた。 ◦ 量的評価がされていなかった。 • (Meng et al., 2015) → PBSMTのphrase対のスコア計算に用いた。 • (Tu et al., 2015) → Dependency-basedSMTのphrase対のスコア計算に用いた。 7

実験: Dataset • IWSLT’14 German-English （異なるencoderの評価） ◦ train: TEDとTEDxの字幕データ、頻度３回以下の単語を<unk>化 (En:
24158 words, Ge: 35882 words) ◦ （特に記載無ければ）入力文長制限: 175words ← position embeddingの適切な学習を保証している。 ◦ trainの文数: 167K, test: 6948 sents (tst2010, tst2011, tst2012, tst2013, dev2010) • WMT’16 English-Romanian ◦ (Sennrich et al., 2016)と同じデータを用いている。→ 学習は2.8M sents用いた。 (En: 200K words, Ro: 80K words) ◦ test: newstest2016 ◦ BPEは使っておらず、word baseで行っている。 • WMT’15 English-German ◦ train: Europarl v7, Common Crawl, News Commentary v10を用いて、3.9M sentsを使用した。 (En: 200K words, Ge: 80K words) ◦ test: newstest2015 • WMT’14 English-French ◦ train: 一般的に用いられる(Schwenk 2014)12M setnsに対して文長制限150wordsを行い、 10.7M sents用いた。(En: 200K, Fr: 30K) ◦ test: ntst14 8 validation setについて IWSLT’14: trainの5% WMT: trainの1%

実験: パラメータなど • 共通するパラメータ ◦ embedding: 256 dim ◦ 重みの初期化:
[-0.05, 0.05]の一様分布 ◦ mini-bach: IWSLT’14 32 sents、WMT 64 sents ◦ dropout: IWSLT’14 0.2、WMT 0.1 （embeddingとdecoder output hiに対して行う） • Recurrent Model ◦ hidden unit: 512 (encoder, decoderどちらも) ◦ optim: Adam (step幅: 3.125*10^(-4)) ◦ validのpplに基づいてearly stopingを行ってる。 • CNN Model ◦ hidden unit: CNN_a 512 units、CNN_c 256 units、decoder 512 units ◦ 窓幅: 3 ◦ paddingはencoder output zが入力xと同じ (|x|=|z|) になるように。（fig1を参照） ◦ optim: SGD and annealing（最初lr=0.1にして、validのpplが改善しなくなったらlrを減らしていく）今回はlrの桁を減らしていって、lrが10^(-4)になるまで行う。 9

今回の実験の評価について • IWSLT’14については５つ、WMTについては３つ、seedを変化させて学習したモデルの中から最も良いvalid pplを出したものを最終的なBLEU評価に用いた。 • beam searchについて ◦ IWSLT’14
はbeam幅10、WMTはbeam幅も別のデータセットを使って調整した。 • 未知語を出力した後の処理 ◦ <unk>を出力した場合、attention scoreが最も高い入力単語を見て、事前に用意した辞書から対応した単語で<unk>を置き換える。 ◦ 辞書になかったら、入力単語をそのまま置き換える。 ◦ この辞書はアライメントをとった学習データからとってくる。（アライメントはfast_align (Dyer et al., 2013) を用いて張る） 10

Results: IWSLT’14 (Recurrent or 非Recurrent) • 畳み込み層 ◦ CNN_a とCNN_cを1層から10層まで変化させて
valid ppl が一番いいものを持ってくる（6層、3層） • position embedding ◦ pos がある→position embeddingを用いている。 11

Results: WMT Corpora 12

Analysis: CNN Encoder について（IWSLT’14） • CNN_aとCNN_cを分ける話 ◦ CNN_cが3層のときがいい感じ、このときCNN_aは6層がいい感じ → CNN_aはCNN_cの2,3倍の層の数にしておくといい。
◦ CNN_aとCNN_cを分けなかったとき 22.9 BLEU（層の数を増やしてもダメでした） ◦ CNN_a: 広い範囲の文脈を見て情報を統合してそう CNN_c: 入力単語により近い感じの浅いところを見てそう 13

Analysis: attention score 14 WMT’14 En-Fr ntst14

Analysis: 入力文長に対しての性能 15 WMT’15 En-Ge newstest2015の出力を文長で15分割した

Analysis: 学習時間と出力時間について • 学習時間（IWSLT’14） ◦ Tesla M40 GPUを使用 ◦ single
layer BiLSTM: 4,300 target words/second ◦ 6/3 convolution encoder: 6,400 target words/second ◦ Adamの方がSGDより収束が速いため、全体の学習時間はBiLSTMが速かった。 • 出力時間 ◦ Intel Haswell CPU clocked at 2.50GHzをシングルスレッドで使用した。 ◦ IWSLT’14: 1.35倍速いしBLEUも上がった。（hidden layerやembedding sizeも同じ） ◦ WMT’15: Conv. 8/4はBiLSTMより2.1倍速い。（encoderのembedding sizeが違う（BiLSTM > conv.）） ◦ そもそも1回でLSTMは2つ行列乗算が必要なのに対し、convは行列乗算が1つで良いのが効いてる 16

まとめ • 畳み込みネットワークを用いたNMTのencoderを提案した。 ◦ recurrentにやるよりも並列化でき、入力文の長距離依存性を短いパスで掴める。 ◦ 入力文のposition embeddingを入れたり、attention計算用にCNNを2つ用いた。 • recurrent
encoder と比較して同じくらいの性能が得られた。 ◦ baselineとしたBiLSTMとは同じくらいかそれ以上の性能が得られた。 ◦ 他の手法と比べてもそれほど悪くはなかった。 • 出力時間についてもよくなった。 ◦ 双方向のrecurrent encoderと比べて2倍速くなった。 • Future work ◦ conv. encoderを用いて収束の速い学習を行いたい。 ◦ 文字単位のencoderにも使えそう。 ◦ 他のseq2seqのtaskにも適応したい。（summarization, constituency parsing, dialog modeling） • 個人的感想 ◦ 比較について: モデルが既存のものと大きく異なるのにこんな感じ（setting, 評価にBLEUのみ）でいいの...? 先行研究と設定を一緒にしたりしなかったりどういうこと...? ◦ CNN encoder: わざわざ使う1番のメリットは時間...?（性能とかパスが云々とかではない感じがした...） ◦ 一番興味深かったのはattention用に2つEncoderを用意するところ 17

参考サイト、論文 • facebookの実装 (lua, torch) ◦ https://github.com/facebookresearch/fairseq • Recurrent Continuous
Translation Models. Kalchbrenner and Blunsom, EMNLP 2013 • On the Properties of Neural Machine Translation: Encoder–Decoder Approaches . Cho et al., SSST 2014 • Neural Machine Translation in Linear Time. Kalchbrenner et al., arXiv 2016 • Convolutional Encoders for Neural Machine Translation. Lamb and Xie, 2016 ◦ (https://cs224d.stanford.edu/ reports/LambAndrew.pdf) • Encoding Source Language with Convolutional Neural Network for Machine Translation. Meng et al., ACL 2015 • Context-dependent Translation selection using Convolutional Neural Network. Tu et al., ACL-IJCNLP 2015 • Edinburgh neural machine translation systems for wmt 16. Sennrich et al., WMT16 2016 • Schwenk 2014 ◦ (http://www-lium. univ-lemans.fr/ ̃schwenk/cslm_joint_ paper/) • A Simple, Fast, and Effective Reparameterization of IBM Model 2. Dyer et al., ACL 2013 18

論文紹介: A convolutional encoder model for neural ...

論文紹介: A convolutional encoder model for neural machine translation

Satoru Katsumata

More Decks by Satoru Katsumata

Other Decks in Research

Featured

Transcript

A Convolutional Encoder Model for Neural Machine Translation Gehring et

概要 • 通常、MTのencodeは双方向LSTMだが、今回、畳み込みを用いたencoderを提案する。 ◦ 双方向LSTMは逐次的に計算を行うが、CNNなら入力文を平行にencodeできる。 • 既存のLSTMと同程度の精度を実現。 ◦ WMT’16

CNN Encoder のうま味（RNNと比べて） • 入力文に対して平行に計算を行う。 • RNNと比べて入力文内の単語の関係性がより短いパス（計算数の話ではない）で取れる。 ◦ RNN:

Model : Decoder とか attention まわり Decoder (隠れ層si+1 を求める) •

Model: Baseline (LSTM encoder, pooling encoder) bi-directional LSTM encoder (BiLSTM)

Model : Convolutional Encoder • pooling encoderのようにposition embeddingを行い、畳み込みを行っていく。 ◦ pooling

他のCNN Encoder と比べて何が嬉しいのか • これまでのCNN encoderでは既存のRNN encoderより性能が低かった。 → 今回、既存のRNN encoderに匹敵する性能が出た！

実験: Dataset • IWSLT’14 German-English （異なるencoderの評価） ◦ train: TEDとTEDxの字幕データ、頻度３回以下の単語を<unk>化 (En:

実験: パラメータなど • 共通するパラメータ ◦ embedding: 256 dim ◦ 重みの初期化:

今回の実験の評価について • IWSLT’14については５つ、WMTについては３つ、seedを変化させて学習したモデルの中から最も良いvalid pplを出したものを最終的なBLEU評価に用いた。 • beam searchについて ◦ IWSLT’14

Results: IWSLT’14 (Recurrent or 非Recurrent) • 畳み込み層 ◦ CNN_a とCNN_cを1層から10層まで変化させて

Results: WMT Corpora 12

Analysis: CNN Encoder について（IWSLT’14） • CNN_aとCNN_cを分ける話 ◦ CNN_cが3層のときがいい感じ、このときCNN_aは6層がいい感じ → CNN_aはCNN_cの2,3倍の層の数にしておくといい。

Analysis: attention score 14 WMT’14 En-Fr ntst14

Analysis: 入力文長に対しての性能 15 WMT’15 En-Ge newstest2015の出力を文長で15分割した

Analysis: 学習時間と出力時間について • 学習時間（IWSLT’14） ◦ Tesla M40 GPUを使用 ◦ single

参考サイト、論文 • facebookの実装 (lua, torch) ◦ https://github.com/facebookresearch/fairseq • Recurrent Continuous