Sequence to Sequence Learning with Neural Networks

Slide 1

Slide 1 text

Sequence to Sequence Learning with Neural Networks Ilya Sutskever, Oriol Vinyals, Quoc V. Le NIPS2014 読み手 (nzw) 1 / 9

Slide 2

Slide 2 text

概要と紹介理由概要多層の LSTM を 2 つ繋げた MT のモデルを提案系列長が未知であっても翻訳可能汎用性の高い構造入力系列を逆にしたら性能向上紹介する理由翻訳に限らず，画像を入力としてもよい (ex: show and tell) NLP でよく見かける 2 / 9

Slide 3

Slide 3 text

sequence–to–seqeunce model 2 つ LSTM から構成入力系列を扱う LSTM (encoder) 入力系列を固定長ベクトルに変換出力系列を扱う LSTM (decoder) 出力層は翻訳先の 1 単語を予測する softmax を出力するまで，単語の予測分布を生成 3 / 9

Slide 4

Slide 4 text

目的関数と予測以下の目的関数を最大化 S: 翻訳前の系列 T: 翻訳後の系列 S: 学習データ 1 |S| (T,S)∈S log p(T|S) 予測する際の翻訳結果 ˆ T は beam search で探索 ˆ T = argmaxT p(T|S) 4 / 9

Slide 5

Slide 5 text

実験環境パラメータ encoder，decoder それぞれ 4 層の LSTM（おそらく以下の構成） 1 つの LSTM で 8 × 10002 = 8M 1000×160000+1000×80000+1000×80000+LTSMs = 380M データ 12M sentences (仏 348M words, 英 304M words) それぞれ頻度の上位 160,000 と 80,000 単語を使用それ以外はに置換実行時の環境とコツ 8GPU で 10 日系列長を揃えたミニバッチを作ると 2 倍速 5 / 9

Slide 6

Slide 6 text

提案手法内での比較 revsersed: 入力系列だけ逆順に入力，けっこう効く文の先頭の情報が decoder に近くなるので効いてるらしい ensemble: 初期化と minibatch のを変えた n 個の seq2seq 6 / 9

Slide 7

Slide 7 text

seq2seq で再評価して既存手法と比較中間ベクトルを作ったらベースラインの翻訳結果を入力し，確率の対数の高いもので評価ベースラインから約 3 上昇 7 / 9

Slide 8

Slide 8 text

encoder のベクトル空間の可視化 PCA で 2 次元空間に写像意味の近いフレーズがまとまっている 8 / 9

Slide 9

Slide 9 text

系列長と頻度によるに対する評価結果左のグラフ出力系列の長さに対する BLEU 系列が長くなっても急激に落ちない右のグラフ文に含まれる単語の頻度の平均順位に対する BLEU 右にいくほど低い頻度を含む翻訳文 9 / 9