Slide 1

Slide 1 text

Sequence to Sequence Learning with Neural Networks Ilya Sutskever, Oriol Vinyals, Quoc V. Le NIPS2014 読み手 (nzw) 1 / 9

Slide 2

Slide 2 text

概要と紹介理由 概要 多層の LSTM を 2 つ繋げた MT のモデルを提案 系列長が未知であっても翻訳可能 汎用性の高い構造 入力系列を逆にしたら性能向上 紹介する理由 翻訳に限らず,画像を入力としてもよい (ex: show and tell) NLP でよく見かける 2 / 9

Slide 3

Slide 3 text

sequence–to–seqeunce model 2 つ LSTM から構成 入力系列を扱う LSTM (encoder) 入力系列を固定長ベクトルに変換 出力系列を扱う LSTM (decoder) 出力層は翻訳先の 1 単語を予測する softmax を出力するまで,単語の予測分布を生成 3 / 9

Slide 4

Slide 4 text

目的関数と予測 以下の目的関数を最大化 S: 翻訳前の系列 T: 翻訳後の系列 S: 学習データ 1 |S| (T,S)∈S log p(T|S) 予測する際の翻訳結果 ˆ T は beam search で探索 ˆ T = argmaxT p(T|S) 4 / 9

Slide 5

Slide 5 text

実験環境 パラメータ encoder,decoder それぞれ 4 層の LSTM(おそらく以下の構成) 1 つの LSTM で 8 × 10002 = 8M 1000×160000+1000×80000+1000×80000+LTSMs = 380M データ 12M sentences (仏 348M words, 英 304M words) それぞれ頻度の上位 160,000 と 80,000 単語を使用 それ以外は に置換 実行時の環境とコツ 8GPU で 10 日 系列長を揃えたミニバッチを作ると 2 倍速 5 / 9

Slide 6

Slide 6 text

提案手法内での比較 revsersed: 入力系列だけ逆順に入力,けっこう効く 文の先頭の情報が decoder に近くなるので効いてるらしい ensemble: 初期化と minibatch のを変えた n 個の seq2seq 6 / 9

Slide 7

Slide 7 text

seq2seq で再評価して既存手法と比較 中間ベクトルを作ったらベースラインの翻訳結果を入力し, 確率の対数の高いもので評価 ベースラインから約 3 上昇 7 / 9

Slide 8

Slide 8 text

encoder のベクトル空間の可視化 PCA で 2 次元空間に写像 意味の近いフレーズがまとまっている 8 / 9

Slide 9

Slide 9 text

系列長と頻度によるに対する評価結果 左のグラフ 出力系列の長さに対する BLEU 系列が長くなっても急激に落ちない 右のグラフ 文に含まれる単語の頻度の平均順位に対する BLEU 右にいくほど低い頻度を含む翻訳文 9 / 9