Slide 5
Slide 5 text
実験環境
パラメータ
encoder,decoder それぞれ 4 層の LSTM(おそらく以下の構成)
1 つの LSTM で 8 × 10002 = 8M
1000×160000+1000×80000+1000×80000+LTSMs = 380M
データ
12M sentences (仏 348M words, 英 304M words)
それぞれ頻度の上位 160,000 と 80,000 単語を使用
それ以外は に置換
実行時の環境とコツ
8GPU で 10 日
系列長を揃えたミニバッチを作ると 2 倍速
5 / 9