Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sequence to Sequence Learning with Neural Networks

Kento Nozawa
April 15, 2016

Sequence to Sequence Learning with Neural Networks

Ilya Sutskever, Oriol Vinyals, Quoc V. Le の Sequence to Sequence Learning with Neural Networks (NIPS2014) を研究室の論文紹介用スライド

Kento Nozawa

April 15, 2016
Tweet

More Decks by Kento Nozawa

Other Decks in Research

Transcript

  1. Sequence to Sequence Learning with Neural Networks Ilya Sutskever, Oriol

    Vinyals, Quoc V. Le NIPS2014 読み手 (nzw) 1 / 9
  2. 概要と紹介理由 概要 多層の LSTM を 2 つ繋げた MT のモデルを提案 系列長が未知であっても翻訳可能

    汎用性の高い構造 入力系列を逆にしたら性能向上 紹介する理由 翻訳に限らず,画像を入力としてもよい (ex: show and tell) NLP でよく見かける 2 / 9
  3. sequence–to–seqeunce model 2 つ LSTM から構成 入力系列を扱う LSTM (encoder) 入力系列を固定長ベクトルに変換

    出力系列を扱う LSTM (decoder) 出力層は翻訳先の 1 単語を予測する softmax <EOS> を出力するまで,単語の予測分布を生成 3 / 9
  4. 目的関数と予測 以下の目的関数を最大化 S: 翻訳前の系列 T: 翻訳後の系列 S: 学習データ 1 |S|

    (T,S)∈S log p(T|S) 予測する際の翻訳結果 ˆ T は beam search で探索 ˆ T = argmaxT p(T|S) 4 / 9
  5. 実験環境 パラメータ encoder,decoder それぞれ 4 層の LSTM(おそらく以下の構成) 1 つの LSTM

    で 8 × 10002 = 8M 1000×160000+1000×80000+1000×80000+LTSMs = 380M データ 12M sentences (仏 348M words, 英 304M words) それぞれ頻度の上位 160,000 と 80,000 単語を使用 それ以外は <UNK> に置換 実行時の環境とコツ 8GPU で 10 日 系列長を揃えたミニバッチを作ると 2 倍速 5 / 9