Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sequence to Sequence Learning with Neural Networks

2ab3dc02a9448f246bab64174b19dc1e?s=47 Kento Nozawa
April 15, 2016

Sequence to Sequence Learning with Neural Networks

Ilya Sutskever, Oriol Vinyals, Quoc V. Le の Sequence to Sequence Learning with Neural Networks (NIPS2014) を研究室の論文紹介用スライド

2ab3dc02a9448f246bab64174b19dc1e?s=128

Kento Nozawa

April 15, 2016
Tweet

More Decks by Kento Nozawa

Other Decks in Research

Transcript

  1. Sequence to Sequence Learning with Neural Networks Ilya Sutskever, Oriol

    Vinyals, Quoc V. Le NIPS2014 読み手 (nzw) 1 / 9
  2. 概要と紹介理由 概要 多層の LSTM を 2 つ繋げた MT のモデルを提案 系列長が未知であっても翻訳可能

    汎用性の高い構造 入力系列を逆にしたら性能向上 紹介する理由 翻訳に限らず,画像を入力としてもよい (ex: show and tell) NLP でよく見かける 2 / 9
  3. sequence–to–seqeunce model 2 つ LSTM から構成 入力系列を扱う LSTM (encoder) 入力系列を固定長ベクトルに変換

    出力系列を扱う LSTM (decoder) 出力層は翻訳先の 1 単語を予測する softmax <EOS> を出力するまで,単語の予測分布を生成 3 / 9
  4. 目的関数と予測 以下の目的関数を最大化 S: 翻訳前の系列 T: 翻訳後の系列 S: 学習データ 1 |S|

    (T,S)∈S log p(T|S) 予測する際の翻訳結果 ˆ T は beam search で探索 ˆ T = argmaxT p(T|S) 4 / 9
  5. 実験環境 パラメータ encoder,decoder それぞれ 4 層の LSTM(おそらく以下の構成) 1 つの LSTM

    で 8 × 10002 = 8M 1000×160000+1000×80000+1000×80000+LTSMs = 380M データ 12M sentences (仏 348M words, 英 304M words) それぞれ頻度の上位 160,000 と 80,000 単語を使用 それ以外は <UNK> に置換 実行時の環境とコツ 8GPU で 10 日 系列長を揃えたミニバッチを作ると 2 倍速 5 / 9
  6. 提案手法内での比較 revsersed: 入力系列だけ逆順に入力,けっこう効く 文の先頭の情報が decoder に近くなるので効いてるらしい ensemble: 初期化と minibatch のを変えた

    n 個の seq2seq 6 / 9
  7. seq2seq で再評価して既存手法と比較 中間ベクトルを作ったらベースラインの翻訳結果を入力し, 確率の対数の高いもので評価 ベースラインから約 3 上昇 7 / 9

  8. encoder のベクトル空間の可視化 PCA で 2 次元空間に写像 意味の近いフレーズがまとまっている 8 / 9

  9. 系列長と頻度によるに対する評価結果 左のグラフ 出力系列の長さに対する BLEU 系列が長くなっても急激に落ちない 右のグラフ 文に含まれる単語の頻度の平均順位に対する BLEU 右にいくほど低い頻度を含む翻訳文 9

    / 9