Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Query and Output: Generating Words by Querying Distributed Word Representations for Paraphrase Generation

Query and Output: Generating Words by Querying Distributed Word Representations for Paraphrase Generation

研究室のNAACL論文読み会の資料です。

ryoma yoshimura

July 19, 2018
Tweet

More Decks by ryoma yoshimura

Other Decks in Research

Transcript

  1. Query and Output: Generating Words by Querying Distributed Word Representations

    for Paraphrase Generation Shuming Ma, Xu Sun1, Wei Li, Sujian Li, Wenjie Li, Xuancheng Ren (NAACL 2018) 紹介者 B4 吉村綾馬
  2. 概要 • Word Embedding Attention Network (WEAN)という言い換え生成のモデルを提案 • 単語生成時にWord Embeddingを見ることで単語を意味をとらえたい

    • 2つの言い換えタスクで実験 ◦ text simplification(テキスト平易化) ▪ 2つのデータセットでそれぞれ BLEUが6.3, 5.5上がった ◦ text summarization(テキスト要約) ▪ ROUGE-2のF1スコアが5.7上がった • 3つのデータセットでstate-of-the-artを上回った
  3. モデル Attention layer ct: context vector hi: hidden state of

    encoder st: hidden state of decoder g(st, hi): attentive score
  4. モデル Query qt: query Wc: parameter st: hidden state of

    decoder ct: context vector [st; ct]: concat
  5. モデル key-value pair wi: 候補単語 (Value) ei: 対応するembedding(Key) n: 候補単語の数

    • 候補単語はtraningセットから取り 出した最頻出のN個 • keyとdecoderの入力の embeddingは共有(おそらく) • word embeddingsはpretrainせず ゼロから学習
  6. モデル queryとkeyのスコア関数 Wa, Wq, We: parameter matrix v^T: parameter vecctor

    テスト時はスコアが最大の wtを予測 単語とし、eiを次のタイムステップの LSTMの入力に入れる
  7. 実験1 Text Simplification Data sets • Parallel WIkipedia Simplification Corpus (PWKP)

    (Zhu et al., 2010) ◦ train 89,042 pair ◦ dev 205 pair ◦ test 100 pair • English Wikipedia and Simple English Wikipedia (EW-SEW) (Hwang et al.2015) ◦ train 280,000 pair ◦ dev 2000 pair ◦ test 359 pair
  8. 実験1 Text Simplification Evaluation Metrics • Automatic evaluation. BLEU(Paineni et al.,

    2002) ◦ PWKP single reference ◦ EW-SEW multi reference • Human evaluation. (1 is very bad, 5 is very good) ◦ Fluency(流暢性) 1 ~ 5 ◦ Adequacy(妥当性)1 ~ 5  ◦ Simplicity(簡潔性) 1 ~ 5
  9. 実験1 Text Simplification Settings • layer 2 • hidden size 256

    • optimizer Adam • batch size 64 • dropout rate 0.4 • Clipping gradients 5以上
  10. 実験1 Text Simplification Baselines • Seq2seq • NTS and NTS-w2v(Nisioi et

    al., 2017) ◦ NTSはOpenNMT、NTS-w2vはword embeddingをpretrainしている • DRESS and DRESS-LS(Zhang and Lapata, 2017) ◦ DRESSは強化学習を使ったモデル、 DRESS-LSは語彙平易化のモデルを追加したモデル • EncDecA(Zhang and Lapata, 2017) ◦ アテンション付きのencoder-decoderモデル
  11. 実験1 Text Simplification Baselines • PRBMT-R(Wubben et al., 2012) ◦ フレーズベースのSMT

    • Hybrid(Narayan and Gradent, 2014) ◦ deep semanticsとモノリンガルMTのハイブリッド • SBMT-SARI(Xu et al., 2016) ◦ 構文ベースのモデル
  12. 実験2 Large Scale Text Summarization Dataset Large Scale Chinese Social

    Media Short Text Summarization Dataset(LCSTS) 2,400,000文ペア  • Part1 2,400,591ペア train • Part2 8,685ぺア validation • Part3 725ペア test Part2とPart3は1~5で自動評価されていて、スコア3以上のものを選択
  13. 実験2 Large Scale Text Summarization Evaluation Matrics ROUGE-1, ROUGE-2, ROUGE-L

    Settings • vocab size 4000 • embedding size 512 • hidden size 512 • layers of encoder 2 • layers of decoder 1 • batch size 64 • beam size 5
  14. 実験2 Large Scale Text Summarization Baselines • RNN and RNN-cont(Hu

    et al. 2015) ◦ GRUベースのseq2seqモデル • RNN-dist(Chen et al., 2016) ◦ Attensionベースのseq2seqモデルにdistraction機構を追加したモデル • CopyNet(Gu et al., 2016) ◦ Copy機構を取り入れたモデル 入力テキストのコピーを生成するときに使える • SRB(Ma et al., 2017) ◦ 入力と出力の意味の妥当性を改善した seq2seqモデル • DRGD(Li et al., 2017)(state-of-the-art) ◦ variational autoencoderを組み合わせた • Seq2seq 
  15. 分析 パラメータの数(出力層) • seq2seq ◦ PWKP, EWSEW 5000(vocab) × 256(hidden size)

    = 12,800,000 ◦ LCSTS 4000(vocab) × 512(hidden size) = 2,048,000 • WEAN 最大でもvocab sizeに関係なく2つのmatrixと1つのvectorしか持たない ◦ PWKP, EWSEW 256 × 256 × 2 + 256 = 131,328 ◦ LCSTS 512 × 512 × 2 + 512 = 524,800