Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rotational Unit of Memory: A Novel Representati...

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications

https://www.aclweb.org/anthology/Q19-1008

文献紹介
長岡技術科学大学 勝田 哲弘

katsutan

July 23, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介 Rotational Unit of Memory: A Novel Representation Unit for

    RNNs with Scalable Applications Rumen Dangovski, Li Jing, Preslav Nakov, Mico Tatalovic, Marin Soljacic Transactions of the Association for Computational Linguistics, vol. 7, pp. 121–138, 2019. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2. Abstract • Recurrent neural network (RNN) ◦ NLPタスクで幅広く使われている ◦ RNNの一種(より長距離の依存関係を考慮)

    ▪ Long short-term memory (LSTM) ▪ Gated recurrent units (GRUs) • 新たに、Rotational Unit of Memory (RUM)の提案 ◦ 位相表現の導入 2
  3. Experiments RUMの評価は以下のテストを行った 1. Pass a synthetic memory copying test 2.

    Pass a synthetic associative recall test 3. Show promising performance for question answering on the bAbI data set 4. Improve the state-of-the-art for character-level language modeling on the Penn Treebank 5. Perform effective seq2seq text summarization, training on the difficult CNN / Daily Mail summarization corpus 11
  4. Synthetic Tasks Copying memory task (A) • RNNの長期記憶能力の標準テスト ◦ 10個のアルファベットと「空白」「マーカー」を

    入力 ◦ RNNモデルは、T = 500の遅延ステップの間 に「空白」を出力し、「マーカー」が入力に表示 された後、最初の10個の入力記号を順番に 出力(コピー)する ◦ train/test : 50,000/500 12
  5. Synthetic Tasks Copying memory task (A) • RNNの長期記憶能力の標準テスト ◦ 10個のアルファベットと「空白」「マーカー」を

    入力 ◦ RNNモデルは、T = 500の遅延ステップの間 に「空白」を出力し、「マーカー」が入力に表示 された後、最初の10個の入力記号を順番に 出力(コピー)する ◦ train/test : 50,000/500 13 RUMはGORU, EURNN, uRNNに比べて遅いが学 習ができている RUM'は回転関数を固定しており、学習が遅い LSTM, GRUはランダム出力に等しい精度
  6. Synthetic Tasks Associative recall task (B) • 長期記憶能力のもう一つのテスト ◦ トレーニングの順序はランダムで、文字と数

    字のペア ◦ クエリキーは常に文字 ◦ 文字列のサイズをシーケンスの半分の長さ に固定、数字は0から9 ◦ e.g., ‘‘a1s2d3f4g5??d’’ -> (3)dの次の数字 ◦ train/dev/test : 100k/10k/20k 14
  7. Real-world NLP Tasks Question answering (C) • シンプルなRNNモデルで学習 • bAbI

    Question Answering data set (consists of 20 subtasks) ◦ train/ dev/test : 9k/1k/1k per subtask 15
  8. Real-world NLP Tasks Language modeling [character-level] (D) • Fast-Slow RNN(FS-RNN)に組み込む

    • Penn Treebank (PTB) corpus ◦ train/ dev/test : 5.1M/400k/450k tokens 16
  9. Real-world NLP Tasks Text summarization (E) • pointer-generator network with

    attention • Science Dailyからクロールしたデータ ◦ extracted 60,900 Web pages ◦ (i) s2s, story to summary ◦ (ii) sh2s, shuffled story to summary ◦ (iii) s2t, story to title ◦ (iv) oods2s, outof-domain testing for s2s • CNN/ Daily Mail corpus ◦ train/ dev/test : 287,226/13,368/11,490 text–summary pairs 17