Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications

https://www.aclweb.org/anthology/Q19-1008

文献紹介
長岡技術科学大学 勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

July 23, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介 Rotational Unit of Memory: A Novel Representation Unit for

    RNNs with Scalable Applications Rumen Dangovski, Li Jing, Preslav Nakov, Mico Tatalovic, Marin Soljacic Transactions of the Association for Computational Linguistics, vol. 7, pp. 121–138, 2019. 長岡技術科学大学 自然言語処理研究室 勝田 哲弘
  2. Abstract • Recurrent neural network (RNN) ◦ NLPタスクで幅広く使われている ◦ RNNの一種(より長距離の依存関係を考慮)

    ▪ Long short-term memory (LSTM) ▪ Gated recurrent units (GRUs) • 新たに、Rotational Unit of Memory (RUM)の提案 ◦ 位相表現の導入 2
  3. Introduction RNNは長い文字列(例えば、絵文字)をメモリ内で表現するのに苦労する ◦ (i) 単一の隠れ状態は複雑な系列を記憶することができない ◦ (ii) 隠れ状態がうまく操作できず、情報が失われる LSTMとGRUは、本当に長期の記憶や効率的なsyntheticの学習ができない (i),(ii)を改善するため、

    隠れた状態をユークリッド空間で回転させて操作する新しいRNNユニットである Rotational Unit of Memory(RUM)の提案 3
  4. Introduction 実証実験 • (a)より遠くの絵文字を記憶できる • (b)要約においてより網羅的な情報を保持できる 4

  5. Introduction 5 (b)要約においてより網羅的な情報を保持できる

  6. Introduction 6 (b)要約においてより網羅的な情報を保持できる 最後近くで情報を繰り返している

  7. Model 隠れ状態は大きさと位相で特徴づけられる 7

  8. Model 隠れ状態は大きさと位相で特徴づけられる 8 大きさを保ったまま、位相を変化 (i) 大きさは保持され安定した勾配を生み出し、 長期の記憶を可能にする (ii) 常に、現在の位相を目標位相に近づける系 列の回転があり、情報の効果的な記憶を可能

    にする
  9. Model 隠れ状態は大きさと位相で特徴づけられる 9 :入力 の線形変換 : と の線形接続 Rotation(a,b)=

  10. Model 10

  11. Experiments RUMの評価は以下のテストを行った 1. Pass a synthetic memory copying test 2.

    Pass a synthetic associative recall test 3. Show promising performance for question answering on the bAbI data set 4. Improve the state-of-the-art for character-level language modeling on the Penn Treebank 5. Perform effective seq2seq text summarization, training on the difficult CNN / Daily Mail summarization corpus 11
  12. Synthetic Tasks Copying memory task (A) • RNNの長期記憶能力の標準テスト ◦ 10個のアルファベットと「空白」「マーカー」を

    入力 ◦ RNNモデルは、T = 500の遅延ステップの間 に「空白」を出力し、「マーカー」が入力に表示 された後、最初の10個の入力記号を順番に 出力(コピー)する ◦ train/test : 50,000/500 12
  13. Synthetic Tasks Copying memory task (A) • RNNの長期記憶能力の標準テスト ◦ 10個のアルファベットと「空白」「マーカー」を

    入力 ◦ RNNモデルは、T = 500の遅延ステップの間 に「空白」を出力し、「マーカー」が入力に表示 された後、最初の10個の入力記号を順番に 出力(コピー)する ◦ train/test : 50,000/500 13 RUMはGORU, EURNN, uRNNに比べて遅いが学 習ができている RUM'は回転関数を固定しており、学習が遅い LSTM, GRUはランダム出力に等しい精度
  14. Synthetic Tasks Associative recall task (B) • 長期記憶能力のもう一つのテスト ◦ トレーニングの順序はランダムで、文字と数

    字のペア ◦ クエリキーは常に文字 ◦ 文字列のサイズをシーケンスの半分の長さ に固定、数字は0から9 ◦ e.g., ‘‘a1s2d3f4g5??d’’ -> (3)dの次の数字 ◦ train/dev/test : 100k/10k/20k 14
  15. Real-world NLP Tasks Question answering (C) • シンプルなRNNモデルで学習 • bAbI

    Question Answering data set (consists of 20 subtasks) ◦ train/ dev/test : 9k/1k/1k per subtask 15
  16. Real-world NLP Tasks Language modeling [character-level] (D) • Fast-Slow RNN(FS-RNN)に組み込む

    • Penn Treebank (PTB) corpus ◦ train/ dev/test : 5.1M/400k/450k tokens 16
  17. Real-world NLP Tasks Text summarization (E) • pointer-generator network with

    attention • Science Dailyからクロールしたデータ ◦ extracted 60,900 Web pages ◦ (i) s2s, story to summary ◦ (ii) sh2s, shuffled story to summary ◦ (iii) s2t, story to title ◦ (iv) oods2s, outof-domain testing for s2s • CNN/ Daily Mail corpus ◦ train/ dev/test : 287,226/13,368/11,490 text–summary pairs 17
  18. Text summarization (E) エンコーダーが既に注意メカニズムを持っており、それ ほど多くの長期メモリーを必要とせず、より局所的なコ ンテキスト(LSTMのように)に焦点を合わせる 長期記憶は、流暢な出力を生成しなければならないデ コーダにとって極めて重要 デコーダーでRUMを使うことがより良い 18

  19. Conclusion and Future Work • ユニタリー学習と連想記憶の特性を組み合わせ、本当に長期的な記憶モデリング を可能にするRNNのための表現単位を提案 • syntheticやいくつかのNLPタスクで従来のRNNより精度が優れている •

    RUMは転移学習のための可能性を持っていると考えている 19