Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications

Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications

https://www.aclweb.org/anthology/Q19-1008

文献紹介
長岡技術科学大学 勝田 哲弘

katsutan

July 23, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介
    Rotational Unit of Memory: A Novel Representation
    Unit for RNNs with Scalable Applications
    Rumen Dangovski, Li Jing, Preslav Nakov, Mico Tatalovic, Marin Soljacic
    Transactions of the Association for Computational Linguistics, vol. 7, pp. 121–138, 2019.
    長岡技術科学大学
    自然言語処理研究室
    勝田 哲弘

    View Slide

  2. Abstract
    ● Recurrent neural network (RNN)
    ○ NLPタスクで幅広く使われている
    ○ RNNの一種(より長距離の依存関係を考慮)
    ■ Long short-term memory (LSTM)
    ■ Gated recurrent units (GRUs)
    ● 新たに、Rotational Unit of Memory (RUM)の提案
    ○ 位相表現の導入
    2

    View Slide

  3. Introduction
    RNNは長い文字列(例えば、絵文字)をメモリ内で表現するのに苦労する
    ○ (i) 単一の隠れ状態は複雑な系列を記憶することができない
    ○ (ii) 隠れ状態がうまく操作できず、情報が失われる
    LSTMとGRUは、本当に長期の記憶や効率的なsyntheticの学習ができない
    (i),(ii)を改善するため、
    隠れた状態をユークリッド空間で回転させて操作する新しいRNNユニットである
    Rotational Unit of Memory(RUM)の提案
    3

    View Slide

  4. Introduction
    実証実験
    ● (a)より遠くの絵文字を記憶できる
    ● (b)要約においてより網羅的な情報を保持できる
    4

    View Slide

  5. Introduction
    5
    (b)要約においてより網羅的な情報を保持できる

    View Slide

  6. Introduction
    6
    (b)要約においてより網羅的な情報を保持できる
    最後近くで情報を繰り返している

    View Slide

  7. Model
    隠れ状態は大きさと位相で特徴づけられる
    7

    View Slide

  8. Model
    隠れ状態は大きさと位相で特徴づけられる
    8
    大きさを保ったまま、位相を変化
    (i) 大きさは保持され安定した勾配を生み出し、
    長期の記憶を可能にする
    (ii) 常に、現在の位相を目標位相に近づける系
    列の回転があり、情報の効果的な記憶を可能
    にする

    View Slide

  9. Model
    隠れ状態は大きさと位相で特徴づけられる
    9
    :入力 の線形変換
    : と の線形接続
    Rotation(a,b)=

    View Slide

  10. Model
    10

    View Slide

  11. Experiments
    RUMの評価は以下のテストを行った
    1. Pass a synthetic memory copying test
    2. Pass a synthetic associative recall test
    3. Show promising performance for question answering on the bAbI data set
    4. Improve the state-of-the-art for character-level language modeling on the Penn
    Treebank
    5. Perform effective seq2seq text summarization, training on the difficult CNN /
    Daily Mail summarization corpus
    11

    View Slide

  12. Synthetic Tasks
    Copying memory task (A)
    ● RNNの長期記憶能力の標準テスト
    ○ 10個のアルファベットと「空白」「マーカー」を
    入力
    ○ RNNモデルは、T = 500の遅延ステップの間
    に「空白」を出力し、「マーカー」が入力に表示
    された後、最初の10個の入力記号を順番に
    出力(コピー)する
    ○ train/test : 50,000/500
    12

    View Slide

  13. Synthetic Tasks
    Copying memory task (A)
    ● RNNの長期記憶能力の標準テスト
    ○ 10個のアルファベットと「空白」「マーカー」を
    入力
    ○ RNNモデルは、T = 500の遅延ステップの間
    に「空白」を出力し、「マーカー」が入力に表示
    された後、最初の10個の入力記号を順番に
    出力(コピー)する
    ○ train/test : 50,000/500
    13
    RUMはGORU, EURNN, uRNNに比べて遅いが学
    習ができている
    RUM'は回転関数を固定しており、学習が遅い
    LSTM, GRUはランダム出力に等しい精度

    View Slide

  14. Synthetic Tasks
    Associative recall task (B)
    ● 長期記憶能力のもう一つのテスト
    ○ トレーニングの順序はランダムで、文字と数
    字のペア
    ○ クエリキーは常に文字
    ○ 文字列のサイズをシーケンスの半分の長さ
    に固定、数字は0から9
    ○ e.g., ‘‘a1s2d3f4g5??d’’ -> (3)dの次の数字
    ○ train/dev/test : 100k/10k/20k
    14

    View Slide

  15. Real-world NLP Tasks
    Question answering (C)
    ● シンプルなRNNモデルで学習
    ● bAbI Question Answering data set
    (consists of 20 subtasks)
    ○ train/ dev/test : 9k/1k/1k per subtask
    15

    View Slide

  16. Real-world NLP Tasks
    Language modeling
    [character-level] (D)
    ● Fast-Slow RNN(FS-RNN)に組み込む
    ● Penn Treebank (PTB) corpus
    ○ train/ dev/test : 5.1M/400k/450k tokens
    16

    View Slide

  17. Real-world NLP Tasks
    Text summarization (E)
    ● pointer-generator network with attention
    ● Science Dailyからクロールしたデータ
    ○ extracted 60,900 Web pages
    ○ (i) s2s, story to summary
    ○ (ii) sh2s, shuffled story to summary
    ○ (iii) s2t, story to title
    ○ (iv) oods2s, outof-domain testing for s2s
    ● CNN/ Daily Mail corpus
    ○ train/ dev/test : 287,226/13,368/11,490
    text–summary pairs
    17

    View Slide

  18. Text summarization (E)
    エンコーダーが既に注意メカニズムを持っており、それ
    ほど多くの長期メモリーを必要とせず、より局所的なコ
    ンテキスト(LSTMのように)に焦点を合わせる
    長期記憶は、流暢な出力を生成しなければならないデ
    コーダにとって極めて重要
    デコーダーでRUMを使うことがより良い
    18

    View Slide

  19. Conclusion and Future Work
    ● ユニタリー学習と連想記憶の特性を組み合わせ、本当に長期的な記憶モデリング
    を可能にするRNNのための表現単位を提案
    ● syntheticやいくつかのNLPタスクで従来のRNNより精度が優れている
    ● RUMは転移学習のための可能性を持っていると考えている
    19

    View Slide