$30 off During Our Annual Pro Sale. View Details »

論文紹介:∞-former: Infinite Memory Transformer

yuri
September 20, 2022

論文紹介:∞-former: Infinite Memory Transformer

第14回最先端NLP勉強会(2022年9月26日、27日)@お茶大 発表用資料

yuri

September 20, 2022
Tweet

More Decks by yuri

Other Decks in Research

Transcript

  1. ∞-former: Infinite Memory
    Transformer
    Pedro Henrique Martins, Zita Marinho, André F. T. Martins
    ACL 2022
    お茶大 村山友理

    View Slide

  2. Prior Work
    • ⻑いcontext をどう扱えば良いか︖
    2
    Transformer Layer
    𝑋!
    STM
    q
    k,v
    ...
    Transformer Layer
    𝑋!
    STM
    CM
    q
    k,v
    ...
    Compressive Transformer [Rae+ 2019]
    Transformer-XL [Dai+ 2019]

    View Slide

  3. Infinite Memory Transformer
    • 過去の⼊⼒系列を連続値にして扱う
    3

    View Slide

  4. Long-term Memory
    • ⼊⼒Xに畳み込み(stride=1, width=3)をし、スムージングを⾏う
    Lはinput size, eはembedding size
    • Xを連続値 !
    𝑋(𝑡)に変換
    𝑡 ∈ 0, 1 : 𝑡! = 𝑖/𝐿
    𝜓 𝑡 ∈ ℝ"はN個のRBF (radial basis function) のベクトル
    B ∈ ℝ"×$は多変量リッジ回帰によって得られる係数⾏列
    4

    View Slide

  5. Long-term Memory
    𝑄 = 𝑋𝑊" ∈ ℝ#×%
    𝐾 = 𝐵𝑊& ∈ ℝ'×%
    𝑉 = 𝐵𝑊( ∈ ℝ'×%
    • attention mechanism としてガウス分布を⽤いる
    5

    View Slide

  6. Long-term Memory
    • 𝑧),+
    は𝑍#,-,) ∈ ℝ#×.の⾏を成す
    • Transformerのcontext vector 𝑍,
    と⾜し合わせて最終的なcontext vector 𝑍を得る
    6
    ← attention × value

    View Slide

  7. Unbounded Memory
    7
    • !
    𝑋(𝑡)を圧縮
    • !
    𝑋(𝑡)から𝑀個のベクトルを等間隔にサンプリング

    View Slide

  8. Sticky Memories
    • 重要な部分のメモリを積極的に保存したほうが良いのでは︖
    • 前ステップのattentionからヒストグラムを作成し、D個の等間隔なbinに分割
    {𝑑/, … , 𝑑0}
    • 各binについてattention probability 𝑝(𝑑1
    )を計算
    • 𝑝に従ってM個をサンプリング
    8

    View Slide

  9. Complexity
    • Key matrix 𝐾 は基底関数の数𝑁 だけに依存し、contextの⻑さとは無関係
    • Complexityもcontextの⻑さとは独⽴
    • short-term memory も使う場合︓
    • LTMのみの場合︓
    • どちらもvanilla transformer より⼩さい
    9

    View Slide

  10. Sorting
    • 系列のトークンを頻度順に並べる
    • モデルが直近のトークンだけでなく⻑期記憶も⾒ているか調べるために、
    トークンの確率分布を変化させていく
    • 系列が⻑くなるほど𝛼 ∈ [0,1]は0から1に徐々に増加
    • vocabulary size 20
    • 4,000, 8,000, 16,000トークンで実験
    10

    View Slide

  11. Sorting
    • Transformer
    • 3 layers
    • 6 attention heads
    • input size L = 1,024
    • memory size 2,048
    • LTM (N = 1,024 basis functions)
    11

    View Slide

  12. Document Grounded Dialogue
    • CMU Document Grounded Conversation dataset (CMU-DoG) [Zhou+ 2018]
    • より難しくするために、会話が始まる前にしかdocumentにアクセスできなくする
    • GPT-2 small + continuous LTM (N = 512 basis functions)
    12

    View Slide

  13. Document Grounded Dialogue
    13

    View Slide

  14. Document Grounded Dialogue
    14

    View Slide

  15. LTMのアテンションの層による違い
    15

    View Slide

  16. 16

    View Slide

  17. 17

    View Slide

  18. 18

    View Slide

  19. 19

    View Slide

  20. まとめ
    • Infinite Memory Transformer を提案
    • Unbounded context
    • 計算量はcontextの⻑さと独⽴
    • Sorting, Language modeling, Document grounded dialogue で実験
    • ⻑期記憶の有⽤性を⽰した
    20

    View Slide