×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
∞-former: Infinite Memory Transformer Pedro Henrique Martins, Zita Marinho, André F. T. Martins ACL 2022 お茶大 村山友理
Slide 2
Slide 2 text
Prior Work • ⻑いcontext をどう扱えば良いか︖ 2 Transformer Layer 𝑋! STM q k,v ... Transformer Layer 𝑋! STM CM q k,v ... Compressive Transformer [Rae+ 2019] Transformer-XL [Dai+ 2019]
Slide 3
Slide 3 text
Infinite Memory Transformer • 過去の⼊⼒系列を連続値にして扱う 3
Slide 4
Slide 4 text
Long-term Memory • ⼊⼒Xに畳み込み(stride=1, width=3)をし、スムージングを⾏う Lはinput size, eはembedding size • Xを連続値 ! 𝑋(𝑡)に変換 𝑡 ∈ 0, 1 : 𝑡! = 𝑖/𝐿 𝜓 𝑡 ∈ ℝ"はN個のRBF (radial basis function) のベクトル B ∈ ℝ"×$は多変量リッジ回帰によって得られる係数⾏列 4
Slide 5
Slide 5 text
Long-term Memory 𝑄 = 𝑋𝑊" ∈ ℝ#×% 𝐾 = 𝐵𝑊& ∈ ℝ'×% 𝑉 = 𝐵𝑊( ∈ ℝ'×% • attention mechanism としてガウス分布を⽤いる 5
Slide 6
Slide 6 text
Long-term Memory • 𝑧),+ は𝑍#,-,) ∈ ℝ#×.の⾏を成す • Transformerのcontext vector 𝑍, と⾜し合わせて最終的なcontext vector 𝑍を得る 6 ← attention × value
Slide 7
Slide 7 text
Unbounded Memory 7 • ! 𝑋(𝑡)を圧縮 • ! 𝑋(𝑡)から𝑀個のベクトルを等間隔にサンプリング
Slide 8
Slide 8 text
Sticky Memories • 重要な部分のメモリを積極的に保存したほうが良いのでは︖ • 前ステップのattentionからヒストグラムを作成し、D個の等間隔なbinに分割 {𝑑/, … , 𝑑0} • 各binについてattention probability 𝑝(𝑑1 )を計算 • 𝑝に従ってM個をサンプリング 8
Slide 9
Slide 9 text
Complexity • Key matrix 𝐾 は基底関数の数𝑁 だけに依存し、contextの⻑さとは無関係 • Complexityもcontextの⻑さとは独⽴ • short-term memory も使う場合︓ • LTMのみの場合︓ • どちらもvanilla transformer より⼩さい 9
Slide 10
Slide 10 text
Sorting • 系列のトークンを頻度順に並べる • モデルが直近のトークンだけでなく⻑期記憶も⾒ているか調べるために、 トークンの確率分布を変化させていく • 系列が⻑くなるほど𝛼 ∈ [0,1]は0から1に徐々に増加 • vocabulary size 20 • 4,000, 8,000, 16,000トークンで実験 10
Slide 11
Slide 11 text
Sorting • Transformer • 3 layers • 6 attention heads • input size L = 1,024 • memory size 2,048 • LTM (N = 1,024 basis functions) 11
Slide 12
Slide 12 text
Document Grounded Dialogue • CMU Document Grounded Conversation dataset (CMU-DoG) [Zhou+ 2018] • より難しくするために、会話が始まる前にしかdocumentにアクセスできなくする • GPT-2 small + continuous LTM (N = 512 basis functions) 12
Slide 13
Slide 13 text
Document Grounded Dialogue 13
Slide 14
Slide 14 text
Document Grounded Dialogue 14
Slide 15
Slide 15 text
LTMのアテンションの層による違い 15
Slide 16
Slide 16 text
16
Slide 17
Slide 17 text
17
Slide 18
Slide 18 text
18
Slide 19
Slide 19 text
19
Slide 20
Slide 20 text
まとめ • Infinite Memory Transformer を提案 • Unbounded context • 計算量はcontextの⻑さと独⽴ • Sorting, Language modeling, Document grounded dialogue で実験 • ⻑期記憶の有⽤性を⽰した 20