Slide 17
Slide 17 text
Self-Attentionの数式的アーキテクチャ
1. 類似度計算
a. 入力を3つの異なるトークンに変形
𝑋 ∈ ℝ𝑁×𝐷, 𝑄, 𝐾 ∈ ℝ𝑁×𝐷, 𝑉 ∈ ℝ𝑁×𝐷𝑉
𝑊𝐾
∈ ℝ𝐷×𝐷𝑥, 𝑊𝑉
∈ ℝ𝐷𝑣×𝐷𝑥
b. QとKの内積をとる
※𝑠𝑖𝑗
𝑖, 𝑗 = 1, ⋯ , 𝑁 はqueryとkeyの類似度
2. 出力計算
a. 出力𝑌 = [𝑦1
, ⋯ , ⋯ , 𝑦𝑁
]と各ベクトル𝑦𝑖
を
定式化する
𝑌 = 𝑆𝑉, 𝑦𝑖
=
𝑗=1
𝑁
𝑠𝑖𝑗
𝑣𝑖
linear
input
key
query value
linear
linear
Atten
tion
Map
/ 𝐷 + 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
output
𝑄 = 𝑋𝑊𝑄
𝑇, 𝐾 = 𝑋𝑊𝐾
𝑇, 𝑉 = 𝑋𝑊𝑉
𝑇
𝑆 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑄𝐾𝑇
𝐷
出力𝑦𝑖
は𝑠𝑖𝑗
を係数とした𝑣𝑗
の加重和(=線形変換)
self-attention