Slide 7
Slide 7 text
Neighboring Attention
各レイヤで a を計算
1. wi
と wi+1
をそれぞれ dmodel
次元の qi
と ki+1
に線形変換
2. スコア si,i+1
= qiki+1
dmodel/2
を計算
3. pi,i+1
, pi,i−1
= softmax(si,i+1
, si,i−1
)
• (pi,i+1
+ pi,i−1
) = 1 にしないと疎な分布にならないため重要
4. pi,i+1
と pi+1,i
の幾何平均より ˆ
ai
を計算
• C を対称行列にするため
5. Hierarchical Constraint (後述) に ˆ
ai
を渡して ai
を計算
6