Slide 49
Slide 49 text
QKV注意機構の定式化
48
𝑸𝑸 = (𝒒𝒒1
, … , 𝒒𝒒𝑇𝑇
)と𝑲𝑲 = (𝒌𝒌1
, … , 𝒌𝒌𝑆𝑆
)の内積に基づき重みを計算し、𝑽𝑽 = (𝒗𝒗1
, … , 𝒗𝒗𝑆𝑆
)
の重み付き和を計算し、�
𝑸𝑸 = �
𝒒𝒒1
, … , �
𝒒𝒒𝑇𝑇
を構成する(𝑸𝑸を�
𝑸𝑸に再構成する)
�
𝑸𝑸 = Attention 𝑸𝑸, 𝑲𝑲, 𝑽𝑽 = 𝑽𝑽𝑽𝑽
𝑨𝑨 = softmax 𝑐𝑐𝑲𝑲⊤𝑸𝑸 𝑨𝑨 ∈ ℝ𝑆𝑆×𝑇𝑇
𝑸𝑸 = 𝒒𝒒1
, … , 𝒒𝒒𝐽𝐽
∈ ℝ𝑑𝑑×𝑇𝑇, �
𝑸𝑸 = �
𝒒𝒒1
, … , �
𝒒𝒒𝐽𝐽
∈ ℝ𝑑𝑑×𝑇𝑇,
𝑲𝑲 = 𝒌𝒌1
, … , 𝒌𝒌𝑆𝑆
∈ ℝ𝑑𝑑×𝑆𝑆, 𝑽𝑽 = (𝒗𝒗1
, … , 𝒗𝒗𝑆𝑆
) ∈ ℝ𝑑𝑑×𝑆𝑆
エンコーダの自己注意機構(𝑯𝑯に注意しながら𝑯𝑯を再構成)
𝑸𝑸 = 𝑾𝑾𝑄𝑄
𝑯𝑯, 𝑲𝑲 = 𝑾𝑾𝐾𝐾
𝑯𝑯, 𝑽𝑽 = 𝑾𝑾𝑉𝑉
𝑯𝑯, 𝑾𝑾𝑄𝑄
, 𝑾𝑾𝐾𝐾
, 𝑾𝑾𝑉𝑉
∈ ℝ𝑑𝑑×𝑑𝑑 (𝑆𝑆 = 𝑇𝑇 = 𝐼𝐼)
デコーダの自己注意機構(𝒁𝒁に注意しながら𝒁𝒁を再構成)
𝑸𝑸 = 𝑾𝑾𝑄𝑄
𝒁𝒁, 𝑲𝑲 = 𝑾𝑾𝐾𝐾
𝒁𝒁, 𝑽𝑽 = 𝑾𝑾𝑉𝑉
𝒁𝒁, 𝑾𝑾𝑄𝑄
, 𝑾𝑾𝐾𝐾
, 𝑾𝑾𝑉𝑉
∈ ℝ𝑑𝑑×𝑑𝑑 (𝑆𝑆 = 𝑇𝑇 = 𝐽𝐽)
クロスアテンションの注意機構(𝑯𝑯と𝒁𝒁に注意しながら𝑯𝑯を再構成)
𝑸𝑸 = 𝑾𝑾𝑄𝑄
𝒁𝒁, 𝑲𝑲 = 𝑾𝑾𝐾𝐾
𝑯𝑯, 𝑽𝑽 = 𝑾𝑾𝑉𝑉
𝑯𝑯, 𝑾𝑾𝑄𝑄
, 𝑾𝑾𝐾𝐾
, 𝑾𝑾𝑉𝑉
∈ ℝ𝑑𝑑×𝑑𝑑 (𝑆𝑆 = 𝐼𝐼, 𝑇𝑇 = 𝐽𝐽)
①マルチヘッド
注意機構