補足(説明を省いた所)
• Embedding
• Positional encoding
• BEAMsearch
• Masked multi head attention
• デコーダでのAttention
• Softmax 縛り強め和=1,
• Sigmoid全般に,比較的緩め
Slide 20
Slide 20 text
補足
• Masked multi head attention
予測すべき単語より後ろにある単語に対応する部分は-∞でうめ
る.その後softmaxを使うので,ほぼ0となり情報はなし.
・デコーダでのAttention
KeyとValueはエンコーダーの出力を持ってくる.
Qはデコーダーの出力(初回はBOS:begin of sequencというトー
クンだけの入力)
Slide 21
Slide 21 text
参考
• [1706.03762] Attention Is All You Need (arxiv.org)
• https://www.youtube.com/watch?v=50XvMaWhiTY
• 深層学習界の大前提Transformerの論文解説! - Qiita
• 論文解説 Attention Is All You Need (Transformer) - ディープ
ラーニングブログ (hatenablog.com)