Slide 6
Slide 6 text
Transformerでの生成のイメージ
Transformerの場合だと...
Embedding
Positional Encoding
Masked
Multi-Head
Attention
Add & Norm
Feed Forward
Add & Norm
Linear
softmax
𝐱 input
𝑦
𝜃
𝑃𝜃
(𝑦|𝐱)
次に来るトークン これまでのトークン
𝑃𝜃
(𝑤𝑡
|𝑤1
, … , 𝑤𝑡−1
)
𝐱をトークン列(𝑤1
, 𝑤2
, … , 𝑤𝑡−1
)、𝑦を𝑤𝑡
として
を求める関数𝑓(𝑤1
, 𝑤2
, … , 𝑤𝑡−1
; 𝜃)の定義としてのTransformer
出力が与えられた文章のトークン𝑤𝑡
である確率を最大化する
パラメータ𝜃を求めることで学習をする
学習済みモデルを使うことで次の単語の予測が可能になる