パラメータ数 前バージョンとの違い 作った⼈ 発表年
Transformer - - Google 2017
GPT1
1億1700万
(12レイヤー)
事前学習, ファインチューニング Open AI 2018
GPT2
15億
(48レイヤー)
語彙数増やした
正規化レイヤーの位置変えた
ファンチューニングやめた
Open AI 2019
GPT3 1750億
特になし
(でかくなっただけ)
Open AI 2020/5
GPT4 未公開
画像が読めるようになった
強化学習(RLHF)
Open AI 2023/3
Slide 15
Slide 15 text
パラメータ数 前バージョンとの違い 作った⼈ 発表年
Transformer - - Google 2017
GPT1
1億1700万
(12レイヤー)
事前学習, ファインチューニング Open AI 2018
GPT2
15億
(48レイヤー)
語彙数増やした
正規化レイヤーの位置変えた
ファンチューニングやめた
Open AI 2019
GPT3 1750億
特になし
(でかくなっただけ)
Open AI 2020/5
GPT4 未公開
画像が読めるようになった
強化学習(RLHF)
Open AI 2023/3
基本モデルは、Transformerのまま。ただ(クソ)でかくなっただけ。
This is a pen.
This 0.17 0.2 0.03 0.6
is 0.2 0.47 0.15 0.18
a 0.03 0.15 0.75 0.07
pen. 0.6 0.18 0.07 0.15
Self Attention:各単語間での関連性のスコアを出す
⽂中でどこが重要かわかる
※値は例です
Slide 33
Slide 33 text
合算
8つの異なる Attention Head で別々に計算し合算
1個でやるよりも精度が⾼かった!
Slide 34
Slide 34 text
⽂法は教えてないけど、Attentionにより
Making
…
more difficult
という⽂法構造が浮かび上がる
わりと⻑い複雑な⽂章でも意味を汲み取った
返事をしてくれるのはAttentionによる特徴抽
出のおかげ?
Ҿ༻ݩɿIUUQTEFFQMFBSOJOHIBUFOBCMPHDPNFOUSZUSBOTGPSNFS