Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Transformer and Graph Neural Network

87c236e94282fcf81192203e84a6e784?s=47 LiberalArts
February 22, 2021

Transformer and Graph Neural Network

ここ最近Transformerの話題が多いですがなかなか理解の大変なモジュールなので、下記の2章の記述を公開することにいたしました。
https://lib-arts.booth.pm/items/2741653

処理の流れだけを追ってもわかりづらい可能性があるため、Message Passingに基づくGraph Neural Networkとして理解するのが良いかと思います。

Deep Graph Libraryのチュートリアルの記載からの抜粋が多いので、詳しく考えたい方はそちらも参照してみてください。


引用にあたっての記載があまりよくないようなので、近いうちに修正します。

87c236e94282fcf81192203e84a6e784?s=128

LiberalArts

February 22, 2021
Tweet

Transcript

  1. 1 3 痥 2 畍 Transformer ך㛇劤椚鍑 睗 2 皹ךעյ

    勓剹ס䪫銉溷ם槏闋סي٭تכ׊י Transformer ס㕈 勓ס槏闋מחַי⺅׽䪒ַױ׌ն♧┫յ 2-1 硼ךע RNN כ Attention ס嚣锡מחַי⺅׽䪒ַյ2-3 硼כ 2-4 硼ך Dot Product Attention ؅╚䖥כ׌׾ Transformer ٓةٖ٭ٜס闋ꓡֿ鉿ֻ׾׻ֹמ 2-2 硼 ךאסي٭تכם׾脝ֻ偙כ׊י Message Passing כءٚنؼٖ٭ ٜٚؾشع٠٭ؠ (Graph Neural Network) מחַיׇ箩♃׊ױ׌ն 2-4 硼ױךך Transformer מחַי䪻䳢׊ג┪ךյ2-5 硼ךע 3-2 硼 ך⺅׽䪒ֹ Vision Transformer(ViT) ך׵氠ַ׼׿׾ BERT סؾش ع٠٭ؠ圸䧯מחַי牞霼׊ױ׌ն 2.1 RNN ה Attention 2-1 硼ךע RNN כ Attention מחַי⺅׽䪒ַױ׌ն https://lib-arts.booth.pm/items/1834866 א׿ב׿מחַיע霄׊ׂע┪阾ס睗 1 皹֐睗 2 皹ך⺅׽䪒ַױ׊גס ךյ勓剹ךע祔ⷃם嚣锡כאס闋ꓡמחַיױכ״גַכ䘼ַױ׌ն 13
  2. 1 4 痥 2 畍 Transformer ך㛇劤椚鍑 2.1 RNN ה

    Attention ㎫: 2.1 seq2seq(RNN ي٭تס笠⮬㜟䳕ٓظٛ٤ء) https://arxiv.org/abs/1409.3215 ㎫: 2.2 Attention(笠⮬㜟䳕ٓظٛ٤ء׫ס Attention ס㸬⪜) https://arxiv.org/abs/1409.0473 ㎫ 2.1 כ㎫ 2.2 עא׿ב׿ RNN 笠؅氠ַג seq2seq כյAttention ؅㸬 ⪜׊ג煝疴ך׌նלה׼׵塌唩脌陹 (Machine Translation) מחַי⺅׽篁 14
  3. 1 5 痥 2 畍 Transformer ך㛇劤椚鍑 2.1 RNN ה

    Attention ؆ד⻎免劻ס煝疴ך׌նRNN ע⫙䊟溷מؼٖ٭ٜٚؾشع٠٭ؠ؅阛砯׊ יַׂסמ㸐׊יյAttention ע걇׿㺽סꓨײ♕ׄ⾔؅阛砯׊ױ׌ն ׈יյ׵ה؀؆׆׿׼ס阛砯ס嵣׿ס䪻䳢עꓨ锡םסך׌ֿյ׻׽ꓨ锡ם סעא׿ב׿ס⭦槏ס圸ꅎֿלס׻ֹם䟨⽱؅䭥ח־ך׌նRNN 笠ע笠⮬ סٓظٛ٤ء؅⺅׽䪒ֹמֵגזיյ脝ֻ偙溷מب٤وٜם脝ֻ偙ךעֵ׽ ױ׌ֿյゼ꾴ֵֿ׾כ׌׿ף笠⮬ֿꩽׂם׾מח׿י䝠㖥ס⺅׽䪒ַֿ곓 ׊ׂם׾כַֹ掾ך׌նLSTM ׷ GRU םלյꩽַ笠⮬؅⺅׽䪒ֹג״מ 坎չם䈰㝜ֿם׈׿י׀ױ׊גֿյ篙㹾סכ׆؀ٓةٖ٭ٜ⪢✄ך瞏嬟俙⮬ 溷מ䝠㖥ֿ㝤؂׿׾׆כמע㜟؂׽םׂյꩽַ笠⮬ס⺅׽䪒ַמ곓ֵֿ׽ױ ׊גնRNN ס⚻乨מֵגזיגכֻף䝠㖥ֿ⶯⮔׊־媘׼םַכ脝ֻ׾כ 0.510 = 0.000976... כյ笠⮬סꩽ׈ֿ 10 ךֵ׾דׄך劄⮴סⷃ靣ס䝠㖥ע 0.1 ♧┫׊־媘׼םׂם׽ױ׌ն ׆׿מ㸐׊յAttention עꓨײ♕ׄ⾔כ׊י阛砯׌׾ג״յ곐׿ג䝠㖥׵ א׿׮ל摾槏םׂ⺅׽䪒ֻױ׌ն阛砯⭦槏סꇃ瓦ֿ瞏嬟俙⮬溷ךםַ׆כד ׄך⺅׽䪒ַֿ⪢ׂꇙֹ׆כ؅ׇ槏闋ַגדׄג׼כ䘼ַױ׌նהםײמ瞏 嬟俙⮬溷ם⺅׽䪒ַכַֹ䟨⽱ךע CNN םלס㺽ס俙׵⻎坎ך׌ֿյ1-2 硼ךׇ箩♃׊ג ResNet ס䓺䑑؅⺅׽⪜׿׾׆כך׆ה׼ע㎇ꉌֿ⺪茣כ׈ ׿יַױ׌նLSTM ׷ GRU ׵⻎坎ס溪䞯ךֵ׾כ槏闋׊י虘ַכ䘼؂׿ ױ׌ֿյꄡ姌溷ם气䧯؅⺅׽䪒ֹםלמֵגזיעֵױ׽꽒⣌ךםַכ脝ֻ י虘ַסךעכ䘼ַױ׌նױגյAttention ؅阛砯׌׾┪ך槏闋׊יֽ־ם ׂיעַׄםַסֿյꓨײס阛砯ך׌ն׆סꓨײס阛砯מꫀ׊יע虝չכ偙 岺ֵֿ׽ױ׌ֿյ ⪜ⲇ笠⮬؅ꓨײס阛砯מאסױױ⯈氠ך׀׾ self-attention ֿ劔ⲇךյTransformer ׵ self-attention ס圸ꅎמ㕈טׂכ脝ֻ׾׆כֿך ׀ױ׌նTransformer ך氠ַ׼׿יַ׾ self-attention ס圸ꅎכ׊יעյ2-3 硼ס Dot Product Attention ׷ 2-4 硼ס Transformer ٓةٖ٭ٜך⺅׽䪒 ַױ׌ն 15
  4. 1 6 痥 2 畍 Transformer ך㛇劤椚鍑 2.2 Message Passing

    ה GNN 2.2 Message Passing ה GNN 2-2 硼ךע Message Passing כ Graph Neural Network מחַי⺅׽䪒 ַױ׌ն https://www.amazon.co.jp/dp/B08JGM3JNP 霄׊ׂע┪阾ס睗 3 皹֐睗 4 皹ך⺅׽䪒ַױ׊גֿյTransformer ס Dot Product Attention(self-attention ס┞甦) עْشج٭ة⚻乨ס卽篁ײ (Message Passing Paradigm) ؅⯈氠׊ג Graph Neural Network כ׊י槏 闋׌׾׆כֿך׀ױ׌ն Dot Product Attention ס⭦槏ע 2-3 硼ך⺅׽䪒ַױ׌ֿյDot Product Attention ؅ⷃמ⭦槏ס嵣׿כ׊י䪻䳢׌׾דׄדכם־ם־ْؕ٭ةֿ 彏׀ט׼ַג״յ2-4 硼ך䟨⽱⻉ַ؅槏闋׌׾מֵגזיס⯼嫘갧כ׊י 2-2 硼ךעאסي٭تס槏闋כ׊י劔氠ם Message Passing Paradigm כ Graph Neural Network מחַי牞霼׊ױ׌ն ㎫: 2.3 ءٚنס❛ (ؿ٭غכؙشة) ױ׍յءٚنמחַיע㎫ 2.3 ס׻ֹמ掾 (ؿ٭غ) כ納 (ؙشة) ךꫀ➳ 䙎؅銨׊ג׵סכ槏闋׊יֽׂכ虘ַך׌ն⪽✄溷מע뉭ס鴤納㎫םלֿ؂ ־׽׷׌ַך׌ն׈יյ뉭ס鴤納㎫ֵֿ׾갾מ庋겧⪽⻉םל؅◙廠׊גַ갾 םלסٓظٛ٤ءמ➬⯈םסֿ Message Passing ס脝ֻ偙ך׌ն 16
  5. 1 7 痥 2 畍 Transformer ך㛇劤椚鍑 2.2 Message Passing

    ה GNN ㎫: 2.4 Message Passing(俙䑑) 俙䑑מחַיע㎫ 2.4 ס׻ֹמ銨׌׆כֿך׀ױ׌ֿյ׉זׂ׽䲖׳ם׼ Edge-wise ֿ괎黆מ▗׾յNode-wise ֿ괎黆־׼ꮳ׽׾ْؕ٭ةך䲖׳סֿ 虘ַ־כ䘼ַױ׌ն ⹌㶔מע劻䔵⡑ך脝ֻ׾偙ֿ虘ַך׌ֿյֵׂױךؕ ْ٭ةםסךֵױ׽⹌㶔מ脝ֻꇃׁםַךַגדׄג׼כ䘼ַױ׌ն  ㎫: 2.5 ءٚن沑ײꁎײ (ꁿ⤒ס걇׿㺽ס⾔ס阛砯) ׆ס Message Passing ؅ֵ׾뉭 v1 מחַי濪潨׊גסֿ㎫ 2.5 כ脝ֻ׾ ׆כֿך׀׾סך׌ֿյ׆׆מقْٚ٭ذס㳔肪؅㸬⪜׊גסֿءٚن沑ײ ꁎײך׌ն 17
  6. 1 8 痥 2 畍 Transformer ך㛇劤椚鍑 2.2 Message Passing

    ה GNN ㎫: 2.6 ءٚن沑ײꁎײ (قْٚ٭ذ⭦槏כ沑ײꁎײ) ءٚن沑ײꁎײע㎫ 2.6 ס׻ֹמ銨׌׆כֿך׀յW(l) ֿقْٚ٭ذ؅ 銨׊יַ׾כ脝ֻ׾כ虘ַך׌ն׆׆ךقْٚ٭ذ؅㸬⪜׌׾䟨聋؅뉭ס庋 겧⪽⻉ס◙廠ס❛؅⩧מ脝ֻ׾כյ☭ס嵣׿ס㸬納ס牞⟛םלמ׻זיֵ׾ 뉭ךꮳ׽ג▗㵉ס☭俙ֿאסױױ庋겧⪽⻉מ⹸儙׈׿׾陹ךעםַ׆כמֵ ׽ױ׌גכֻף㸐䗎ֿ僃ַ뉭〉ֿ㝂ַ뉭כאֹךםַ뉭ךע庋겧䍲מ䈼ֿ ⮂׾ד؀ֹכ脝ֻי׵虘ַ־כ䘼ַױ׌ ն׆׿؅⺅׽䪒ֹמֵגזיقٚ ْ٭ذ؅㸬⪜׌׾׆כךյא׿ב׿ס뉭ך▗זג▗㵉ס俙כ鴤納㎫؅⪜ⲇכ ׊י┰ֻיյ⮂ⲇ؅א׿ב׿ס뉭ס庋겧䍲כ׊י侷䊘ֵ׽㳔肪؅׌׿ףյ뉭 ס庋겧䍲ס◙廠ֿ⺪茣מם׽ױ׌ն ┪阾ס׻ֹמءٚن沑ײꁎײ؅氠ַי圸碎׊גؼٖ٭ٜٚؾشع٠٭ؠ؅ ءٚنؼٖ٭ٜٚؾشع٠٭ؠ (GNN; Graph Neural Network) כ⽿שס ך׌ֿյ׆ס脝ֻ偙؅氠ַ׾׆כך걋䱸ꫀ➳؅⹧脝מ׊גؼٖ٭ٜٚؾش ع٠٭ؠס㳔肪ֿ⺪茣ך׌ն2-2 硼ס❛ךע뉭؅ؿ٭غյ鴤納؅ؙشةכ锶 皑ייءٚنؼٖ٭ٜٚؾشع٠٭ؠ؅脝ֻױ׊גֿյⷃ靣؅ؿ٭غյא׿ ב׿סⷃ靣ס꿔⛣䍲؅ؙشةכ锶皑ייءٚن沑ײꁎײ (Attention 阛砯 + نؔ٭غنؚ٠٭غסقْٚ٭ذ阛砯) ؅鉿זגסֿ Transformer ך׌ն https://www.amazon.co.jp/dp/B08B4SBQL7 18
  7. 1 9 痥 2 畍 Transformer ך㛇劤椚鍑 2.3 Dot Product

    Attention ┪阾ס睗 5 皹כ睗 7 皹ך⺅׽䪒זג BoW ؅⩧מ׊ג倀剹⮔꿔׷ؾشع ٠٭ؠ⮔卥ס脝ֻ偙؅倀剹ⷃ⛺ךעםׂⷃ靣ⷃ⛺מꈌ氠׊גכ脝ֻי׵⻎坎 מ㎫ 2.7 ס׻ֹםءٚن؅✑䧯׌׾׆כֿ⺪茣ך׌ն BoW ע倀剹ס D כ ⷃ靣ס W ס鉿⮬ך׌ֿյD מ㸐׊י꿔⛣䍲؅阛砯׌׾ס׵ W מ㸐׊י꿔 ⛣䍲؅阛砯׌׾ס׵לה׼׵ Cos 꿔⛣䍲םלך阛砯ך׀׾סךյ䩘岺כ׊ יע⻎坎מ脝ֻיֽׂ׆כֿ⺪茣ך׌ն  ㎫: 2.7 ؾشع٠٭ؠ⮔卥כءٚن ׆ס׻ֹמⷃ靣׷倀皹םלמ㕈טַיءٚن؅阛砯׌׾׆כֿך׀׾סך ׌ֿյ׆ס׆כע 2-3 硼ס Dot Product Attention ׷ 2-4 硼ס Transformer ٓةٖ٭ٜ؅槏闋׊יַׂ┪ך긊䊬מ䔢מ皑הױ׌ն 2.3 Dot Product Attention 2-3 硼ךע Dot Product Attention כ Multi-Head Attention מחַי牞 霼׊ױ׌ն 19
  8. 2 0 痥 2 畍 Transformer ך㛇劤椚鍑 2.3 Dot Product

    Attention ㎫: 2.8 Dot Product Attention כ Multi-Head Attention ס嚣锡㎫ ㎫ 2.8 ֿ Dot Product Attention כ Multi-Head Attention ס嚣锡㎫ך ׌ն俙䑑׵⻉؂׎י牞霼׊ױ׌ն ㎫: 2.9 俙䑑 (Dot Product Attention) ㎫: 2.10 俙䑑 (Multi-Head Attention) ㎫ 2.9 כ㎫ 2.10 ךעא׿ב׿ Dot Product Attention כ Multi-Head 20
  9. 2 1 痥 2 畍 Transformer ך㛇劤椚鍑 2.3 Dot Product

    Attention Attention ؅銨׊יַױ׌ն ׈יյ┪阾ע Transformer ס韢倀׻׽䑛氠׊ױ׊גֿյ㎫כ俙䑑דׄדכ 㸴׊؂־׽ט׼ַסך♧┫⭦槏嚣锡؅牞霼׊ױ׌նױ׍յ✇־׊׼סذتؠ ؅⯼䳀כ׊י脝ֻ׾偙ֿ؂־׽׷׌ַסךյseq2seq םלכ⻎坎ס塌唩脌陹 (Machine Translation) ذتؠ؅⯼䳀מ脝ֻױ׌ն锡׌׾מ傽勓靣؅⪜׿י 蝠靣؅⮂ⲇ׌׾׻ֹםذتؠ؅┞傾⯼䳀מ闋鞃׌׾כׇ槏闋ַגדׄג׼כ 䘼ַױ׌ն ױ׍յ 傽勓靣؅⪜ⲇ׌׾מֵגזיյ ր瑭 ע ♀傽 匯☒ מ 鉿ׂց ס׻ֹם䓺䡢 筶闋卥ס篙卸ס笠⮬؅⪜ⲇ׌׾כ׊יյא׿ב׿סⷃ靣מ Word2vec ס׻ֹ ם⭦槏؅偡׊יⷃ靣؅قْٚ٭ذך銨׊ג銨槁ךֵ׾⮔俆銨槁 (Distributed representation) ؅䕑ױ׌ն锡׌׾מא׿ב׿סⷃ靣؅ 500֐1000 姌⩧סي ؠعٜך銨槁׌׾כ脝ֻיַגדׄג׼כ䘼ַױ׌ն⮔俆銨槁מחַי׊ז ׂ׽׆םַ偙ע┫阾ס Word2vec ס阾鼥؅⹧攍ַגדׄג׼כ䘼ַױ׌ն https://www.amazon.co.jp/dp/B08B4SBQL7 Attention ס⭦槏ךעא׿ב׿סⷃ靣ס⫐畤؅阛砯׊י牞椙ⵊ׊ (Q כ K ס鉿⮬ס畤מ㸐׊י softmax ꫀ俙؅⹸儙׈׎׾)յא׿מ㕈טַיꓨײ♕ׄ ⾔ס阛砯 (Attention ⭦槏) ؅鉿ַױ׌ն锡עꁿ׊ַ⮔俆銨槁ך銨׈׿׾ⷃ 靣ֿם׾׬ׂ◦ַמ潸◦✑氠׈׿׾׻ֹם⭦槏؅㵅槁׊יַ׾כ脝ֻיַג דׄ׿ף虘ַ־כ䘼ַױ׌նױגյꄫ╚ס阛砯ך⫐畤 (Dot Product) ؅阛 砯׌׾׆כ־׼ Dot Product Attention כ⻏♕ׄ׼׿יַױ׌ն ┪阾ֿ Dot Product Attention ס⭦槏ך׌ֿյ׆ס Dot Product At- tention ؅א׿ב׿סⷃ靣ס⮔俆銨槁؅⮔ⰺ׊יؓ٤ئ٤هٜ溷מ阛砯؅ 鉿זגסֿ Multi-Head Attention ך׌նMulti-Head ס偙ֿؓ٤ئ٤هٜ 溷ם꽒⣌䙎׷յ╒⮬⭦槏ס⺪茣䙎םלֿ둚ַכ脝ֻי虘ַ־כ䘼ַױ׌ն Multi-Head Attention ע Dot Product Attention מ嬟׬ילה׼־כַ ֹכ阛砯┪ס䈰㝜כ׊יס䟨⽱⻉ַס偙ֿ㝕׀ַג״յ׆׆ךעֵױ׽霄׊ ׂ⺅׽䪒؂םַ׵סכ׊ױ׌ն  21
  10. 2 2 痥 2 畍 Transformer ך㛇劤椚鍑 2.4 Transformer ٌآُ٦ٕך鍑ꅸ

    2.4 Transformer ٌآُ٦ٕך鍑ꅸ 2-4 硼ךע Transformer ٓةٖ٭ٜס闋ꓡמחַי鉿ַױ׌ն ㎫: 2.11 Transformer ٓةٖ٭ٜס⪢✄⦐ ױ׍յ㎫ 2.11 ֿ Transfomer ٓةٖ٭ٜס嚣锡ך׌ն䈱סؙ٤ؤ٭ر٭ כ⺯סظؤ٭ر٭؅ 2-3 硼ס脌陹ס❛ך脝ֻ׾כ傽勓靣؅⫐ꌃ銨槁מ㜟ֻ׾ סֿؙ٤ؤ٭ر٭յ蝠靣؅气䧯׌׾ס؅ظؤ٭رכא׿ב׿脝ֻ׾כ虘ַ ך׌ն 2-3 硼ך⺅׽䪒זג Dot Product Attention ׷ Multi-Head Attention ע ㎫ 2.11 מַֽי؛ٝ٤ةך銨槁׈׿יַױ׌ն׆׿ע 2-2 硼ך⺅׽䪒זג 22
  11. 2 3 痥 2 畍 Transformer ך㛇劤椚鍑 2.4 Transformer ٌآُ٦ٕך鍑ꅸ

    ءٚن沑ײꁎײמֽׄ׾ Message Passing מ㸐䗎׊יַ׾כ脝ֻ׾׆כֿ ך׀ױ׌նױגյ㎫מַֽי寊虝ך獏׈׿ג Feed Forward ע⻄ⷃ靣ׇכמ قْٚ٭ذ㳔肪؅鉿זיֽ׽յ׆׿׵ 2-2 硼ך⺅׽䪒זגءٚن沑ײꁎײמ ַֽיؿ٭غׇכמقْٚ٭ذס䱧ׄ砯؅鉿ֹ׆כמ潸䓜׊יַ׾כ脝ֻ׾ ׆כֿך׀ױ׌ն ㎫: 2.12 Dot Product Attention כءٚن https://docs.dgl.ai/tutorials/models/4_old_wines/7_transformer. html ㎫ 2.12 ע PyTorch ي٭تס Graph Neural Network סٚؕهٚٛךֵ ׾ Deep Graph Library(DGL) סزٖ٭عٜٛؓך氠ַ׼׿יַ׾㎫ך׌ ֿյ׆ה׼ךע Attention מֽׄ׾ꓨײכⷃ靣ꪨס䟨⽱溷ꫀ➳䙎 (⮔俆銨 槁ס⫐畤) ס㸐䗎מחַי阾鼥׈׿יַױ׌ն׆ס׻ֹמ Transformer ٓ ةٖ٭ٜעءٚن沑ײꁎײכ׊י槏闋׌׾׆כֿ⺪茣ךֵ׾כַֹסע䫅ֻ 23
  12. 2 4 痥 2 畍 Transformer ך㛇劤椚鍑 2.4 Transformer ٌآُ٦ٕך鍑ꅸ

    יֽׂכ虘ַך׌ն ㎫: 2.13 Reformer(韢倀) https://arxiv.org/abs/2001.04451 ױגյ׆׆ױךס Transformer ٓةٖ٭ٜס闋ꓡע Reformer ؅簀״׾׆ כך׈׼מ脝㷋ֿ⺪茣מם׾סך祔ⷃמ箩♃דׄ׊יֽ׀ױ׌ն 24
  13. 2 5 痥 2 畍 Transformer ך㛇劤椚鍑 2.4 Transformer ٌآُ٦ٕך鍑ꅸ

    ㎫: 2.14 LSH Attention(Reformer) Reformer ךע㎫ 2.14 ך銨׈׿׾ LSH Attention(Locality sensitive hashing) ךעյAttention ⭦槏؅杅㴻סⷃ靣דׄמ篹זי鉿ֹ׆כך阛砯ⲯ 椙؅⻔┪׈׎յ1,000 ⷃ靣⯼䔿ס⺅׽䪒ַֿ╚䖥ס Transformer 嵞气ס煝 疴מ㸐׊յאס俙ⶥ⠨♧┪סⷃ靣؅⺅׽䪒ֻ׾׻ֹמ׊ג煝疴ך׌ն׆ס Reformer ך氠ַ׼׿יַ׾脝ֻ偙׷אס韢槏㺤ꪛעءٚنס⺅׽䪒ַ؅־ ם׽脝䢩׊ג⫐㵼ךֵ׽յءٚنؼٖ٭ٜٚؾشع٠٭ؠכ⻉؂׎י䪻䳢׊ יֽׂכ槏闋ֿ幾ױ׽ױ׌ն ׵ֹ㸴׊脝㷋׌׾ם׼յTransformer ע⪢יסⷃ靣⻎㛶מחַי Atten- tion ⭦槏؅鉿ֹכַֹخنعם圸ꅎյReformer ע杅㴻סꫀꅙ䙎ס둚ַⷃ靣 ⻎㛶מחַי׊־阛砯؅鉿؂םַـ٭غם圸ꅎכ脝ֻ׾׆כֿך׀׾־כ䘼 ַױ׌նءٚنؼٖ٭ٜٚؾشع٠٭ؠכ׊י Transformer ؅槏闋׌׾׆ כךյ׆ס׻ֹמ┞锶鏿겧ך곓׊אֹמ锶ֻ׾ Transformer 嵞气ס⭦槏؅ ⷃ靣؅ؿ٭غכײם׊גءٚنؼٖ٭ٜٚؾشع٠٭ؠכ׊י槏闋׌׾׆כ ֿך׀յ潲䠊溷ם槏闋כ脝㷋ֿ⺪茣מם׽ױ׌ն 25
  14. 2 6 痥 2 畍 Transformer ך㛇劤椚鍑 2.5 BERT ךطحزٙ٦ؙך圓鸡

    2.5 BERT ךطحزٙ٦ؙך圓鸡 2-5 硼ךע Transformer ؅⩧מ׊ג阋靣⭦槏ס◜⯼㳔肪ٓظٛ٤ءס BERT מחַיׇ箩♃׊ױ׌ն杅מ 3-2 硼ךׇ箩♃׌׾ Vision Trans- former(ViT) ע BERT סؾشع٠٭ؠ圸ꅎ؅אסױױ氠ַיַ׾ג״յ BERT ס䪻䳢מחַיע⩰מ鉿זיֽׂ偙ֿ劳ױ׊ַך׌նBERT ע Transformer ؅ي٭تמ׊גٓظٛ٤ءךֵ׽յ◜⯼㳔肪כ׊י Masked Language Modeling ׷ Next Sentence Prediction ؅氠ַיַױ׌ն BERT ס BASE כ LARGE ע┪阾סئؕثךֵ׽յ㝕✄ס锺埛䠊؅䫅ֻ יֽׂכ虘ַכ䘼ַױ׌նBERT ס BASE מַֽיעյ㺽ס俙ֿ 12յ걇׿ 㺽 (ⷃ靣ס⮔俆銨槁ס姌⩧) ֿ 768յ糹قْٚ٭ذ俙ֿ 1 ⧱כַֹ俙㲻ע杅 מ䫅ֻיֽׂכ虘ַך׌ն BERT מחַיע Transformer ֿ槏闋ך׀יַ׿ף׉זכ槏闋׊יַ׾ ךⶥ⮔םסך׆׆ךע׆סׂ׼ַכ׊ױ׌ֿյ׻׽霄׊ׂ牞霼׊גַ偙ע┫ 阾ך霄׊ׂ⺅׽䪒זיַױ׌סך׆ה׼؅⹧攍ַגדׄג׼כ䘼ַױ׌ն https://lib-arts.booth.pm/items/1834866 26