Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
もう一度理解するTransformer(後編)
Search
winnie279
September 06, 2022
Science
0
32
もう一度理解するTransformer(後編)
もう一度理解するTransformer(後編), 中村勇士, 2022
winnie279
September 06, 2022
Tweet
Share
More Decks by winnie279
See All by winnie279
5分で学ぶOpenAI APIハンズオン
yjn279
0
110
『確率思考の戦略論』
yjn279
0
81
Amazonまでのレコメンド入門
yjn279
1
96
金研究室 勉強会 『もう一度理解する Transformer(前編)』
yjn279
0
23
金研究室 勉強会 『U-Netとそのバリエーションについて』
yjn279
0
130
金研究室 勉強会 『Seismic Data Augmentation Based on Conditional Generative Adversarial Networks』
yjn279
0
27
金研究室 勉強会 『バックプロパゲーションと勾配消失問題』
yjn279
0
78
金研究室 勉強会 『Attention is all you need』
yjn279
0
64
金研究室 勉強会 『U-Net: Convolutional Networks for Biomedical Image Segmentation』
yjn279
0
39
Other Decks in Science
See All in Science
ざっと学んでみる確率過程 〜その1 : ブラウン運動〜
nearme_tech
0
110
大規模画像テキストデータのフィルタリング手法の紹介
lyakaap
5
1.1k
Machine Learning for Materials (Lecture 8)
aronwalsh
0
330
Presenting Effectively with Data (in a Hurry)
thomaselove
1
260
Machine Learning for Materials (Lecture 4)
aronwalsh
0
690
拡散モデルの原理紹介
brainpadpr
1
1.1k
汎用原子シミュレータMatlantis のご紹介
matlantis
0
160
効果検証入門に物申してみた_JapanR_2023
s1ok69oo
6
4.6k
名古屋市立大学データサイエンス学部 秋のオープンキャンパス模擬授業20231111
trycycle
0
1.7k
「みんなの自然災害伝承碑」ワークショップ 2023|日本地図学会
fullfull
0
230
構造活性フォーラム2023-山﨑担当分
yamasakih
0
330
Machine Learning for Materials (Lecture 9)
aronwalsh
0
120
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
23
1.7k
Music & Morning Musume
bryan
41
5.6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
22
1.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
14
8.4k
GraphQLとの向き合い方2022年版
quramy
33
12k
Embracing the Ebb and Flow
colly
80
4.2k
Adopting Sorbet at Scale
ufuk
69
8.6k
How to train your dragon (web standard)
notwaldorf
75
5.2k
Designing Experiences People Love
moore
136
23k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
226
51k
The Invisible Customer
myddelton
114
12k
Become a Pro
speakerdeck
PRO
13
4.6k
Transcript
もう一度理解する Transformer(後編) 金研 機械学習勉強会 2022/09/06 中村勇士
–––––––– 単語間の注目度 前編の復習 • RNN ◦ 再帰型ネットワークの導入 ◦ 前の単語に着目する •
Bi-RNN ◦ 再帰型ネットワークが双方向に ◦ 前後の単語に着目する • Encoder-Decoder ◦ 文脈ベクトルの導入 ◦ 文章全体の意味をもつ • Attention ◦ 注意機構の導入 ◦ 時間の重みを考慮した文脈ベクトル ◦ 翻訳前後の単語間の関係性を表す this h s h t h~ t c a is . a pen < > これ は は Attention –––––– 文脈ベクトル ––––––– 翻訳する単語の情報(隠れ状態)
• Transformer ◦ RNNからSelf-Attentionへ ・単語の流れではなく、単語間の関係性を学習 ・系列長に左右されない ・並列化が可能 ◦ Scaled Dot-Product
Attention・Muti-Head Attentionの導入 • どんなモデル? ◦ 『Attention Is All You Need』(2017) ◦ 高性能、様々な分野で使われる ・BERT → Google 翻訳 ・GPT-3 → 1ヶ月間ブログを書いたのにAIだと気づかれず ・ViT → 画像認識 後編の内容 Attention
• Multi-Head Attention ◦ Scaled Dot-Product Attentionを結合 Scaled Dot-Product /
Multi-Head Attention • Scaled Dot-Product Attention ◦ QueryとKeyから注目度を計算 ◦ Keyに対応するValueに注目度を反映 Q:Query K:Key(Valueと対応) V:Value(Keyと対応) √d k :次元の補正 softmax:確率に変換 –––––––––––––––––––––––––––– 注目度 Concat:結合 W:重み
• Multi-Head Attentionの使い方の話 ◦ 今まで: 翻訳前後の単語間の関係性に注目 ◦ Self-Attention: 文章内の単語間の関係性に注目 ◦
RNNからSelf-Attentionへ Self-Attention V K Q V K Q Self-Attention Attention
Concat:結合 W:重み • Multi-Head Attention ◦ Scaled Dot-Product Attentionを結合 Scaled
Dot-Product / Multi-Head Attention • Scaled Dot-Product Attention ◦ QueryとKeyから注目度を計算 ◦ Keyに対応するValueに注目度を反映 Q:Query K:Key(Valueと対応) V:Value(Keyと対応) √d k :次元の補正 softmax:確率に変換 Self-Attentionでは、 Q・K・Vは元々同じ値 それぞれ異なる重みをかける 1つの文章を 3つの角度 × 8つの領域で認識
• Feed Forward ◦ • Add & Norm ◦ スキップコネクション
◦ 正規化 • Embedding ◦ 単語をベクトルに埋め込み • Positional Encoding ◦ ベクトルの並び順を与える • Masked Multi-Head Attention ◦ 未来の情報をマスク その他の機構 Encoder Decoder
• Positional Encoding ◦ ベクトルの並び順を与える 吾輩 / は / 猫
/ で / ある or は / 猫 / ある / で / 吾輩 ◦ 埋め込みベクトル + ポジション固有の値 ◦ 三角関数だと学習しやすい ◦ Positional Encoding • Embedding ◦ 単語をベクトルに埋め込み ID 単語 ベクトル 1 りんご [0, 0, 0, 1] 2 みかん [0, 0, 1, 0] …… …… …… 7 ばなな [0, 1, 1, 0] …… …… …… pos:単語の順番 i:次元 d model : 全体の次元数
• Transformer ◦ RNNからSelf-Attentionへ ・単語の流れではなく、単語間の関係性を学習 ・系列長に左右されない ・並列化が可能 ◦ Scaled Dot-Product
Attention・Muti-Head Attentionの導入 • どんなモデル? ◦ 『Attention Is All You Need』(2017) ◦ 高性能、様々な分野で使われる ・BERT → Google 翻訳 ・GPT-3 → 1ヶ月間ブログを書いたのにAIだと気づかれず ・ViT → 画像認識 まとめ Attention