Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
金研究室 勉強会 『もう一度理解する Transformer(前編)』
Search
winnie279
July 12, 2022
Science
0
23
金研究室 勉強会 『もう一度理解する Transformer(前編)』
もう一度理解するTransformer(前編), 中村勇士, 2022
winnie279
July 12, 2022
Tweet
Share
More Decks by winnie279
See All by winnie279
5分で学ぶOpenAI APIハンズオン
yjn279
0
110
『確率思考の戦略論』
yjn279
0
81
Amazonまでのレコメンド入門
yjn279
1
96
もう一度理解するTransformer(後編)
yjn279
0
32
金研究室 勉強会 『U-Netとそのバリエーションについて』
yjn279
0
130
金研究室 勉強会 『Seismic Data Augmentation Based on Conditional Generative Adversarial Networks』
yjn279
0
27
金研究室 勉強会 『バックプロパゲーションと勾配消失問題』
yjn279
0
78
金研究室 勉強会 『Attention is all you need』
yjn279
0
64
金研究室 勉強会 『U-Net: Convolutional Networks for Biomedical Image Segmentation』
yjn279
0
39
Other Decks in Science
See All in Science
Running llama.cpp on the CPU
ianozsvald
0
230
最新のAI技術を使った材料シミュレーションで材料研究現場に変革を
matlantis
0
510
バックアップ『しながら』ランサムウェア検出も!? セキュリティ強化が満載 Veeam 12.1
climbteam
0
340
Machine Learning for Materials (Lecture 1)
aronwalsh
1
1.5k
Machine Learning for Materials (Lecture 3)
aronwalsh
0
850
拡散モデルの原理紹介
brainpadpr
1
1.1k
研究・教育・産学連携の循環の実践
sshimizu2006
0
240
効果検証入門に物申してみた_JapanR_2023
s1ok69oo
6
4.6k
HIBINO Aiko
genomethica
0
390
WeMeet Group - 採用資料
wemeet
0
230
Machine Learning for Materials (Lecture 2)
aronwalsh
0
600
同じデータでもP値が変わる話/key_considerations_in_NHST
florets1
1
1.1k
Featured
See All Featured
In The Pink: A Labor of Love
frogandcode
138
21k
Being A Developer After 40
akosma
67
580k
Automating Front-end Workflow
addyosmani
1357
200k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
How to Ace a Technical Interview
jacobian
273
22k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
Producing Creativity
orderedlist
PRO
338
39k
GraphQLの誤解/rethinking-graphql
sonatard
56
9.3k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
245
20k
Making the Leap to Tech Lead
cromwellryan
125
8.6k
Transcript
もう一度理解する Transformer(前編) 金研 機械学習勉強会 2022/07/12 中村勇士
もう一度とは? • 『Attention is all you need』読みました ◦ 見返してみたら、約1年前でした(見たい方は こちら)
◦ 難しくてなかなか理解できず → リベンジします • Transformerとは? ◦ 2017年の自然言語処理モデル ◦ 高性能、様々な分野で使われる ・BERT → Google 翻訳 ・GPT-3 → 1ヶ月間ブログを書いたのに AIだと気づかれず ・ViT → 画像認識
Transformerまでの道のり • なぜ難しかったのか? ◦ 基本的にAttentionを知らなかった ◦ ほかの文章生成モデルを知らなかった • どうすれば良いか? ◦
まずは基本的なAttentionを理解する! ◦ ほかの文章生成モデルを知る! • RNN • Bi-RNN • Encoder-Decoder • Attention • Transformer • BERT or GPT-3 or ViT 機械学習勉強会で 出てきた 前半 RNNを不使用 後半以降 RNNを不使用
seq2seq(sequence to sequence) • 文章とは? ◦ 単語や句読点などの記号を順に並べたもの ◦ 時系列データの1つ →
地震波形・音波・株価など • 文章生成モデル ◦ 系列データから系列データへ ◦ ある文章から別の文章を生成(翻訳など) ◦ リアルタイム震度予測 • 文字をどうやって入力するの? ◦ 単語をベクトルに変換する ◦ IDを振るようなイメージ this is . a pen これ は ペン です 。 ID 単語 ベクトル 1 りんご [0, 0, 0, 1] 2 みかん [0, 0, 1, 0] …… …… …… 7 ばなな [0, 1, 1, 0] …… …… ……
• 前後の情報を持てる • 文字の説明 ◦ x:入力データ ◦ h:隠れ状態 ◦ W,
U:重み ◦ b:バイアス Bi-RNN(Bidirectional RNN) this h s is . a pen これ は ペン です 。 結合 以降の情報
• 文脈ベクトル(context vector)をもつ • 入力と出力を異なる長さにできる • 文字の説明 ◦ h:隠れ状態 ◦
y:出力 ◦ c:文脈ベクトル Encoder-Decoder this h t is . a pen <bos> これ は は これ 文脈ベクトル 1つ前の出力 隠れ状態
• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明
◦ h~ t :Attention適用後の隠れ層 ◦ h t :隠れ層 ◦ c :文脈ベクトル ◦ b :バイアス Attention this h s h t h~ t c is . a pen <bos> これ は は
• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明
◦ t :出力の時刻 ◦ τ :入力の時刻 ◦ h s :エンコーダの隠れ層 ◦ c :文脈ベクトル ◦ a :重み attention weights Attention this h s h t h~ t c a is . a pen <bos> これ は は Attention
• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • 文字の説明
◦ t :出力の時刻 ◦ τ :入力の時刻 ◦ h s :エンコーダの隠れ層 ◦ h t :エンコーダの隠れ層 ◦ a :重み Attention this h s h t h~ t c a is . a pen <bos> これ は は Attention
• 単語間の関係性に「注目」できる • 文脈ベクトルが可変長 ◦ 長い文章でも情報が失われない ◦ 時系列情報を取り込みやすい • まとめ
◦ AttentionはEncoder-Decoderに c(t)を加えたもの ◦ cは単語と単語の関係性から 文脈ベクトルを合成する Attention this h s h t h~ t c a is . a pen <bos> これ は は Attention
まとめ • Attentionまでのseq2seq ◦ 初期段階からRNNが利用されている → ただし並列計算はできない ◦ 文章全体の意味を持つ文脈ベクトルが使われている ◦
単語間の関係性に注目する Attentionが導入された • 今後の流れ ◦ 応用的なAttentionの理解 ◦ Transformer全体の理解 ◦ Transformerから派生した モデルの理解 this h s h t h~ t c a is . a pen <bos> これ は は Attention