Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
金研究室 勉強会 『Attention is all you need』
Search
winnie279
August 12, 2021
Science
0
130
金研究室 勉強会 『Attention is all you need』
Attention is all you need, Ashish et al., 2017, arXiv:1706.03762
winnie279
August 12, 2021
Tweet
Share
More Decks by winnie279
See All by winnie279
「みえるーむ」(都知事杯Open Data Hackathon 2024 Final Stage)
yjn279
0
57
「みえるーむ」(都知事杯オープンデータ・ハッカソン 2024)
yjn279
0
63
5分で学ぶOpenAI APIハンズオン
yjn279
0
200
『確率思考の戦略論』
yjn279
0
130
Amazonまでのレコメンド入門
yjn279
1
160
もう一度理解するTransformer(後編)
yjn279
0
79
金研究室 勉強会 『もう一度理解する Transformer(前編)』
yjn279
0
100
金研究室 勉強会 『U-Netとそのバリエーションについて』
yjn279
0
630
金研究室 勉強会 『Seismic Data Augmentation Based on Conditional Generative Adversarial Networks』
yjn279
0
95
Other Decks in Science
See All in Science
Hakonwa-Quaternion
hiranabe
1
120
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
210
Trend Classification of InSAR Displacement Time Series Using SAE–CNN
satai
3
520
SpatialBiologyWestCoastUS2024
lcolladotor
0
170
Ignite の1年間の軌跡
ktombow
0
140
生成AIと学ぶPythonデータ分析再入門-Pythonによるクラスタリング・可視化をサクサク実施-
datascientistsociety
PRO
4
1.7k
コンピュータビジョンによるロボットの視覚と判断:宇宙空間での適応と課題
hf149
0
260
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
400
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
460
機械学習 - K-means & 階層的クラスタリング
trycycle
PRO
0
1k
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
310
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
140
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Making Projects Easy
brettharned
117
6.3k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.5k
Why Our Code Smells
bkeepers
PRO
337
57k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
The Cult of Friendly URLs
andyhume
79
6.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
8
550
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
Thoughts on Productivity
jonyablonski
69
4.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
Transcript
Attention Is All You Need Ashish et al., 2017, arXiv:1706.03762
金研 機械学習勉強会 2021/08/12 中村勇士
Transformerとは? • RNNの問題点 ◦ 長い入力が苦手 ◦ 勾配消失問題が起こりやすい ◦ 並列化が困難 →
GPUによる学習の効率化・大量のデータによる学習が困難 • Transformerによる解決 ◦ 再帰や畳み込みを使用しない ◦ 大規模なモデル・データを使用可能 ◦ 精度の大幅な向上
EQTransformerとの関係 • Transformerをそのまま使用していない ◦ attentionをレイヤーと使用 • 疑問 ◦ Transformerの強み: 再帰や畳み込みをしないこと
◦ LSTM・Convを使って良いのか?
モデル • エンコーダ・デコーダ • Attention • フィード・フォワード・ネットワーク(FFW) • 埋め込み •
ポジショナル・エンコーディング
モデル:エンコーダ・デコーダ
• エンコーダ(左) ◦ input ◦ N = 6 • デコーダ(右)
◦ output ◦ N = 6 モデル:エンコーダ・デコーダ input からの 出力
モデル:埋め込み / ポジショナル・エンコーディング • 埋め込み:単語のベクトル化 ◦ • ポジショナル・エンコーディング ◦ 構造のベクトル化
◦ 再帰や畳み込みの必要がなくなる ◦ モデルの学習が容易になる pos: 単語の順番, i: 次元, d model : 全体の次元数
モデル:Attention • 単語間の相関を表す ◦ どの単語がどの単語に 着目してるか • Q:query • K:key
• V:value • d k :dimention
Transformerの活用 • 自然言語処理(NLP) ◦ BERT ◦ GPT-3 ◦ DALL・E(テキストから画像生成) •
その他 ◦ 地震学:EQTransformer(地震動検出・フェーズピック) ◦ 生物学:AlphaFold2(タンパク質の構造予測) ◦ 音楽:Music Transformer(作曲)
おまけ • Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する ◦ AINOW ◦ https://ainow.ai/2021/06/25/256107 • The Illustrated
Transformer ◦ Jay Alammar ◦ http://jalammar.github.io/illustrated-transformer • Embedding Projector ◦ http://projector.tensorflow.org/
モデル:フィード・フォワード・ネットワーク(FFW) • FFW ◦ 2つの線形変換 ◦ ReLU • 学習 ◦
英独:450万の文, 37,000のトークン ◦ 英仏: