Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
金研究室 勉強会 『Attention is all you need』
Search
winnie279
August 12, 2021
Science
0
98
金研究室 勉強会 『Attention is all you need』
Attention is all you need, Ashish et al., 2017, arXiv:1706.03762
winnie279
August 12, 2021
Tweet
Share
More Decks by winnie279
See All by winnie279
「みえるーむ」(都知事杯Open Data Hackathon 2024 Final Stage)
yjn279
0
17
「みえるーむ」(都知事杯オープンデータ・ハッカソン 2024)
yjn279
0
21
5分で学ぶOpenAI APIハンズオン
yjn279
0
150
『確率思考の戦略論』
yjn279
0
100
Amazonまでのレコメンド入門
yjn279
1
120
もう一度理解するTransformer(後編)
yjn279
0
48
金研究室 勉強会 『もう一度理解する Transformer(前編)』
yjn279
0
37
金研究室 勉強会 『U-Netとそのバリエーションについて』
yjn279
0
270
金研究室 勉強会 『Seismic Data Augmentation Based on Conditional Generative Adversarial Networks』
yjn279
0
48
Other Decks in Science
See All in Science
General Parasitology
uni_of_nomi
0
120
Machine Learning for Materials (Lecture 9)
aronwalsh
0
210
Mechanistic Interpretability の紹介
sohtakahashi
0
350
[第62回 CV勉強会@関東] Long-CLIP: Unlocking the Long-Text Capability of CLIP / kantoCV 62th ECCV 2024
lychee1223
1
680
Machine Learning for Materials (Lecture 8)
aronwalsh
0
410
(2024) Livres, Femmes et Math
mansuy
0
110
理論計算機科学における 数学の応用: 擬似ランダムネス
nobushimi
1
340
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.5k
証明支援系LEANに入門しよう
unaoya
0
360
学術講演会中央大学学員会八王子支部
tagtag
0
230
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024
yuya4
3
230
様々な侵入者タイプに対応した適切な警備計画の策定 / Patrol route design considering various types of intrudes
konakalab
0
200
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
720
Agile that works and the tools we love
rasmusluckow
327
21k
GraphQLとの向き合い方2022年版
quramy
43
13k
Code Review Best Practice
trishagee
64
17k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Designing for Performance
lara
604
68k
The Cult of Friendly URLs
andyhume
78
6k
Speed Design
sergeychernyshev
25
620
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
27
4.3k
Documentation Writing (for coders)
carmenintech
65
4.4k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Transcript
Attention Is All You Need Ashish et al., 2017, arXiv:1706.03762
金研 機械学習勉強会 2021/08/12 中村勇士
Transformerとは? • RNNの問題点 ◦ 長い入力が苦手 ◦ 勾配消失問題が起こりやすい ◦ 並列化が困難 →
GPUによる学習の効率化・大量のデータによる学習が困難 • Transformerによる解決 ◦ 再帰や畳み込みを使用しない ◦ 大規模なモデル・データを使用可能 ◦ 精度の大幅な向上
EQTransformerとの関係 • Transformerをそのまま使用していない ◦ attentionをレイヤーと使用 • 疑問 ◦ Transformerの強み: 再帰や畳み込みをしないこと
◦ LSTM・Convを使って良いのか?
モデル • エンコーダ・デコーダ • Attention • フィード・フォワード・ネットワーク(FFW) • 埋め込み •
ポジショナル・エンコーディング
モデル:エンコーダ・デコーダ
• エンコーダ(左) ◦ input ◦ N = 6 • デコーダ(右)
◦ output ◦ N = 6 モデル:エンコーダ・デコーダ input からの 出力
モデル:埋め込み / ポジショナル・エンコーディング • 埋め込み:単語のベクトル化 ◦ • ポジショナル・エンコーディング ◦ 構造のベクトル化
◦ 再帰や畳み込みの必要がなくなる ◦ モデルの学習が容易になる pos: 単語の順番, i: 次元, d model : 全体の次元数
モデル:Attention • 単語間の相関を表す ◦ どの単語がどの単語に 着目してるか • Q:query • K:key
• V:value • d k :dimention
Transformerの活用 • 自然言語処理(NLP) ◦ BERT ◦ GPT-3 ◦ DALL・E(テキストから画像生成) •
その他 ◦ 地震学:EQTransformer(地震動検出・フェーズピック) ◦ 生物学:AlphaFold2(タンパク質の構造予測) ◦ 音楽:Music Transformer(作曲)
おまけ • Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する ◦ AINOW ◦ https://ainow.ai/2021/06/25/256107 • The Illustrated
Transformer ◦ Jay Alammar ◦ http://jalammar.github.io/illustrated-transformer • Embedding Projector ◦ http://projector.tensorflow.org/
モデル:フィード・フォワード・ネットワーク(FFW) • FFW ◦ 2つの線形変換 ◦ ReLU • 学習 ◦
英独:450万の文, 37,000のトークン ◦ 英仏: