Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Liu et al., 2021. Pay Attention to MLPs. arXiv
Search
tosho
May 27, 2021
Research
0
170
Liu et al., 2021. Pay Attention to MLPs. arXiv
https://arxiv.org/abs/2105.08050
tosho
May 27, 2021
Tweet
Share
More Decks by tosho
See All by tosho
Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation
tosho
0
310
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation
tosho
0
360
Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021
tosho
0
120
Huang et al. 2020 Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting
tosho
0
480
Ive, Madhyastha, Specia_2019_EMNLP_Deep Copycat Networks for Text-to-Text Generation
tosho
0
150
Tan, Bansal_2019_EMNLP_LXMERT Learning Cross-Modality Encoder Representations from Transformers
tosho
0
240
Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences
tosho
0
400
Zhou et al. 2019. Density Matching for Bilingual Word Embedding. NAACL
tosho
3
300
Oral: Multimodal Machine Translation with Embedding Prediction
tosho
0
99
Other Decks in Research
See All in Research
論文紹介:Not All Tokens Are What You Need for Pretraining
kosuken
1
220
長期・短期メモリを活用したエージェントの個別最適化
isidaitc
0
320
Unsupervised Domain Adaptation Architecture Search with Self-Training for Land Cover Mapping
satai
3
370
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
320
大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models
tsurubee
1
440
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
710
財務諸表監査のための逐次検定
masakat0
0
210
POI: Proof of Identity
katsyoshi
0
120
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
990
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
15
8k
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
250
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
270
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
58
6.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.8k
The Cult of Friendly URLs
andyhume
79
6.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
Docker and Python
trallard
47
3.7k
Become a Pro
speakerdeck
PRO
31
5.7k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Unsuck your backbone
ammeep
671
58k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
Transcript
Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.
So, Quoc V. Le 紹介者:平澤 寅庄 東京都立大学大学院 小町研究室 D1 2021年5月27日 @論文読み会
Make MLPs Great Again! 『ステート・オブ・AI ガイド』より引用 https://ja.stateofaiguides.com/20210524-beginning-of-mlp-era/ 2
多層パーセプトロン (Multi Layer Perceptron; MLP) 複数のパーセプトロンを積み上げたニューラルネットワーク 1層のパーセプトロン 2層のマルチレイヤー・パーセプトロン 入力は任意のスカラー値の系列を取る。 例)特徴量の集合、単語分散表現、
etc ... 出力は入力の重み付き和 3
トランスフォーマー(Transformer) Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head
Attention を導入することで、 全トークンの状態を並列で計算すること ができるようになった ◦ 各位置の状態は入力されるベクトル列の 重み付き和(重み=Attention)で計算する ◦ それまで主流だった RNN(再帰ニューラル ネットワーク)は順番にトークンごとの 状態を計算する必要があった • Positional Encoding でトークンの位置情報を組み込む • BERT的言語モデルは Encoder 側のみを使う Encoder Decoder 重みを計算 4
画像認識 画像に写っているのもを識別する技術 粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation
画像認識で最も有名なデータセット • 1400 万枚の画像を 22,000 のクラスに分類 ◦ WordNet に基づいてラベルを設定 • コンペでは 1000 クラス分類(ImageNet-1K) cat Image Classification 5
BERT 的言語モデル 6
gMLP 7
gMLP Layer Norm. Feed-Forward Activation NEW!! Feed-Forward Spatial Gating Unit
No position embeddings 8
Spatial Gating Unit トークン間インタラクションを担うモジュール 入力を分割 {する|しない} パーセプトロン(系列方向) 要素積 x1 x2
x3 x4 u1 u2 u3 u4 v1 v2 v3 v4 v1 v2 v3 v4 s1 s2 s3 s4 ⊙ W Gate 9
Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~
Params) • Transformer ベースと同等の性能 • 他の MLP ベースより良い 10
Image Classification - Spatial projection weight 重みに制約を加えていないのにも関わらず、 2D の畳み込みに似た重みになっている。 11
Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT
BERT モデル • + rel pos Positional encoding ➜ Relative positional encoding • + rel pos - attn MHA の content-dependent term を削除 Attention の計算 • Transformer ベースのモデルと同等の性能( ppl)を達成した • Spatial Gate Unit は Split + Multiplicative がよい 12
MLM with BERT - Spatial filter analysis 13
MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1
v2 v3 v4 Gate を計算するときにどの要素を 見ているかを表している。 14
MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 15
MLM - Model Size 16
MLM - Model Size 17
MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では
Transformer がよい 18
MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では
Transformer がよい 長距離の依存関係があるタスクでは Attention が有効 ➜ 小さな Attention 機構の導入 19
aMLP 小規模な Attention 機構を Spatial Gating Unit に導入する 20
aMLP - PPL vs Downstream Task Perf. MNLI-m での性能 が改善した。
21
aMLP - Params vs Perf. 22
MLM - Main results 23
Conclusion • Attention は小規模なもので十分で、タスクによっては不要である • ゲート付き MLP(gMLP)でも、Transformer に匹敵する性能がある • 文間の関係を捉えることが重要なタスクでは、attention
が重要な働きをする 24