Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Liu et al., 2021. Pay Attention to MLPs. arXiv
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tosho
May 27, 2021
Research
190
0
Share
Liu et al., 2021. Pay Attention to MLPs. arXiv
https://arxiv.org/abs/2105.08050
tosho
May 27, 2021
More Decks by tosho
See All by tosho
Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation
tosho
0
320
Good for Misconceived Reasons: An Empirical Revisiting on the Need for Visual Context in Multimodal Machine Translation
tosho
0
380
Shaham and Levy, 2021. Neural Machine Translation without Embeddings. NAACL2021
tosho
0
130
Huang et al. 2020 Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting
tosho
0
490
Ive, Madhyastha, Specia_2019_EMNLP_Deep Copycat Networks for Text-to-Text Generation
tosho
0
170
Tan, Bansal_2019_EMNLP_LXMERT Learning Cross-Modality Encoder Representations from Transformers
tosho
0
270
Tsai et al._2019_ACL_Multimodal Transformer for Unaligned Multimodal Language Sequences
tosho
0
440
Zhou et al. 2019. Density Matching for Bilingual Word Embedding. NAACL
tosho
3
320
Oral: Multimodal Machine Translation with Embedding Prediction
tosho
0
110
Other Decks in Research
See All in Research
LLM Compute Infrastructure Overview
karakurist
2
1.4k
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
170
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
620
PGDM: Physically Guided Diffusion Model for L Downscaling
satai
0
230
Research Engineerという仕事 / Research Engineering: Bridging Research and Business
chck
1
180
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
160
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
110
[BlackHatAsia2026] Hidden Telemetry: Uncovering TraceLogging ETW Providers You're Not Using (Yet)
asuna_jp
1
470
Sequences of Logits Reveal the Low Rank Structure of Language Models
sansantech
PRO
1
260
SAKURAONE:An Open Ethernet-based AI HPC System And Its Observed Workload Dynamicsin a Single-Tenant LLM Development Environment
yuukit
1
280
Collective Predictive Coding and World Models in LLMs: A System 0/1/2/3 Perspective on Hierarchical Physical AI (IEEE SII 2026 Plenary Talk)
tanichu
1
410
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
300
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Color Theory Basics | Prateek | Gurzu
gurzu
0
320
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
360
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Designing Powerful Visuals for Engaging Learning
tmiket
1
390
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
830
The Cult of Friendly URLs
andyhume
79
6.9k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
470
Transcript
Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.
So, Quoc V. Le 紹介者:平澤 寅庄 東京都立大学大学院 小町研究室 D1 2021年5月27日 @論文読み会
Make MLPs Great Again! 『ステート・オブ・AI ガイド』より引用 https://ja.stateofaiguides.com/20210524-beginning-of-mlp-era/ 2
多層パーセプトロン (Multi Layer Perceptron; MLP) 複数のパーセプトロンを積み上げたニューラルネットワーク 1層のパーセプトロン 2層のマルチレイヤー・パーセプトロン 入力は任意のスカラー値の系列を取る。 例)特徴量の集合、単語分散表現、
etc ... 出力は入力の重み付き和 3
トランスフォーマー(Transformer) Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head
Attention を導入することで、 全トークンの状態を並列で計算すること ができるようになった ◦ 各位置の状態は入力されるベクトル列の 重み付き和(重み=Attention)で計算する ◦ それまで主流だった RNN(再帰ニューラル ネットワーク)は順番にトークンごとの 状態を計算する必要があった • Positional Encoding でトークンの位置情報を組み込む • BERT的言語モデルは Encoder 側のみを使う Encoder Decoder 重みを計算 4
画像認識 画像に写っているのもを識別する技術 粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation
画像認識で最も有名なデータセット • 1400 万枚の画像を 22,000 のクラスに分類 ◦ WordNet に基づいてラベルを設定 • コンペでは 1000 クラス分類(ImageNet-1K) cat Image Classification 5
BERT 的言語モデル 6
gMLP 7
gMLP Layer Norm. Feed-Forward Activation NEW!! Feed-Forward Spatial Gating Unit
No position embeddings 8
Spatial Gating Unit トークン間インタラクションを担うモジュール 入力を分割 {する|しない} パーセプトロン(系列方向) 要素積 x1 x2
x3 x4 u1 u2 u3 u4 v1 v2 v3 v4 v1 v2 v3 v4 s1 s2 s3 s4 ⊙ W Gate 9
Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~
Params) • Transformer ベースと同等の性能 • 他の MLP ベースより良い 10
Image Classification - Spatial projection weight 重みに制約を加えていないのにも関わらず、 2D の畳み込みに似た重みになっている。 11
Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT
BERT モデル • + rel pos Positional encoding ➜ Relative positional encoding • + rel pos - attn MHA の content-dependent term を削除 Attention の計算 • Transformer ベースのモデルと同等の性能( ppl)を達成した • Spatial Gate Unit は Split + Multiplicative がよい 12
MLM with BERT - Spatial filter analysis 13
MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1
v2 v3 v4 Gate を計算するときにどの要素を 見ているかを表している。 14
MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 15
MLM - Model Size 16
MLM - Model Size 17
MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では
Transformer がよい 18
MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では
Transformer がよい 長距離の依存関係があるタスクでは Attention が有効 ➜ 小さな Attention 機構の導入 19
aMLP 小規模な Attention 機構を Spatial Gating Unit に導入する 20
aMLP - PPL vs Downstream Task Perf. MNLI-m での性能 が改善した。
21
aMLP - Params vs Perf. 22
MLM - Main results 23
Conclusion • Attention は小規模なもので十分で、タスクによっては不要である • ゲート付き MLP(gMLP)でも、Transformer に匹敵する性能がある • 文間の関係を捉えることが重要なタスクでは、attention
が重要な働きをする 24