Liu et al., 2021. Pay Attention to MLPs. arXiv

Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.
So, Quoc V. Le 紹介者：平澤寅庄東京都立大学大学院小町研究室 D1 2021年5月27日 @論文読み会

Make MLPs Great Again! 『ステート・オブ・AI ガイド』より引用 https://ja.stateofaiguides.com/20210524-beginning-of-mlp-era/ 2

多層パーセプトロン (Multi Layer Perceptron; MLP) 複数のパーセプトロンを積み上げたニューラルネットワーク１層のパーセプトロン２層のマルチレイヤー・パーセプトロン入力は任意のスカラー値の系列を取る。例）特徴量の集合、単語分散表現、
etc ... 出力は入力の重み付き和 3

トランスフォーマー（Transformer） Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head
Attention を導入することで、全トークンの状態を並列で計算することができるようになった ◦ 各位置の状態は入力されるベクトル列の重み付き和（重み＝Attention）で計算する ◦ それまで主流だった RNN（再帰ニューラルネットワーク）は順番にトークンごとの状態を計算する必要があった • Positional Encoding でトークンの位置情報を組み込む • BERT的言語モデルは Encoder 側のみを使う Encoder Decoder 重みを計算 4

画像認識画像に写っているのもを識別する技術粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation
画像認識で最も有名なデータセット • 1400 万枚の画像を 22,000 のクラスに分類 ◦ WordNet に基づいてラベルを設定 • コンペでは 1000 クラス分類（ImageNet-1K) cat Image Classification 5

BERT 的言語モデル 6

gMLP 7

gMLP Layer Norm. Feed-Forward Activation NEW!! Feed-Forward Spatial Gating Unit
No position embeddings 8

Spatial Gating Unit トークン間インタラクションを担うモジュール入力を分割 {する|しない} パーセプトロン（系列方向）要素積 x1 x2
x3 x4 u1 u2 u3 u4 v1 v2 v3 v4 v1 v2 v3 v4 s1 s2 s3 s4 ⊙ W Gate 9

Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~
Params) • Transformer ベースと同等の性能 • 他の MLP ベースより良い 10

Image Classification - Spatial projection weight 重みに制約を加えていないのにも関わらず、 2D の畳み込みに似た重みになっている。 11

Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT
BERT モデル • + rel pos Positional encoding ➜ Relative positional encoding • + rel pos - attn MHA の content-dependent term を削除 Attention の計算 • Transformer ベースのモデルと同等の性能（ ppl）を達成した • Spatial Gate Unit は Split + Multiplicative がよい 12

MLM with BERT - Spatial filter analysis 13

MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1
v2 v3 v4 Gate を計算するときにどの要素を見ているかを表している。 14

MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 15

MLM - Model Size 16

MLM - Model Size 17

MLM - Model Size SST-2 (感情分析）では gMLP がよい MNLI-m (推論）では
Transformer がよい 18

MLM - Model Size SST-2 (感情分析）では gMLP がよい MNLI-m (推論）では
Transformer がよい長距離の依存関係があるタスクでは Attention が有効 ➜ 小さな Attention 機構の導入 19

aMLP 小規模な Attention 機構を Spatial Gating Unit に導入する 20

aMLP - PPL vs Downstream Task Perf. MNLI-m での性能が改善した。
21

aMLP - Params vs Perf. 22

MLM - Main results 23

Conclusion • Attention は小規模なもので十分で、タスクによっては不要である • ゲート付き MLP（gMLP）でも、Transformer に匹敵する性能がある • 文間の関係を捉えることが重要なタスクでは、attention
が重要な働きをする 24

Liu et al., 2021. Pay Attention to MLPs. arXiv

Liu et al., 2021. Pay Attention to MLPs. arXiv

tosho

More Decks by tosho

Other Decks in Research

Featured

Transcript

Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.

Make MLPs Great Again! 『ステート・オブ・AI ガイド』より引用 https://ja.stateofaiguides.com/20210524-beginning-of-mlp-era/ 2

トランスフォーマー（Transformer） Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head

画像認識画像に写っているのもを識別する技術粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation

BERT 的言語モデル 6

gMLP 7

gMLP Layer Norm. Feed-Forward Activation NEW!! Feed-Forward Spatial Gating Unit

Spatial Gating Unit トークン間インタラクションを担うモジュール入力を分割 {する|しない} パーセプトロン（系列方向）要素積 x1 x2

Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~

Image Classification - Spatial projection weight 重みに制約を加えていないのにも関わらず、 2D の畳み込みに似た重みになっている。 11

Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT

MLM with BERT - Spatial filter analysis 13

MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1

MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 15

MLM - Model Size 16

MLM - Model Size 17

MLM - Model Size SST-2 (感情分析）では gMLP がよい MNLI-m (推論）では

MLM - Model Size SST-2 (感情分析）では gMLP がよい MNLI-m (推論）では

aMLP 小規模な Attention 機構を Spatial Gating Unit に導入する 20

aMLP - PPL vs Downstream Task Perf. MNLI-m での性能が改善した。

aMLP - Params vs Perf. 22

MLM - Main results 23

Conclusion • Attention は小規模なもので十分で、タスクによっては不要である • ゲート付き MLP（gMLP）でも、Transformer に匹敵する性能がある • 文間の関係を捉えることが重要なタスクでは、attention