Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Liu et al., 2021. Pay Attention to MLPs. arXiv

F16d24f8c3767910d0ef9dd3093ae016?s=47 tosho
May 27, 2021

Liu et al., 2021. Pay Attention to MLPs. arXiv

F16d24f8c3767910d0ef9dd3093ae016?s=128

tosho

May 27, 2021
Tweet

Transcript

  1. Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.

    So, Quoc V. Le 紹介者:平澤 寅庄 東京都立大学大学院 小町研究室 D1 2021年5月27日 @論文読み会
  2. Make MLPs Great Again! 『ステート・オブ・AI ガイド』より引用 https://ja.stateofaiguides.com/20210524-beginning-of-mlp-era/ 2

  3. 多層パーセプトロン (Multi Layer Perceptron; MLP) 複数のパーセプトロンを積み上げたニューラルネットワーク 1層のパーセプトロン 2層のマルチレイヤー・パーセプトロン 入力は任意のスカラー値の系列を取る。 例)特徴量の集合、単語分散表現、

    etc ... 出力は入力の重み付き和 3
  4. トランスフォーマー(Transformer) Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head

    Attention を導入することで、 全トークンの状態を並列で計算すること ができるようになった ◦ 各位置の状態は入力されるベクトル列の 重み付き和(重み=Attention)で計算する ◦ それまで主流だった RNN(再帰ニューラル ネットワーク)は順番にトークンごとの 状態を計算する必要があった • Positional Encoding でトークンの位置情報を組み込む • BERT的言語モデルは Encoder 側のみを使う Encoder Decoder 重みを計算 4
  5. 画像認識 画像に写っているのもを識別する技術 粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation

    画像認識で最も有名なデータセット • 1400 万枚の画像を 22,000 のクラスに分類 ◦ WordNet に基づいてラベルを設定 • コンペでは 1000 クラス分類(ImageNet-1K) cat Image Classification 5
  6. BERT 的言語モデル 6

  7. gMLP 7

  8. gMLP Layer Norm. Feed-Forward Activation NEW!! Feed-Forward Spatial Gating Unit

    No position embeddings 8
  9. Spatial Gating Unit トークン間インタラクションを担うモジュール 入力を分割 {する|しない} パーセプトロン(系列方向) 要素積 x1 x2

    x3 x4 u1 u2 u3 u4 v1 v2 v3 v4 v1 v2 v3 v4 s1 s2 s3 s4 ⊙ W Gate 9
  10. Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~

    Params) • Transformer ベースと同等の性能 • 他の MLP ベースより良い 10
  11. Image Classification - Spatial projection weight 重みに制約を加えていないのにも関わらず、 2D の畳み込みに似た重みになっている。 11

  12. Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT

    BERT モデル • + rel pos Positional encoding ➜ Relative positional encoding • + rel pos - attn MHA の content-dependent term を削除 Attention の計算 • Transformer ベースのモデルと同等の性能( ppl)を達成した • Spatial Gate Unit は Split + Multiplicative がよい 12
  13. MLM with BERT - Spatial filter analysis 13

  14. MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1

    v2 v3 v4 Gate を計算するときにどの要素を 見ているかを表している。 14
  15. MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 15

  16. MLM - Model Size 16

  17. MLM - Model Size 17

  18. MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では

    Transformer がよい 18
  19. MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では

    Transformer がよい 長距離の依存関係があるタスクでは Attention が有効 ➜ 小さな Attention 機構の導入 19
  20. aMLP 小規模な Attention 機構を Spatial Gating Unit に導入する 20

  21. aMLP - PPL vs Downstream Task Perf. MNLI-m での性能 が改善した。

    21
  22. aMLP - Params vs Perf. 22

  23. MLM - Main results 23

  24. Conclusion • Attention は小規模なもので十分で、タスクによっては不要である • ゲート付き MLP(gMLP)でも、Transformer に匹敵する性能がある • 文間の関係を捉えることが重要なタスクでは、attention

    が重要な働きをする 24