Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Liu et al., 2021. Pay Attention to MLPs. arXiv

tosho
May 27, 2021

Liu et al., 2021. Pay Attention to MLPs. arXiv

tosho

May 27, 2021
Tweet

More Decks by tosho

Other Decks in Research

Transcript

  1. Pay Attention to MLPs Hanxiao Liu, Zihang Dai, David R.

    So, Quoc V. Le 紹介者:平澤 寅庄 東京都立大学大学院 小町研究室 D1 2021年5月27日 @論文読み会
  2. トランスフォーマー(Transformer) Vaswani et al., 2017 が提案した Encoder-Decoder 系列変換モデル • Multi-Head

    Attention を導入することで、 全トークンの状態を並列で計算すること ができるようになった ◦ 各位置の状態は入力されるベクトル列の 重み付き和(重み=Attention)で計算する ◦ それまで主流だった RNN(再帰ニューラル ネットワーク)は順番にトークンごとの 状態を計算する必要があった • Positional Encoding でトークンの位置情報を組み込む • BERT的言語モデルは Encoder 側のみを使う Encoder Decoder 重みを計算 4
  3. 画像認識 画像に写っているのもを識別する技術 粒度により様々なタスクがある cat Image Localization Object Detection Instance Segmentation

    画像認識で最も有名なデータセット • 1400 万枚の画像を 22,000 のクラスに分類 ◦ WordNet に基づいてラベルを設定 • コンペでは 1000 クラス分類(ImageNet-1K) cat Image Classification 5
  4. Image Classification ImageNet-1K の Accuracy@1 MAdds (B) : 計算コスト (~

    Params) • Transformer ベースと同等の性能 • 他の MLP ベースより良い 10
  5. Masked Language Mode with BERT C4 データセットを使い、MLM で学習する。 • BERT

    BERT モデル • + rel pos Positional encoding ➜ Relative positional encoding • + rel pos - attn MHA の content-dependent term を削除 Attention の計算 • Transformer ベースのモデルと同等の性能( ppl)を達成した • Spatial Gate Unit は Split + Multiplicative がよい 12
  6. MLM with BERT - Spatial filter analysis • 基本的には近いところしか見ていない。 v1

    v2 v3 v4 Gate を計算するときにどの要素を 見ているかを表している。 14
  7. MLM - Model Size SST-2 (感情分析)では gMLP がよい MNLI-m (推論)では

    Transformer がよい 長距離の依存関係があるタスクでは Attention が有効 ➜ 小さな Attention 機構の導入 19