Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Pay Attention to MLPs

[Journal club] Pay Attention to MLPs

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le

    (Google Research, Brain Team) Pay Attention to MLPs Liu, Hanxiao, et al. "Pay Attention to MLPs." arXiv preprint arXiv:2105.08050 (2021). 慶應矩塟倧孊 杉浊孔明研究宀 ç•‘äž­é§¿å¹³
  2. 2 • Attention-free transformer の䞀皮である「gMLP」の提案 • Transformer の構造を倉曎した gate 付き

    Multi Layer Perceptron ( MLP ) のみで蚭蚈 抂芁 ✓ gMLP が珟圚の Transformer よりも優れた性胜、たたは同等の性胜を発揮 ✓ self-attention がさほど重芁な芁玠ではない
  3. 3 • Transformer [Vaswani+, NIPS2017] の出珟 − Natural Language Processing

    ( NLP ) 
 LSTM・RNN → BERT [Devlin+, NAACL2018] − Computer Vision ( CV ) 
 CNN → ViT [Dosovitskiy+, ICLR2020] • self-attention の特城 1. 再垰的ではない ( = 䞊列凊理 ) 2. token 間の空間情報を取埗 背景Transformer の出珟による NLP, CV の発展
  4. • Attention 機構のメリット [Bahdanau+, ICLR2015] − 入力デヌタの衚珟に基づいた動的なパラメヌタの 決定により、より有効な垰玍バむアスを導入可胜 − 垰玍バむアスが顕著に有効かどうか未解決

    • MLP のメリット[Hornik+, 1989] − 静的なパラメヌタで任意の関数を近䌌可胜 問題提起MLP での代替案・Attention の必芁性 • MLP で self-attention の特城を衚珟可胜か • self-attention を甚いる必芁性の是非 4
  5. 5 • 2021幎以降に MLPs が再評䟡されおいる − ただし、MLP よりも Transformer のほうが䟝然ずしお粟床がよい

    既存手法MLPs が再評䟡されおいる ( 2021幎以降 ) 既存手法 特城 Transformer BERT [Devlin+, NAACL2018] • TransformerのEncoderを䜿ったモデル • 事前孊習ずしおMLMずNSPã‚’å­Šç¿’ ViT [Dosovitskiy, ICLR2020] DeiT [Hugo+, 2020] • 画像パッチを単語のように扱う • DeiT は ViT の孊習デヌタやパラメヌタを枛らしたモデル MLP MLP-Mixer [Tolstikhin+, 2021] • 画像パッチをチャンネル方向および空間方向に関しお MLPで倉換 ResMLP [Touvron+, 2021] • 画像パッチをMLPのみでできた残差ブロックに耇数回 通しお、分類ヘッドに入力
  6. • 同䞀サむズの 𝐿 個の gMLP block で構成 • Spatial Gating

    Unit ( SGU ) − token 間の空間盞互䜜甚を取埗 • 入力 ( 出力 ) 圢匏Transformer に準ずる − 入力 ∶ sequence length 𝑛 × dimension 𝑑dim • Position embedding は䞍芁 − SGU が空間情報を取埗するため 提案手法 ( 1/4 )Overview gMLP Model 6 ① ② ③
  7. 1. Input Embedding 局で 𝑛 × 𝑑dim の次元 𝑋 に倉換

    − NLP単語をベクトル化 − CV バッチ分割 → ベクトル化 2. Normalization å±€ ( 正芏化 ) 3. Channel Projection å±€ 𝑈 − チャネル方向に線圢射圱 (𝑑dim → 𝑑ffn ) 4. Activation å±€ ( 掻性化関数 )𝜎(∙) − ここでは GeLU 関数を䜿甚 5. 𝑛 × 𝑑ffn 次元の 𝑍 を埗る 提案手法 ( 2/4 )① Input Embedding  Activation Norm Channel Proj GeLU 𝑛 𝑑dim 𝑑ffn 𝑈 𝜎(∙) 𝑍 𝑍 = 𝜎(𝑋𝑈) 𝑋 𝑛 7
  8. 6. 𝑍 を 𝑍1 , 𝑍2 に分割 − 分割方法チャネル方向に 2

    分割 7. 𝑍2 を正芏化 − 過孊習防止 8. Spatial Projection 局 𝑓𝑊,𝑏 𝑍2 = 𝑊𝑍2 + 𝑏 − 空間方向に線圢射圱 − 𝑊 重み行列 ( 𝑛 × 𝑛 ) − 𝑏 バむアス項 9. 𝑍1 ず 𝑓𝑊,𝑏 𝑍2 を結合𝑠(∙) 提案手法 ( 3/4 ) ② Spatial Gating Unit ( SGU ) 𝑠 𝑍 = 𝑍1 ⹀ 𝑓𝑊,𝑏 𝑍2 8 𝑍 Norm Spatial Proj 𝑍1 𝑍2 𝑓𝑊,𝑏 (∙) 𝑠(∙)
  9. 10. 𝑠(𝑍) を線圢射圱𝑉 − チャネル方向に射圱し、 𝑛 × 𝑑dim 次元 𝑌

    に倉換 − 𝑌 = 𝑠 𝑍 𝑉 11.Input Embedding 局の出力 𝑋 ず加算 − 出力 𝑋out は 𝑛 × 𝑑dim 次元 12.以降 gMLP block を 𝐿 局繰り返す 提案手法 ( 4/4 )③ gMLP block output 𝑠(𝑍) 𝑋out = 𝑋⚁𝑌 Channel Proj SGU Input Embedding 𝑉 (𝑛, 𝑑dim ) (𝑛, 𝑑dim ) 𝑋out 𝑌 𝑋 (𝑛, 𝑑fnn ) 9
  10. • ImageNet で画像分類タスクの性胜比范 − gMLP は3぀のサむズのモデルを甚意 ✓ DeiT ず同等な性胜 −

    self-attention は CV においお䞍芁 ✓ 他の MLP 系列の䞭で最も粟床が高い − SGU の有効性の確認 ✓ CNN モデルのほうがよい粟床 − EfficientNet [Tan+, ICML2019] − NFNet [Brock+, 2021] 結果 ( 1/3 )画像分類タスクで DeiT ず同等な性胜を獲埗 10 Model ImageNet Top1 ( % ) ConvNets EfficientNet-B0 77.1 EfficientNet-B3 81.6 EfficientNet-B7 84.3 NFNet-F0 84.3 Transformer DeiT-Ti 72.2 DeiT-S 79.8 DeiT-B 81.8 MLP-like Mixer-B/16 76.4 Mixer-L/16 71.8 ResMLP-12 76.6 ResMLP-24 79.4 ResMLP-36 79.7 gMLP-Ti ( ours ) 72.0 gMLP-S ( ours ) 79.4 gMLP-B ( ours ) 81.6
  11. • Masked Language Modeling ( MLM ) で事前孊習し、2皮類の NLP 分類タスクずその粟床を比范

    MNLI-m ✓ self-attention は scalability を達成する芁因ではない ✓ MNLI のような耇数文のタスクを扱う堎合、Transformer のほうが性胜が高い → self-attention は cross-sentence alignment に関䞎しおいるず仮定 結果 ( 2/3 )self-attention は scalability に関䞎しない どちらもグラフ の傟きが同等 11 MNLIタスクでは 粟床で䞋回る SST-2 Finetuning accuracy Finetuning accuracy Params ( log scale ) Params ( log scale )
  12. • Attention 機構は特定のタスク ( ex. MNLI ) に 有効である可胜性 •

    Attention 機構を SGU に組み蟌む − size 64 の single head-attention − gmlp × self-attention aMLP • aMLP が文レベル間の関係性をずるか確認 Ablation gMLP に Attention 機構を加える ( aMLP ) 12
  13. • 同様に、NLP の2皮類の分類タスクの粟床を比范 ( Transformer vs aMLP ) MNLI-m SST-2

    ✓ gMLP の欠点郚分を aMLP が克服 → self-attention は文レベル間の関係性に寄䞎 結果 ( 3/3 )aMLP が Transformer を粟床で䞊回る 13 MNLI タスクでも Transformerを䞊回る Finetuning accuracy Finetuning accuracy Params ( log scale ) Params ( log scale )
  14. 14 • timm ラむブラリの ImageNet 孊習枈みモデルを䜿甚 • gMLP が正しく認識・EfficientNet が誀認識した䟋

    ✓ gMLP は局所的な認識、 Efficient Net は党䜓的な認識をしおいる gMLP ず EfficientNet を実際に動かしおみた① ( 定性的結果 ) https://github.com/rwightman/pytorch-image-models.git 正解アむスキャンディ 正解瓶のキャップ EfficientNet の誀認識䟋 × ザリガニ × æ°Žç­’ EfficientNet の誀認識䟋 × トラック × 芝刈り機
  15. 15 • gMLP が誀認識・EfficientNet が正しく認識した䟋 ✓ gMLP は 物䜓が芋切れおいる or

    端に䜍眮しおいる 画像に察しお認識が匱い → CV 分野にも aMLP を甚いるこずで、画像バッチ間の関係性に泚目し改善されるのではないか gMLP ず EfficientNet を実際に動かしおみた② ( 定性的結果 ) https://github.com/rwightman/pytorch-image-models.git 正解公園のベンチ 正解テニスボヌル gMLP の誀認識䟋 × 斧 × カタツムリ gMLP の誀認識䟋 × タランチュラ × 泚射噚
  16. 16 • Attention-free transformer の䞀皮である「gMLP」の提案 • self-attention 機構は CV ではほが必芁性がない

    • NLP でも特定のタスク以倖では必芁性が䜎い たずめ SLIDE 16 ✓ self-attention は文暪断的な alignment を必芁ずするタスクに有効 ✓ gMLP のモデルを倧きくする or aMLP でTransformer ずの差を瞮小