Slide 1

Slide 1 text

Incorporating Convolution Designs into Visual Transformers 第六回 全⽇本コンピュータビジョン勉強会 発表者:阿部⽥将史(@ground0state)

Slide 2

Slide 2 text

2 ⾃⼰紹介:阿部⽥ 将史 • 某SIerのデータサイエンティスト • 最近の興味 • 画像の異常検知 • ニューラルネットワークに適切な帰納バイアスを取り 込むにはどのような構造を導⼊すればよいか • その他 • E資格2021#1取得しました • 全⽇本コンピュータビジョン勉強会 初参加です

Slide 3

Slide 3 text

3 アジェンダ • 論⽂情報 • 概要 • 事前知識 • 提案⼿法 • 実験 • 結論 • 所感

Slide 4

Slide 4 text

4 論⽂情報 タイトル Incorporating Convolution Designs into Visual Transformers 著者 Kun Yuan1, Shaopeng Guo1, Ziwei Liu2, Aojun Zhou1, Fengwei Yu1, Wei Wu1 1SenseTime Research , 2S-Lab, Nanyang Technological University

Slide 5

Slide 5 text

5 概要 • Vision Transformer (ViT) の⽋点 • 画像の学習に有効なバイアスを持っていないため、ViTを学習させるためには⼤量のデータが必要。 • ViTの改良版であるDeiTを学習させるには、蒸留元となるCNNモデルが必要。 • Vision Transformer (ViT) の⽋点を改善する Convolution-enhanced image Transformer (CeiT) を提案。 • 局所特徴を抽出するCNNの利点と、⻑距離の依存関係を確⽴するTransformerの利点を組み合わせた。 • ⼤量の学習データや追加のCNN教師を必要とせずに、従来のTransformerや最新のCNNと⽐較して、 CeiTの有効性と汎化能⼒を⽰した。

Slide 6

Slide 6 text

事前知識

Slide 7

Slide 7 text

7 Vision Transformer (ViT) • 画像パッチに分割し、パッチを単語とみなして Transformer に⼊⼒する。 𝑥 ∈ ℝ!×#×$ 𝑥% ∈ ℝ&× '!⋅$ , 𝑁 = 𝐻𝑊/𝑃) 𝑥* ∈ ℝ(&,-)×/ MLPは2層で 活性化関数にGELUを採⽤ NormがMSAの先に来る ※ 画像は2から引⽤ 𝑃! ⋅ 3 を𝐶に射影

Slide 8

Slide 8 text

8 Data-efficient image Transformers (DeiT) • 中規模なデータセット(ViTでは数億例だったのに対し120万程度)で、⽐較的短い学習量でTransformerを学 習できる。 • RegNetY を教師ネットとして蒸留を⾏う。 Soft distillation Hard distillation ※ 画像は3から引⽤

Slide 9

Slide 9 text

9 Fixing the train-test resolution discrepancy • 標準的なオーグメンテーションでは、テスト時よりもトレーニング時の⽅が⼤きくなってしまう(⾚枠)。 • トレーニング時の解像度を下げるか、テスト時の解像度を上げるかすることで、⾺は訓練時とテスト時で 同じ⼤きさになり、ニューラルネットが獲得すべきスケール不変性が少なくて済む。 テストのサイズを⼤きくする 訓練の サイズ を⼩さく する ※ 画像は7から引⽤

Slide 10

Slide 10 text

提案⼿法

Slide 11

Slide 11 text

11 問題提起 • Convolutionを全て取り除くことは良いことなのか? • Transformer は CNN の 帰納バイアス(inductive biases) を持っていない。⼗分なデータがないと汎 化しない。 • DeiT はCNNを蒸留元として、CNN の帰納バイアスを継承しているのではないか。 • CNNの特徴はなんであったか? • 並進不変性(カーネルの重み共有に起因) • 局所性(局所受容野) • Transformer はCNNの特徴を持っていない。 ① Transformerはコーナーやエッジといった基本特徴を取り出すのが難しい。 ② Self-Attention はロングレンジ(トークン)の相関をとるのであって、空間次元の局所相関はとれ ない。 … トークン間相関 ※ 画像は2から引⽤

Slide 12

Slide 12 text

12 Convolution-enhanced image Transformer (CeiT) ① Transformerはコーナーやエッジといった基本特徴を取り出すのが難しい。 → Image-to-Tokens (I2T) module と呼ばれるCNNを含むモジュールを導⼊し、低レベル特徴を抽出。 ② Self-Attention はロングレンジ(トークン)の相関をとるのであって、空間次元の局所相関はとれない。 → Locally-enhanced Feed- Forward (LeFF) module で、空間次元の近傍のトークン間の相関を促す。 さらに、 Layer-wise Class token Attention (LCA) module を使⽤して各層で抽出した表現に Attention を適 ⽤し、最終的な表現を得る。

Slide 13

Slide 13 text

13 Image-to-Tokens (I2T) module low-level feature を取り出すために、CNNを使⽤する。畳み込みで画像が⼩さくなった分、パッチのサイズ も⼩さくする。論⽂中では 𝑆 = 4 となるようにカーネルサイズとストライドを設定。 𝑥0 = I2T 𝑥 = MaxPool ∘ BN ∘ Conv(𝑥) ※ 画像は1から引⽤、加筆 𝑥′ ∈ ℝ # 1 × ! 1 ×2 𝑥% ′ ∈ ℝ&× ' 1 ⋅ ' 1 ⋅2 ViT CeiT

Slide 14

Slide 14 text

14 Locally-enhanced Feed-Forward Network (LeFF) module Transformer の Feed-Forward Network に、トークン間の畳み込みを導⼊することで、空間次元の局所相関 を取り込めるようにした。 𝑥% & ∈ ℝ(()*)×- 𝑥. & ∈ ℝ(×- 𝑥/ & ∈ ℝ- 𝑥. 0! ∈ ℝ(×(1×-) 𝑥. 2 ∈ ℝ (× (×(1×-) 𝑥. 3 ∈ ℝ (× (×(1×-) チャンネル⽅向の計算を⾏わない 𝑥. 4 ∈ ℝ(×(1×-) 𝑥. 0" ∈ ℝ(×- 𝑥% &)* ∈ ℝ(()*)×- patch 重みのある層のあとにはBNとGELUを適⽤ ※ 画像は1から引⽤、加筆

Slide 15

Slide 15 text

15 Layer-wise Class-Token Attention (LCA) module Transformer でも層を重ねると受容野が広がっていくため、各層で抽出される特徴は異なる。これらの特徴を Self-Attentionで統合する。 通常のFeedforward Network 最後のレイヤーと他のレイヤーの相関のみ 使⽤するため𝒪(𝑁) ※ 画像は1から引⽤、加筆

Slide 16

Slide 16 text

実験

Slide 17

Slide 17 text

17 Network Architectures 埋め込み次元、MSAのヘッド数が異なるモデルを3つ作成し⽐較する。 I2Tで画像を1/4にまで落とし、チャンネルを32に増幅。パッチサイズは𝑃 = 4として埋め込み。 Conv (224, 224, 3) -> (56, 56, 32) Embedding (56, 56, 32) -> (196, 4, 4, 32) -> (196, 512) LeFF patch (196, 512) -> (14, 14, e×512) ※ 画像は1から引⽤ Conv (384, 384, 3) -> (96, 96, 32) Embedding (96, 96, 32) -> (576, 4, 4, 32) -> (576, 512) LeFF patch (576, 512) -> (24, 24, e×512)

Slide 18

Slide 18 text

18 Datasets 中規模サイズの ImageNet データを使⽤。 転移学習の性能を確認するために、ImageNet 以外のデータでも検証。 ※ 画像は1から引⽤

Slide 19

Slide 19 text

19 Implementation Details ImageNet の訓練とファインチューニングは DeiT と同様のセッティングで実⾏。 downstream datasets は複数あるが、共通の設定とする。 ※ 画像は1から引⽤

Slide 20

Slide 20 text

20 Results on ImageNet • ViTより精度が⾼く、CNNと⽐較しても同程度の⼤きさのモデルよりは⾼精度。 FLOPsが同程度のResNet-50より⾼精度 ViT-L/16と同程度の精度 それぞれDeiTの蒸留より⾼精度 ↑384は解像 度384の画像 でfine-tuneし たことを表す ※ 画像は1から引⽤、加筆

Slide 21

Slide 21 text

21 Transfer Learning • CeiT-Sは8個のデータセットのうち4個でDeiT-Bを上回る。 • CeiT-S↑384 は8個のデータセットのうち、3個でSotAとなる。 • CeiTは転移学習のポテンシャルがあると考えられる。 DeiT-Bを上回る 3個でSotA ※ 画像は1から引⽤

Slide 22

Slide 22 text

22 Ablation Studies • Max-pooling があると精度が上がる。 • BatchNorm があると精度が上がる。 • 1×1では精度が上がらないことから、単純にパラメータを増 やしても意味がないことがわかる。 • BatchNorm があると精度が上がる。 ※ 画像は1から引⽤

Slide 23

Slide 23 text

23 Fast Convergence • CeiTはDeiTと⽐較して3倍速く同じ精度に到達する。 CNN 固有の帰納バイアスは、Vision Transformer の最適化過程に貢献していると考えられる。 ※ 画像は1から引⽤

Slide 24

Slide 24 text

24 結論 論⽂ではCNNの利点と、⻑距離の依存関係を確⽴するTransformerの利点を組み合わせた、新しいCeiTアーキ テクチャを提案した。 • CeiTは、⼤量の学習データや追加のCNN教師を必要とせずに、ImageNetや様々なdownstreamタスクで SotAの性能を得ることができる。 • CeiTは、純粋なTransformerよりも3倍少ない学習反復で優れた収束性を⽰し、学習コストを⼤幅に削減す る。 Convolutionを取り⼊れることで、より効果的なvisual Transformer を考えるための新たな視点を提供した。

Slide 25

Slide 25 text

25 所感 • CNNとTransformerの上⼿い融合が知りたい。Conformer の画像版のようなモデルはあるのか? • TransUNetのように、深い層の⾼次特徴の Self-Attention は効果があるのか? • Transformer Encoder を複数重ねた時、後ろのEncoderのAttention mapは同じになる?その場合、働いて いるのはFF層? Transformerのスケーラビリティに寄与しているのはFF層? • SAGAN のような Self-Attention は使わないのか? 組み合わせる? Conformer CvT: Introducing Convolutions to Vision Transformers ※ 画像は4,5から引⽤

Slide 26

Slide 26 text

26 Q&A: CeiTの全体アーキテクチャは? H, W, 3 I2T(Conv, BN, MaxPool) H/S, W/S, 32 Tokenization N, (P/S)**2・32 N, C N+1, C Linear Add [cls] token Encoder Block Encoder Block … Encoder Block N+1, C N+1, C N+1, C Encoder Block Layer Norm Multi-Head Attention Dropout + Layer Norm + LeFF N+1, C N+1, C N+1, C N+1, C N+1, C [cls] token 1, C 1, C 1, C N+1, C LeFF CeiT 1, C N, C Linear, BN, GELU N, e×C Reshape √N, √ N, e×C Depth-wise Conv, BN, GELU √N, √ N, e×C Reshape N, e×C Linear, BN, GELU N, C Concat N+1, C Concat L, C Multi-Head Attention L, C Linear, GELU L, K Linear L, C LCA L-th token projection C Linear n_class 論⽂中に書かれていないが、head があるはず。 fine-tuneする場合はここを置き換 える。

Slide 27

Slide 27 text

27 Q&A: TransformerでObject Detectionできるか? • DETR というモデルが注⽬されているようです。 • AI-SCHOLAR さんの記事がとてもわかり易いです。 https://ai-scholar.tech/articles/object-detection/detr-object-detection-transformers-paradigm

Slide 28

Slide 28 text

28 Q&A: Transformerで位置推定や距離推定できるか? • この領域に詳しくないので、⾒つけられませんでした。 • ⾯⽩い話があったら教えて下さい。

Slide 29

Slide 29 text

29 Q&A: class tokenの意味は? • シンプルに、BERTの構造を踏襲していると考えられる。 • BERTでは、次の⽂が正しいか判定するタスクに使⽤されるトークンだった。 • [考察] Self-Attentionでは、⾃⾝のトークンとの相関が⼤きくなるはず?なので、⼊⼒画像に依存しない トークンを最終特徴にした⽅がよいのでは? 左上のトークンを分類に使⽤すると、 左上の画像の特徴に依存してしまう? 画像に傾向があると精度が変わってし まう? ※ 画像は2から引⽤

Slide 30

Slide 30 text

30 参考⽂献 1. Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu, “Incorporating Convolution Designs into Visual Transformers ,” ; [arXiv:2103.11816 [cs.CV]]. 2. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, Jakob Uszkoreit, and Neil Houlsby. “An image is worth 16x16 words: Transformers for image recognition at scale,” ; [arXiv:2010.11929[cs.CV]]. 3. Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou. “Training data-efficient image transformers & distillation through attention,” ; [arXiv:2012.12877[cs.CV]]. 4. Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang, “Conformer: Convolution-augmented Transformer for Speech Recognition,” ; [arXiv:2005.08100[eess.AS]]. 5. Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang, “CvT: Introducing Convolutions to Vision Transformers,” ; [arXiv:2103.15808[cs.CV]]. 6. Samira Abnar, Mostafa Dehghani, Willem Zuidema, “Transferring Inductive Biases through Knowledge Distillation,” ; [arXiv:2006.00555[cs.LG]]. 7. Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou, “Fixing the train-test resolution discrepancy,” ; [arXiv:1906.06423[cs.CV]]. 8. @takoroy, “【論⽂読解めも】Training data-efficient image transformers & distillation through attention,” https://zenn.dev/takoroy/scraps/ced7059a36d846 9. Jieneng Chen, Yongyi Lu, Qihang Yu, Xiangde Luo, Ehsan Adeli, Yan Wang, Le Lu, Alan L. Yuille, Yuyin Zhou, “TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation,” [arXiv:2102.04306 [cs.CV]].