論文読み会資料 When Shift Operation Meets Vision Transformer:An Extremely Simple Alternative to Attention Mechanism

Slide 1

Slide 1 text

© 2022 SenseTime. All Rights Reserved. 1 © 2022 SenseTime. All Rights Reserved. 論⽂読み会資料 When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism Feb. 17, 2022. SenseTime Japan Mi. 本資料は，社内にて実施した論⽂読み会の資料を⼀部改稿したものです．

Slide 2

Slide 2 text

© 2022 SenseTime. All Rights Reserved. 2 書誌情報 v タイトル o When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism v 著者 o Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng v リンク o 論⽂: https://arxiv.org/pdf/2201.10801.pdf o 実装: https://github.com/microsoft/SPACH o 著者による解説動画（中国語，後ろの⽅）: https://www.bilibili.com/video/BV1a3411h7su v 補⾜ o AAAI 2022 に採録． o 中国科学技術⼤学の学⽣が Microsoft Research Asia (MSRA) でインターンしていた際の成果とのこと． v 選定理由 o 近年全盛の Transformer に対し，シンプルで効果的な代替⼿法を提案している． o Transformer の研究の中で蓄積された学習⼿法に興味がある． v スライド中の図は注釈がない限りは論⽂中からの引⽤．

Slide 3

Slide 3 text

© 2022 SenseTime. All Rights Reserved. 3 論⽂概要 v Vision Transformer の成功の鍵は Attention 機構にあるされているが，果たしてそうか︖ o Attention 機構は，空間的な関係性をモデル化することのできる柔軟で強⼒な⽅法． o これを他の⽅法で置き換えられないか︖ v 極端な例として，Shift オペレーションを Attention の代わりに⽤いることを提案． o 算術演算なし，パラメータなし o 隣接する特徴間のチャンネルの⼀部を⼊れ替えるだけ． v ベースラインとなる SwinTransformer と⽐べ，同等かそれ以上の性能を達成． o この結果から，ViT の Attention 機構以外の部分により注意するべきだと指摘している．

Slide 4

Slide 4 text

© 2022 SenseTime. All Rights Reserved. 4 背景 – Vision Transfomer (ViT) v Transformer o attention機構を単独で適⽤し，異なる⾔語トークン間を接続する． o RNNとかLSTMに代わり，NLPではデファクトとなっている． o CV分野では，初期の頃はCNNに混ぜて使う研究が多かった． v Vision Transformer (ViT) o Transformer のエンコーダ部分において，画像を⼩さなパッチに分割して得たベクトルを⼊⼒として使う． o 研究の⽅向性としては，視覚信号の本質的な性質を満たすような Attention 機構の改善が主流． • MSViT: 階層的なAttention層により，マルチスケール特徴を得る． • SwinTransformer: Attention機構に，局所性の制約を課す． o Attention 機構以外の部分についてはあまり着⽬されていない． • DeiT: ViT の標準的な学習パイプラインを設定．以後の研究はこれをフォローしている． Vision Transformer [1] Swin Transformer [5] 局所領域に絞って Attention する． [1] A. Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, arXiv [cs.CV]. 2021. [5] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, bll 10012–10022.

Slide 5

Slide 5 text

© 2022 SenseTime. All Rights Reserved. 5 背景 – MLP，Shift OP v MLP o MLP-Mixer: ViT における Attention 機構を，MLPで代替する． o Attention のもつ動的な性質は排除したが，性能は維持． v Shift OP o Shift • 2つの 1x1-conv で 1つの Shift OP を挟み込むサンドイッチ構造． • Shift OP で空間情報を集め，1x1-conv でチャネル間の情報をミックスする． o Partial Shift（Shift 系の研究⽅向の1つ） • （リアルタイム）動画解析の⼿法 TSM として提案． • Time x HW x Channel の特徴について，Channel の⼀部を時間⽅向にシフトさせる． • 提案⼿法ではこの⽅式を⽤いる． MLP-Mixer [6] Shift [4] Partial Shift [7] [4] B. Wu et al., “Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [6] I. Tolstikhin et al., “MLP-Mixer: An all-MLP Architecture for Vision”, arXiv [cs.CV]. 2021. [7] J. Lin, C. Gan, en S. Han, “TSM: Temporal Shift Module for Efficient Video Understanding”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019.

Slide 6

Slide 6 text

© 2022 SenseTime. All Rights Reserved. 6 仮説 v Transformer の成功の鍵は attention 機構にある︖ o ⼤域的 (global) • 狭い領域と広い領域の依存関係を同時に捉えることができる． • ≠ Convolution は局所特徴しか捉えられない． o 動的 (dynamic) • 2つの場所の特徴の相互作⽤が，それらの特徴⾃⾝から動的に形成される． • ≠ Convolution は固定のカーネルを使うので，静的． o ViT の強さは，この2つの特徴をもつ Attention 機構から来ていると信じられている． v しかし，おそらく違う． o ⼤域的 (global) • SwinTransformer のように，むしろ local な成約を課したほうが強いという結果がある． o 動的 (dynamic) • MLP-Mixer のように，Attention を MLP で置き換えたものが成功．MLP も固定 weight である．

Slide 7

Slide 7 text

© 2022 SenseTime. All Rights Reserved. 7 Shift オペレーション v 標準的なTransformerブロック o Attention → FFN v 提案⼿法 o Shift → FFN v Shift OP o ⼊⼒次元 CHW の⼀部を取り込んで4等分 o 4つの部分を左右上下に沿ってシフト（残りはそのまま） 2/3 C そのまま 1/3 C Shift Operationの対象 1 pixel ずつ空間⽅向に shift 1/12 C 4等分

Slide 8

Slide 8 text

© 2022 SenseTime. All Rights Reserved. 8 ShiftViT アーキテクチャ全体 v SwinTransformer と同じような階層構造を成している． v 空間的な関係性をモデル化するにあたり，Shift OPのみを使⽤している． v 作成したモデルの種類 o SwinTransformer との公平な⽐較のために，パラメータ数と計算量を揃えたモデルを⽤意． • ベースのチャンネル数 C，各ステージ中のブロック数 Ni，Shiftする割合 γ を変える． • ⼤きさ別に Shift-T(iny), Shift-S(mall), Shift-B(ase) の3種類．

Slide 9

Slide 9 text

© 2022 SenseTime. All Rights Reserved. 9 実験 v 3タスクについての実験を実施 o 画像分類 • データセットとして ImageNet を⽤い，Top-1 Acc. で評価． • Swin Transformer と同様の実験設定を⽤いる． o 物体検出 • データセットとして MSCOCO を⽤い，mAP で評価． • Mask R-CNN と Cascade Mask R-CNN で使われているものと同じ⽅法で実験． • Backbone だけ⼊れ替える．FPNや他のものは同じ． o Semantic Segmentation • データセットとして ADE20K (train: 20k, val: 2k) を⽤い，mIoU で評価． • ベースラインとして，UperNet [11] を⽤いる． [11] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, en J. Sun, “Unified Perceptual Parsing for Scene Understanding”, arXiv [cs.CV]. 2018.

Slide 10

Slide 10 text

© 2022 SenseTime. All Rights Reserved. 10 ベースライン⼿法 (SwinTransformer) との⽐較 v 準備 o 公平な⽐較のために，次の⼿順でモデルを作成． • Shift-X/light: Swin-X の Attention モジュールを単に Shift ブロックに置き換えたもの． • Shift-X : Swin-X と演算量 (FLOPs) が同程度になるように，ブロックの数を増やしたもの． v 結果 o Shift-X/light はパラメータ数が少ないので，性能が限定的． o ⼩さいサイズのモデル (Shift-T) では，Swin-Tよりよい結果になった． o ⼤きめのサイズのモデル (Shift-S, B) では性能が飽和してきたが，Swin と同程度の結果． = モデルをより深くすることができる． Attention 機構は必須ではない．極端にシンプルな操作で，同程度の性能を達成可能．

Slide 11

Slide 11 text

© 2022 SenseTime. All Rights Reserved. 11 SOTAとの⽐較 v CNN-based, ViT-based, MLP-based のSOTA⼿法との⽐較． o 提案⼿法はSOTA⼿法と⽐べても同程度の結果となった． o S2-MLP [8], AS-MLP [9]は提案⼿法と同じように，Shift OPを含むが，結果は提案⼿法のほうが（わずかに）良い． • これらは追加の事前/事後投影を含むが，提案⼿法のシンプルな Shift OP のみで⼗分であった． v 物体検知・Semantic Segmentation o 画像分類の場合と同様の傾向． o ViT-based, MLP-based モデルは単純に適⽤可能というわけではない． • ⾼解像度の⼊⼒により，計算量が著しく上昇するため． • ⼀⽅で，提案⼿法は Shift OP が効率的であるため，このような影響は受けない．画像分類 (ImageNet) [8] T. Yu, X. Li, Y. Cai, M. Sun, en P. Li, “S2-MLP: Spatial-Shift MLP Architecture for Vision”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022, bll 297–306. [9] D. Lian, Z. Yu, X. Sun, en S. Gao, “AS-MLP: An Axial Shifted MLP Architecture for Vision”, ICLR, 2022.

Slide 12

Slide 12 text

© 2022 SenseTime. All Rights Reserved. 12 ShiftViT の構成要素についての ablation study v MLP の拡⼤⽐率 (expand ratio) o モデルの深さと構成するブロックの複雑さのトレードオフ • 決まった演算量のバジェットのもとでは，軽量な構成ブロックのほうが深いネットワークを構築できる． o ShiftViTの場合は，MLP部分にほとんどのパラメータが⼊っている． o 「Attention 機構は最適なバックボーンではない」を⽀持． v Shift するチャンネル数の割合 (4γ) o デフォルトは 33 % だったが，いろいろ変えてみた． o 25 ~ 50 % ではベースラインを上回っている． o このパラメータはそれほど結果にセンシティブではない． v Shift するピクセル数 o 0: 72.9% (シフトなし; 空間的相互作⽤がない) o 1: 81.7% (提案⼿法) o 2: 80.2%

Slide 13

Slide 13 text

© 2022 SenseTime. All Rights Reserved. 13 ViT スタイルの学習スキームについて v なぜ，Shift OPはCNNでよく研究されていたのに，提案⼿法ほどの性能が出なかったのか︖ = 何が良かったのか︖ v DeiT [2]の学習スキーム o 多くのViTで使われている． o CNNの学習スキームとは⼤きく異なる． v 最適化アルゴリズム，活性化関数，正規化レイヤ，学習スケジュールの4要素について，どの要素がどの程度効いているかを確認． o 特に，学習スケジュールが効いている． o 提案⼿法の性能の⾼さは，この学習スキームの恩恵を受けている． o 同様に，ViTの成功もこの学習スキームの恩恵を受けている． v この点を将来のViTの研究では真剣に扱う必要があると思われる． optimizer activation function normal ization layer training schedule [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021.

Slide 14

Slide 14 text

© 2022 SenseTime. All Rights Reserved. 14 まとめ v ViT の成功の鍵は Self-Attention ではない可能性がある． o シンプルなチャンネルの Shift OP を⽤いるだけで，⼩さなモデルで SwinTransformer の性能を上回ることができる． v ViT の学習スキームにこそ，性能向上の鍵がある． o SGD → AdamW o ReLU → GELU o Batch Norm (BN) → Layer Norm (LN) o 90 epochs → 300 epochs

Slide 15

Slide 15 text

© 2022 SenseTime. All Rights Reserved. 15 感想 v シンプルな⼿法にもかかわらず，最近のSOTA⼿法と同等の性能を達成している点は驚き． v SwinTransformer のような汎⽤性の⾼いアーキテクチャを置き換えられるらしいので，応⽤性が⾼そう． v 強い学習スキームはぜひ試すべき． o A ConvNet for the 2020s [10] でも，同じような結論に⾄っていたと思う． v 次に読むべき論⽂としては，DeiT [2]が挙げられる． [10] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, en S. Xie, “A ConvNet for the 2020s”, arXiv [cs.CV]. 2022. [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021.

Slide 16

Slide 16 text

© 2022 SenseTime. All Rights Reserved. 16 参考⽂献リスト [1] A. Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, arXiv [cs.CV]. 2021. [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021. [3] G. Wang, Y. Zhao, C. Tang, C. Luo, en W. Zeng, “When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism”, arXiv [cs.CV]. 2022. [4] B. Wu et al., “Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [5] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, bll 10012–10022. [6] I. Tolstikhin et al., “MLP-Mixer: An all-MLP Architecture for Vision”, arXiv [cs.CV]. 2021. [7] J. Lin, C. Gan, en S. Han, “TSM: Temporal Shift Module for Efficient Video Understanding”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019. [8] T. Yu, X. Li, Y. Cai, M. Sun, en P. Li, “S2-MLP: Spatial-Shift MLP Architecture for Vision”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022, bll 297–306. [9] D. Lian, Z. Yu, X. Sun, en S. Gao, “AS-MLP: An Axial Shifted MLP Architecture for Vision”, ICLR, 2022. [10] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, en S. Xie, “A ConvNet for the 2020s”, arXiv [cs.CV]. 2022. [11] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, en J. Sun, “Unified Perceptual Parsing for Scene Understanding”, arXiv [cs.CV]. 2018.