Slide 1

Slide 1 text

© 2022 SenseTime. All Rights Reserved. 1 © 2022 SenseTime. All Rights Reserved. 論⽂読み会資料 When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism Feb. 17, 2022. SenseTime Japan Mi. 本資料は,社内にて実施した論⽂読み 会の資料を⼀部改稿したものです.

Slide 2

Slide 2 text

© 2022 SenseTime. All Rights Reserved. 2 書誌情報 v タイトル o When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism v 著者 o Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng v リンク o 論⽂: https://arxiv.org/pdf/2201.10801.pdf o 実装: https://github.com/microsoft/SPACH o 著者による解説動画(中国語,後ろの⽅): https://www.bilibili.com/video/BV1a3411h7su v 補⾜ o AAAI 2022 に採録. o 中国科学技術⼤学の学⽣が Microsoft Research Asia (MSRA) でインターンしていた際の成果とのこと. v 選定理由 o 近年全盛の Transformer に対し,シンプルで効果的な代替⼿法を提案している. o Transformer の研究の中で蓄積された学習⼿法に興味がある. v スライド中の図は注釈がない限りは論⽂中からの引⽤.

Slide 3

Slide 3 text

© 2022 SenseTime. All Rights Reserved. 3 論⽂概要 v Vision Transformer の成功の鍵は Attention 機構にあるされているが,果たしてそうか︖ o Attention 機構は,空間的な関係性をモデル化することのできる柔軟で強⼒な⽅法. o これを他の⽅法で置き換えられないか︖ v 極端な例として,Shift オペレーションを Attention の代わりに⽤いることを提案. o 算術演算なし,パラメータなし o 隣接する特徴間のチャンネルの⼀部を⼊れ替えるだけ. v ベースラインとなる SwinTransformer と⽐べ,同等かそれ以上の性能を達成. o この結果から,ViT の Attention 機構以外の部分により注意するべきだと指摘している.

Slide 4

Slide 4 text

© 2022 SenseTime. All Rights Reserved. 4 背景 – Vision Transfomer (ViT) v Transformer o attention機構を単独で適⽤し,異なる⾔語トークン間を接続す る. o RNNとかLSTMに代わり,NLPではデファクトとなっている. o CV分野では,初期の頃はCNNに混ぜて使う研究が多かった. v Vision Transformer (ViT) o Transformer のエンコーダ部分において,画像を⼩さなパッチ に分割して得たベクトルを⼊⼒として使う. o 研究の⽅向性としては,視覚信号の本質的な性質を満たすよう な Attention 機構の改善が主流. • MSViT: 階層的なAttention層により,マルチスケール特徴を得る. • SwinTransformer: Attention機構に,局所性の制約を課す. o Attention 機構以外の部分についてはあまり着⽬されていない. • DeiT: ViT の標準的な学習パイプラインを設定.以後の研究はこれ をフォローしている. Vision Transformer [1] Swin Transformer [5] 局所領域に絞って Attention する. [1] A. Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, arXiv [cs.CV]. 2021. [5] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, bll 10012–10022.

Slide 5

Slide 5 text

© 2022 SenseTime. All Rights Reserved. 5 背景 – MLP,Shift OP v MLP o MLP-Mixer: ViT における Attention 機構を,MLPで代替 する. o Attention のもつ 動的な 性質は排除したが,性能は維持. v Shift OP o Shift • 2つの 1x1-conv で 1つの Shift OP を挟み込むサンドイッチ 構造. • Shift OP で空間情報を集め,1x1-conv でチャネル間の情 報をミックスする. o Partial Shift(Shift 系の研究⽅向の1つ) • (リアルタイム)動画解析の⼿法 TSM として提案. • Time x HW x Channel の特徴について,Channel の⼀部を 時間⽅向にシフトさせる. • 提案⼿法ではこの⽅式を⽤いる. MLP-Mixer [6] Shift [4] Partial Shift [7] [4] B. Wu et al., “Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [6] I. Tolstikhin et al., “MLP-Mixer: An all-MLP Architecture for Vision”, arXiv [cs.CV]. 2021. [7] J. Lin, C. Gan, en S. Han, “TSM: Temporal Shift Module for Efficient Video Understanding”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019.

Slide 6

Slide 6 text

© 2022 SenseTime. All Rights Reserved. 6 仮説 v Transformer の成功の鍵は attention 機構にある︖ o ⼤域的 (global) • 狭い領域と広い領域の依存関係を同時に捉えることができる. • ≠ Convolution は局所特徴しか捉えられない. o 動的 (dynamic) • 2つの場所の特徴の相互作⽤が,それらの特徴⾃⾝から動的に形成される. • ≠ Convolution は固定のカーネルを使うので,静的. o ViT の強さは,この2つの特徴をもつ Attention 機構から来ていると信じられている. v しかし,おそらく違う. o ⼤域的 (global) • SwinTransformer のように,むしろ local な成約を課したほうが強いという結果がある. o 動的 (dynamic) • MLP-Mixer のように,Attention を MLP で置き換えたものが成功.MLP も固定 weight である.

Slide 7

Slide 7 text

© 2022 SenseTime. All Rights Reserved. 7 Shift オペレーション v 標準的なTransformerブロック o Attention → FFN v 提案⼿法 o Shift → FFN v Shift OP o ⼊⼒次元 CHW の⼀部を取り込んで4等分 o 4つの部分を左右上下に沿ってシフト (残りはそのまま) 2/3 C そのまま 1/3 C Shift Operationの対象 1 pixel ずつ空間 ⽅向に shift 1/12 C 4等分

Slide 8

Slide 8 text

© 2022 SenseTime. All Rights Reserved. 8 ShiftViT アーキテクチャ全体 v SwinTransformer と同じような階層構造を成している. v 空間的な関係性をモデル化するにあたり,Shift OPのみを使⽤している. v 作成したモデルの種類 o SwinTransformer との公平な⽐較のために,パラメータ数と計算量を揃えたモデルを⽤意. • ベースのチャンネル数 C,各ステージ中のブロック数 Ni,Shiftする割合 γ を変える. • ⼤きさ別に Shift-T(iny), Shift-S(mall), Shift-B(ase) の3種類.

Slide 9

Slide 9 text

© 2022 SenseTime. All Rights Reserved. 9 実験 v 3タスクについての実験を実施 o 画像分類 • データセットとして ImageNet を⽤い,Top-1 Acc. で評価. • Swin Transformer と同様の実験設定を⽤いる. o 物体検出 • データセットとして MSCOCO を⽤い,mAP で評価. • Mask R-CNN と Cascade Mask R-CNN で使われているものと同じ⽅法で実験. • Backbone だけ⼊れ替える.FPNや他のものは同じ. o Semantic Segmentation • データセットとして ADE20K (train: 20k, val: 2k) を⽤い,mIoU で評価. • ベースラインとして,UperNet [11] を⽤いる. [11] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, en J. Sun, “Unified Perceptual Parsing for Scene Understanding”, arXiv [cs.CV]. 2018.

Slide 10

Slide 10 text

© 2022 SenseTime. All Rights Reserved. 10 ベースライン⼿法 (SwinTransformer) との⽐較 v 準備 o 公平な⽐較のために,次の⼿順でモデルを作成. • Shift-X/light: Swin-X の Attention モジュールを単に Shift ブロックに置き換えたもの. • Shift-X : Swin-X と演算量 (FLOPs) が同程度になるように,ブロックの数を増やしたもの. v 結果 o Shift-X/light はパラメータ数が少ないので,性能が限定的. o ⼩さいサイズのモデル (Shift-T) では,Swin-Tよりよい結果になった. o ⼤きめのサイズのモデル (Shift-S, B) では性能が飽和してきたが,Swin と同程度の結果. = モデルをより深くすることができる. Attention 機構は必須ではない.極端にシンプルな操作で,同程度の性能を達成可能.

Slide 11

Slide 11 text

© 2022 SenseTime. All Rights Reserved. 11 SOTAとの⽐較 v CNN-based, ViT-based, MLP-based のSOTA⼿法との⽐較. o 提案⼿法はSOTA⼿法と⽐べても同程度の結果となった. o S2-MLP [8], AS-MLP [9]は 提案⼿法と同じように,Shift OPを含 むが,結果は提案⼿法のほうが(わずかに)良い. • これらは追加の 事前/事後投影 を含むが, 提案⼿法のシンプルな Shift OP のみで⼗分であった. v 物体検知・Semantic Segmentation o 画像分類の場合と同様の傾向. o ViT-based, MLP-based モデルは単純に適⽤可能というわけでは ない. • ⾼解像度の⼊⼒により,計算量が著しく上昇するため. • ⼀⽅で,提案⼿法は Shift OP が効率的であるため,このような影 響は受けない. 画像分類 (ImageNet) [8] T. Yu, X. Li, Y. Cai, M. Sun, en P. Li, “S2-MLP: Spatial-Shift MLP Architecture for Vision”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022, bll 297–306. [9] D. Lian, Z. Yu, X. Sun, en S. Gao, “AS-MLP: An Axial Shifted MLP Architecture for Vision”, ICLR, 2022.

Slide 12

Slide 12 text

© 2022 SenseTime. All Rights Reserved. 12 ShiftViT の構成要素についての ablation study v MLP の拡⼤⽐率 (expand ratio) o モデルの深さと構成するブロックの複雑さのトレードオフ • 決まった演算量のバジェットのもとでは,軽量な構成ブロック のほうが深いネットワークを構築できる. o ShiftViTの場合は,MLP部分にほとんどのパラメータが⼊っ ている. o 「Attention 機構は最適なバックボーンではない」を⽀持. v Shift するチャンネル数の割合 (4γ) o デフォルトは 33 % だったが,いろいろ変えてみた. o 25 ~ 50 % ではベースラインを上回っている. o このパラメータはそれほど結果にセンシティブではない. v Shift するピクセル数 o 0: 72.9% (シフトなし; 空間的相互作⽤がない) o 1: 81.7% (提案⼿法) o 2: 80.2%

Slide 13

Slide 13 text

© 2022 SenseTime. All Rights Reserved. 13 ViT スタイルの学習スキームについて v なぜ,Shift OPはCNNでよく研究されていたのに,提案⼿法 ほどの性能が出なかったのか︖ = 何が良かったのか︖ v DeiT [2]の学習スキーム o 多くのViTで使われている. o CNNの学習スキームとは⼤きく異なる. v 最適化アルゴリズム,活性化関数,正規化レイヤ,学習スケ ジュール の4要素について,どの要素がどの程度効いている かを確認. o 特に,学習スケジュールが効いている. o 提案⼿法の性能の⾼さは,この学習スキームの恩恵を受けている. o 同様に,ViTの成功もこの学習スキームの恩恵を受けている. v この点を将来のViTの研究では真剣に扱う必要があると思われ る. optimizer activation function normal ization layer training schedule [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021.

Slide 14

Slide 14 text

© 2022 SenseTime. All Rights Reserved. 14 まとめ v ViT の成功の鍵は Self-Attention ではない可能性がある. o シンプルなチャンネルの Shift OP を⽤いるだけで,⼩さなモデルで SwinTransformer の性能を 上回ることができる. v ViT の学習スキームにこそ,性能向上の鍵がある. o SGD → AdamW o ReLU → GELU o Batch Norm (BN) → Layer Norm (LN) o 90 epochs → 300 epochs

Slide 15

Slide 15 text

© 2022 SenseTime. All Rights Reserved. 15 感想 v シンプルな⼿法にもかかわらず,最近のSOTA⼿法と同等の性能を達成している点は驚き. v SwinTransformer のような汎⽤性の⾼いアーキテクチャを置き換えられるらしいので, 応⽤性が⾼そう. v 強い学習スキームはぜひ試すべき. o A ConvNet for the 2020s [10] でも,同じような結論に⾄っていたと思う. v 次に読むべき論⽂としては,DeiT [2]が挙げられる. [10] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, en S. Xie, “A ConvNet for the 2020s”, arXiv [cs.CV]. 2022. [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021.

Slide 16

Slide 16 text

© 2022 SenseTime. All Rights Reserved. 16 参考⽂献リスト [1] A. Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, arXiv [cs.CV]. 2021. [2] H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, en H. Jégou, “Training data-efficient image transformers & distillation through attention”, arXiv [cs.CV]. 2021. [3] G. Wang, Y. Zhao, C. Tang, C. Luo, en W. Zeng, “When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism”, arXiv [cs.CV]. 2022. [4] B. Wu et al., “Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions”, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. [5] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, bll 10012–10022. [6] I. Tolstikhin et al., “MLP-Mixer: An all-MLP Architecture for Vision”, arXiv [cs.CV]. 2021. [7] J. Lin, C. Gan, en S. Han, “TSM: Temporal Shift Module for Efficient Video Understanding”, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019. [8] T. Yu, X. Li, Y. Cai, M. Sun, en P. Li, “S2-MLP: Spatial-Shift MLP Architecture for Vision”, in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2022, bll 297–306. [9] D. Lian, Z. Yu, X. Sun, en S. Gao, “AS-MLP: An Axial Shifted MLP Architecture for Vision”, ICLR, 2022. [10] Z. Liu, H. Mao, C.-Y. Wu, C. Feichtenhofer, T. Darrell, en S. Xie, “A ConvNet for the 2020s”, arXiv [cs.CV]. 2022. [11] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, en J. Sun, “Unified Perceptual Parsing for Scene Understanding”, arXiv [cs.CV]. 2018.