[Journal Club] Swin Transformer Hierarchical Vision Transformer using Shifted Windows

4XJO 5SBOTGPSNFS )JFSBSDIJDBM7JTJPO5SBOTGPSNFSVTJOH4IJGUFE8JOEPXT 慶應義塾大学杉浦孔明研究室飯田紡 Ze Liu, Yutong
Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo (Microsoft Research Asia) ICCV 2021 Best Paper Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022).

എܠɿ൚༻WJTJPO USBOTGPSNFSͷߏங 1 バックボーンとなる汎用vision transformerは精度向上に繋がる可能性 RNN LSTM transformer 自然言語処理 CNN
transformer 画像処理 ? Segmentation, Detectionなど詳細な情報が必要なタスク有 CNN (e.g. ResNet) がバックボーンとして標準単語やサブワード単位で扱う transformer (e.g. BERT) が標準従来モデルより精度向上

ؔ࿈ݚڀɿύοναΠζ͕େ͖͘ɺෆ޲͖ͳλεΫ༗ 2 パッチ数に対して二乗の計算量 → パッチサイズ大 Segmentationなど細かい情報を必要とするタスクに不向き ViT (Vision transformer) [dovitskiy+,
ICLR21] パッチに分割してtransformerに入力 DeiT [Touvron+, ICML21] 学習戦略でViTを軽量化, 主に分類タスクに応用 SeTR [Zheng+, CVPR21] ViTのSegmentation応用, 分類ほど良い結果ではない

ఏҊख๏ɿ4XJO 5SBOTGPSNFS 4IJGUFE8*/EPX 5SBOTGPSNFS Swin Transformer Block, Patch Mergingにより詳細な情報を抽出
計算量を削減することで、パッチサイズを小さくできるウィンドウ内のパッチのみattentionを計算 3

ఏҊख๏ɿ4XJO 5SBOTGPSNFS 4IJGUFE8*/EPX 5SBOTGPSNFS Swin Transformer Block, Patch Mergingにより詳細な情報を抽出
計算量を削減することで、パッチサイズを小さくできるウィンドウ内のパッチのみattentionを計算 4

ఏҊख๏ɿ4XJO 5SBOTGPSNFS#MPDL 5 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted)
Window based Self-Attention 1. ウィンドウ内のパッチ間のみattention scoreを計算 2. ウィンドウを移動させてウィンドウ間の関係も抽出

6 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted) Window based
Self-Attention 1. ウィンドウ内のパッチ間のみattention scoreを計算 2. ウィンドウを移動させてウィンドウ間の関係も抽出 ఏҊख๏ɿ4XJO 5SBOTGPSNFS#MPDL

ఏҊख๏ɿ$ZDMJD4IJGU 9 Cyclic Shift 左図の分割では9ブロック分のattention計算が必要左上を右下に移動し元々と同じ4ブロックにして計算 Masked-MSAを利用して別ウィンドウはマスクする

ఏҊख๏ɿܭࢉྔͷ࡟ݮ Cyclic Shiftより、1ウィンドウが常に𝑀 × 𝑀個パッチを含むと仮定できるウィンドウ内は 𝑀!×𝐶, 𝐶×𝑀!行列の積2回で2𝐶𝑀"回計算全パッチ数ℎ
× 𝑤 のときウィンドウ数は# $ , % $ より計算量は 2𝐶𝑀"× ℎ 𝑀 × 𝑤 𝑀 = 2𝐶𝑀!ℎ𝑤 = 𝑂 ℎ𝑤 10 パッチ数に線形！

ఏҊख๏ɿ1BUDI.FSHJOH 11 パッチを段階的にマージして広範囲の特徴を集約各段階で特徴マップが得られる 1. 周囲2 × 2個のパッチを結合 𝐻 4
× 𝑊 4 ×𝐶 → 𝐻 8 × 𝑊 8 ×4𝐶 2. チャンネル数を半分に線形変換 𝐻 8 × 𝑊 8 ×4𝐶 →!"#$%& 𝐻 8 × 𝑊 8 ×2𝐶

ఏҊख๏ɿ3FMBUJWFQPTJUJPOCJBT Relative position bias Softmax QK' 𝑑 + 𝐵
𝑉 パッチの相対位置関係でポジショナルエンコーディング𝐵を決定 (𝑥, 𝑦) 離れてるパッチはすべて同じ値を使用相対位置のため、translation invariance有（ウィンドウを移動させるため特に有効？） 12

ఆྔ݁ՌɿطଘUSBOTGPSNFSϞσϧΑΓߴਫ਼౓ͳ෼ྨʹ੒ޭ (a) ImageNet-1Kをスクラッチで学習同サイズのViT・DeiTを上回る精度徹底的なアーキテクチャ探索をしたEfficientNetには負けたがSwinはまだ改善の可能性有 (b) ImageNet-22Kで事前学習
Pretrainedによって大きく改善既存の画像分類モデルを上回る精度 13

ఆྔ݁ՌɿPCKFDUEFUFDUJPOͰ405" 14 Swin, ResNet50, DeiTをバックボーンとしてdetection 手法に適用 (a) detection手法を変更 Swinがすべての手法でResNet50を上回った
(b) Mask R-CNNに固定してバックボーンを変更 Swinが全手法で最良、大幅に改善 2乗の計算コストのDeiTと比べてFPS大幅上昇データセット： MS COCO

ఆྔ݁Ռɿ4FNBOUJD4FHNFOUBUJPOͰN*06࠷ྑ 15 Swin, DeiT, SETR, ResNetを比較 Val mIOUでSOTAを達成パラメータ数がほぼ等しいTransformer手法のSETRから大きく改善
Test score (pixel accuracyとclass IoUの平均値）でも他手法を上回るデータセット： ADE20K （Segmentationの標準）

"CMBUJPO4UVEZɿఏҊख๏͕࠷΋൚༻త 16 Shifted Windows （ウィンドウの移動）有無なしでImageNet top-1が1.1ポイント低下全評価指標で低下している Positional Encoding
相対（rel）のみが全指標最良 abs+relは分類は良いがdetection / segmentationには不向き

·ͱΊ 17 背景汎用vision transformerの構築提案詳細な情報を抽出可能なSwin Transformer 結果分類・物体検出・Segmentationで良好な結果

[Journal Club] Swin Transformer Hierarchical Vi...

[Journal Club] Swin Transformer Hierarchical Vision Transformer using Shifted Windows

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

4XJO 5SBOTGPSNFS )JFSBSDIJDBM7JTJPO5SBOTGPSNFSVTJOH4IJGUFE8JOEPXT 慶應義塾大学杉浦孔明研究室飯田紡 Ze Liu, Yutong

എܠɿ൚༻WJTJPO USBOTGPSNFSͷߏங 1 バックボーンとなる汎用vision transformerは精度向上に繋がる可能性 RNN LSTM transformer 自然言語処理 CNN

ؔ࿈ݚڀɿύοναΠζ͕େ͖͘ɺෆ޲͖ͳλεΫ༗ 2 パッチ数に対して二乗の計算量 → パッチサイズ大 Segmentationなど細かい情報を必要とするタスクに不向き ViT (Vision transformer) [dovitskiy+,

ఏҊख๏ɿ4XJO 5SBOTGPSNFS 4IJGUFE8*/EPX 5SBOTGPSNFS Swin Transformer Block, Patch Mergingにより詳細な情報を抽出

ఏҊख๏ɿ4XJO 5SBOTGPSNFS 4IJGUFE8*/EPX 5SBOTGPSNFS Swin Transformer Block, Patch Mergingにより詳細な情報を抽出

ఏҊख๏ɿ4XJO 5SBOTGPSNFS#MPDL 5 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted)

6 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted) Window based

7 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted) Window based

8 構造はtransformer block × 2 とほぼ同じウィンドウ分割により、計算量が線形オーダー (Shifted) Window based

ఏҊख๏ɿ$ZDMJD4IJGU 9 Cyclic Shift 左図の分割では9ブロック分のattention計算が必要左上を右下に移動し元々と同じ4ブロックにして計算 Masked-MSAを利用して別ウィンドウはマスクする

ఏҊख๏ɿܭࢉྔͷ࡟ݮ Cyclic Shiftより、1ウィンドウが常に𝑀 × 𝑀個パッチを含むと仮定できるウィンドウ内は 𝑀!×𝐶, 𝐶×𝑀!行列の積2回で2𝐶𝑀"回計算全パッチ数ℎ

ఏҊख๏ɿ1BUDI.FSHJOH 11 パッチを段階的にマージして広範囲の特徴を集約各段階で特徴マップが得られる 1. 周囲2 × 2個のパッチを結合 𝐻 4

ఏҊख๏ɿ3FMBUJWFQPTJUJPOCJBT Relative position bias Softmax QK' 𝑑 + 𝐵

ఆྔ݁ՌɿطଘUSBOTGPSNFSϞσϧΑΓߴਫ਼౓ͳ෼ྨʹ੒ޭ (a) ImageNet-1Kをスクラッチで学習同サイズのViT・DeiTを上回る精度徹底的なアーキテクチャ探索をしたEfficientNetには負けたがSwinはまだ改善の可能性有 (b) ImageNet-22Kで事前学習

ఆྔ݁ՌɿPCKFDUEFUFDUJPOͰ405" 14 Swin, ResNet50, DeiTをバックボーンとしてdetection 手法に適用 (a) detection手法を変更 Swinがすべての手法でResNet50を上回った

ఆྔ݁Ռɿ4FNBOUJD4FHNFOUBUJPOͰN*06࠷ྑ 15 Swin, DeiT, SETR, ResNetを比較 Val mIOUでSOTAを達成パラメータ数がほぼ等しいTransformer手法のSETRから大きく改善

"CMBUJPO4UVEZɿఏҊख๏͕࠷΋൚༻త 16 Shifted Windows （ウィンドウの移動）有無なしでImageNet top-1が1.1ポイント低下全評価指標で低下している Positional Encoding

·ͱΊ 17 背景汎用vision transformerの構築提案詳細な情報を抽出可能なSwin Transformer 結果分類・物体検出・Segmentationで良好な結果