Slide 11
Slide 11 text
AI 11
▪ Transformerに準じたマクロデザイン
▪ ステージごとの計算比率の変更
▪ ResNetの(1, 1, 3, 1)からSwin-Tの(1, 1, 9, 1)になるように
ブロック数を変更
▪ ImageNet精度が78.8% -> 79.4%に向上
▪ Stemのpatch分割化
▪ Stem: 入力画像をダウンサンプリングし、計算効率を上げる層
▪ ResNetではks=7, stride=2のconvとmaxpoolで1/4解像度にするが
ConvNeXtではks=4, stride=4に変更 (ViTのPatch分割に対応)
▪ 精度は79.4% -> 79.5%
ConvNeXt [CVPR 2022]