• CNN
• ResNet-50 (約 2,500 万個のパラメータを持つ) をデフォルトの CNN アーキテク
チャとして選んだ.
• ImageNet 上で CNN を学習するには,[15, 31]の標準的なレシピに従う.初期学習
率を0.1に設定し,30番⽬,60番⽬,90番⽬のエポックで学習率を10倍に下げます.
• Transformer
• Vision Transformer (ViT) は,⾃然⾔語処理から Computer Vision へのトランス
フォーマーの導⼊に成功し,いくつかのビジュアルベンチマークにおいて CNN と⽐
較して優れた性能を達成しています.
• 外部データなしで ImageNet 上で ViT の学習に成功した DeiT の学習レシピに従い,
デフォルトの Transformer アーキテクチャとして DeiT-S (約 2,200 万個のパラメー
タを持つ) を設定しました.
• 具体的には,AdamW を⽤いて全ての Transform を学習し,初期学習率を 5e-4 に設
定し,cosine learning rate scheduler を⽤いて学習率を下げ,重み減衰の他に,3
つのデータ補強戦略 (RandAug,MixUp,CutMix) を採⽤して学習を正則化してい
ます (そうしないと,DeiT-S はオーバーフィッティングにより ImageNetの 精度を
著しく低下させてしまいます).
• トランスフォーマーは CNN より頑健と⾔われていたが,学習データや
データ拡張など学習⽅法を揃えると,CNN は Transformer 並みの敵対的
攻撃に対する頑健性を獲得できる.しかし,ImageNet-A,-Cのような外
れ値のデータでは Transformer が強かった.
[15] PriyaGoyal,PiotrDollár,RossGirshick,PieterNoordhuis,LukaszWesolowski,AapoKyrola,Andrew Tulloch, Yangqing Jia, and Kaiming He. Accurate,
large minibatch sgd: Training imagenet in 1 hour. arXiv preprint arXiv:1706.02677, 2017.
[31] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dollár. Designing network design spaces. In CVPR, 2020.