社内のCV輪講で使用した資料です。
CNNを構造の中心とした画像認識モデルアーキテクチャについて、近年登場したものを紹介しました。
以下スライド中の参考文献のリンク
[1] https://arxiv.org/abs/2103.07579
[2] https://arxiv.org/abs/2110.00476
[3] https://arxiv.org/abs/2201.03545
[4] https://arxiv.org/abs/2203.06717
[5] https://arxiv.org/abs/2207.03620
[6] https://arxiv.org/abs/2211.05778
[7] https://arxiv.org/abs/2303.16900
[8] https://arxiv.org/abs/2403.19588
[9] https://arxiv.org/abs/1812.01187v2
[10] https://arxiv.org/abs/1911.04252
[11] https://github.com/NVIDIA/cutlass/blob/main/media/docs/implicit_gemm_convolution.md
[12] https://arxiv.org/abs/2101.03697
[13] https://arxiv.org/abs/1608.06993
[14] https://github.com/huggingface/pytorch-image-models/blob/main/results/results-imagenet.csv