シン・CNN vs. ViT - Speaker Deck

Slide 1

Slide 1 text

CVPR 2024 読み会シン・CNN vs. ViT 牛久祥孝 losnuevetoros

Slide 2

Slide 2 text

2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2016.9～2018.9 産業技術総合研究所協力研究員 2016.12～2018.9 国立国語研究所共同研究員 2018.10～2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2020.4～2023.3 津田塾大学非常勤講師 2021.7～東北大学非常勤講師 2022.1～合同会社ナインブルズ代表 2023.12～理化学研究所客員主管研究員 2024.4～オムロンサイニックエックス株式会社 VP for Research [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station. 自己紹介

Slide 3

Slide 3 text

自己紹介（その他）主な学術団体活動 ACM・IEEE・電子情報通信学会・情報処理学会・人工知能学会・応用物理学会一般会員コンピュータビジョン勉強会＠関東幹事日本ロボット学会代議員日本ディープラーニング協会有識者会員共立出版コンピュータビジョン最前線編集科学技術振興機構（JST） CRDS 分野別委員会委員さきがけアドバイザー BOOST アドバイザー産業技術総合研究所覚醒プロジェクトプロジェクトマネージャー AIロボット駆動科学イニシアティブ設立準備事務局主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot（PM:牛久祥孝） 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業（代表:長藤圭介） 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I（代表:牛久祥孝） 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)（代表:内田誠一）

Slide 4

Slide 4 text

今日読む論文 TransformerとConvNeXt（など）を比較した論文 Best Student Paper Honorable Mention

Slide 5

Slide 5 text

ConvNeXt？

Slide 6

Slide 6 text

2020年代のConvNet = ConvNeXt • ResNetを拡張したConvNeXt モダンな – データ拡張 – Depth-wise conv – 活性化関数 – 正規化 etc. • Swin-Transformerを超えるよ！ [Liu+, CVPR 2022]

Slide 7

Slide 7 text

どうやって比較した？ ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った AI手法その2 この手だけでタイ猫だと思ったここだけ見れば分かるよね？・・・？

Slide 8

Slide 8 text

サブ説明カウント (Sub-Explanation Counting) • Minimal Sufficient Explanation (MSE) – 9割の尤度比を満たす最小パッチ集合 • ＝任意の部分集合が尤度比9割未満 • それ以外の画像は黒/ぼかし – ビームサーチで全て探索 • サブ説明カウント – MSEを親としてパッチを一つずつ削除（ぼかす） →子ノードへ – もし尤度比が5割以上なら上記を繰り返し、下回れば止める基準尤度を上回るノードの数を数える

Slide 9

Slide 9 text

合成性 (Compositionality) と選言性 (Disjunctivism) • 合成性の高い挙動（画像上側）：MSEのパッチが多く、削除しても尤度が高め • 選言性の高い挙動（画像下側）：パッチが少なく、尤度が元画像より高い

Slide 10

Slide 10 text

クロス試験 (Cross-Testing) • 挿入メトリック：あるパッチを挿入した時の尤度𝑓𝑐 の増分 • クロス試験 – 1つ目の深層学習モデル（Swin-T）から 2つ目の深層学習モデル（VGG-19）へのクロス試験の例☞ – 正規化された挿入メトリックの累積和をプロットしてAUC（曲線下面積）を計算 𝑡ステップ後の摂動画像即ち、かつ ※論文の式(2)は符号を間違っているので注意左からぼかし画像、元画像、顕著度マップ − 上位𝒕/𝑻のパッチのみを保持した[0, 1]の顕著度マップ

Slide 11

Slide 11 text

iGOS++ 領域を削除しながら重要領域を探すI-GOSを改善する可視化手法 iGOS++では削除だけでなく保存も行う＋平滑化項で連続領域を可視化皆さんよくご存じの勾配ベース可視化手法 • 特徴マップなので解像度が粗い • 勾配ベースはモデル予測と関係がない GradCAM [Selvaraju+, ICCV 2017] ランダムなマスクで重要な領域を推定 • ランダムなので最重要領域とは限らない • マスクの最適化は非凸なので最適化も大変 RISE [Petsiuk+, CVPR 2021] 勾配ではなく累積勾配で重要領域を最適化 • 削除して最適化するだけなので最適解かは不明 • 重要な領域を細切れにしがち I-GOS [Qi+, AAAI 2020] [Khorram+, CHIL 2021]

Slide 12

Slide 12 text

実験設定 • 深層学習モデル – 古いCNN: VGG19, ResNet50 & 新しいCNN: ResNet50-C1/C2/D – ConvNeXt: ConvNeXt-T – Transformer: Swin-T, Nest-T, DeiT-S, PiT-S – CNNから蒸留したTransformer: DeiT-S, PiT-S, LeViT-256 • データセット：ImageNetの検証データセット（最初の5000枚）

Slide 13

Slide 13 text

モデル別のMSEの数とそれぞれのサイズから見えた傾向 MSEの比較による結果 • MSEの数 – CNN, ConvNext, 蒸留Transformer > Transformer • MSEのサイズ – Transformer > CNN, ConvNext, 蒸留Transformer MSE数が多くサイズが小さい＝選言的より少ないパッチで分類できるパターンが多くあるサイズが大きい＝合成的パッチが多少減っても正しく分類できるどちらも隠蔽や欠損には強いメカニズム

Slide 14

Slide 14 text

サブ説明の視覚的な例 • CNNと蒸留 Transformerは – サブ説明小さめ ⇒選言性が高い • ConvNeXtと Transformerは – サブ説明大きめ ⇒合成性が高い • いずれも – 同じようなパッチのどれかを見ている

Slide 15

Slide 15 text

モデル別のサブ説明の数から見えた傾向サブ説明の比較による結果 • ConvNextやTransformer は特にサブ説明が多い＝最近の手法は合成的 – 他のCNNや蒸留Transformer の10倍 • ConvNextは – CNN並みにMSEが多い – CNN並みにMSEが小さい – Transformer並みにサブ説明が多い ConvNeXtも CNNなのに？何が原因？

Slide 16

Slide 16 text

畳込みだとか注意機構だとかは関係なさそう ConvNeXtとSwin-Tをアブレーションしてみた • アブレーション項目 – CNNの畳込みカーネルやTransformerのウィンドウサイズ – 正規化としてのレイヤー正規化、グループ正規化、バッチ正規化 • バッチ正則化 – ConvNeXtもTransformerもCNN並みのMSE数、サイズ、サブ説明数に（左） – バッチ正則化の時だけ、一部の特徴量次元のActivation Valueが大きい（右） – バッチ正則化は特徴量内で次元ごとにバラバラに値を変えることが原因か

Slide 17

Slide 17 text

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが見ているパッチ (iGOS++) 元画像モデル毎事後確率

Slide 18

Slide 18 text

クロス試験の定性的な例 Swin-Tと他とのクロス試験 Swin-Tと他とのクロス試験 VGG19と他とのクロス試験蒸留DeiTと他とのクロス試験モデルが見ているパッチ (iGOS++) 元画像モデル毎事後確率 ConvNeXtと他のとクロス試験の結果を用意しなくてよかったのか？

Slide 19

Slide 19 text

クロス試験の定量的な結果 • 挿入スコアに基づいてモデル同士の類似度を計算 • モデル同士の類似度からカーネルPCAでモデルをプロット ※iGOS++以外のScore-CAM[Wang+, CVPR 2020]でも傾向は同様 ConvNext, CNN, Transformerはそれぞれクラスタが異なる蒸留するとCNNに近づく

Slide 20

Slide 20 text

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer ※ 見やすさのため、論文図8の色を変更して使用

Slide 21

Slide 21 text

どうやって比較した？（再掲） ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見てタイ猫だと思った AI手法その2 この手だけでタイ猫だと思ったここだけ見れば分かるよね？・・・？

Slide 22

Slide 22 text

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer CNN: 余裕 CNN: ここだけ見れば分かるよね？ ConvNeXt: ここだけ見れば分かるよね？ ConvNeXt: 無理 ※ 見やすさのため、論文図8の色を変更して使用

Slide 23

Slide 23 text

モデルのクラスタ間の混同行列あれ、行列が非対称なの？古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer 古いCNNと蒸留Transformer これらが見ているパッチは他のモデルも見ている新しいCNNとConvNeXt、 Transformer 他のモデルが見てないパッチを見ている ⇒アンサンブルすると精度が上がった ※ 見やすさのため、論文図8の色を変更して使用

Slide 24

Slide 24 text

まとめ ConvNeXtやTransformerなどを比較した論文モデルのふるまいへの影響：正規化手法＞受容野のサイズやデータ増幅手法＞注意機構や畳込み今後の機械学習モデル開発でも使ってくれよな！！！