Slide 1

Slide 1 text

CVPR 2024 読み会 シン・CNN vs. ViT 牛久 祥孝 losnuevetoros

Slide 2

Slide 2 text

2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員 2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~2018.9 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~2023.3 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 2023.12~ 理化学研究所 客員主管研究員 2024.4~ オムロンサイニックエックス株式会社 VP for Research [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station. 自己紹介

Slide 3

Slide 3 text

自己紹介(その他) 主な学術団体活動 ACM・IEEE・電子情報通信学会・情報処理学会・人工知能学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 日本ロボット学会 代議員 日本ディープラーニング協会 有識者会員 共立出版 コンピュータビジョン最前線 編集 科学技術振興機構(JST) CRDS 分野別委員会委員 さきがけ アドバイザー BOOST アドバイザー 産業技術総合研究所 覚醒プロジェクト プロジェクトマネージャー AIロボット駆動科学イニシアティブ 設立準備事務局 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)

Slide 4

Slide 4 text

今日読む論文 TransformerとConvNeXt(など)を比較した論文 Best Student Paper Honorable Mention

Slide 5

Slide 5 text

ConvNeXt?

Slide 6

Slide 6 text

2020年代のConvNet = ConvNeXt • ResNetを拡張したConvNeXt モダンな – データ拡張 – Depth-wise conv – 活性化関数 – 正規化 etc. • Swin-Transformerを超えるよ! [Liu+, CVPR 2022]

Slide 7

Slide 7 text

どうやって比較した? ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見て タイ猫だと思った AI手法その2 この手だけで タイ猫だと思った ここだけ見れば 分かるよね? ・・・?

Slide 8

Slide 8 text

サブ説明カウント (Sub-Explanation Counting) • Minimal Sufficient Explanation (MSE) – 9割の尤度比を満たす最小パッチ集合 • =任意の部分集合が尤度比9割未満 • それ以外の画像は黒/ぼかし – ビームサーチで全て探索 • サブ説明カウント – MSEを親としてパッチを一つずつ削除(ぼかす) →子ノードへ – もし尤度比が5割以上なら上記を繰り返し、下回れば止める 基準尤度を上回るノードの数を数える

Slide 9

Slide 9 text

合成性 (Compositionality) と選言性 (Disjunctivism) • 合成性の高い挙動(画像上側):MSEのパッチが多く、削除しても尤度が高め • 選言性の高い挙動(画像下側):パッチが少なく、尤度が元画像より高い

Slide 10

Slide 10 text

クロス試験 (Cross-Testing) • 挿入メトリック:あるパッチを挿入した時の尤度𝑓𝑐 の増分 • クロス試験 – 1つ目の深層学習モデル(Swin-T)から 2つ目の深層学習モデル(VGG-19)への クロス試験の例☞ – 正規化された挿入メトリックの累積和を プロットしてAUC(曲線下面積)を計算 𝑡ステップ後の摂動画像 即ち 、かつ ※論文の式(2)は符号を間違っているので注意 左からぼかし画像、元画像、顕著度マップ − 上位𝒕/𝑻のパッチのみを保持した[0, 1]の顕著度マップ

Slide 11

Slide 11 text

iGOS++ 領域を削除しながら重要領域を探すI-GOSを改善する可視化手法 iGOS++では削除だけでなく保存も行う+平滑化項で連続領域を可視化 皆さんよくご存じの勾配ベース可視化手法 • 特徴マップなので解像度が粗い • 勾配ベースはモデル予測と関係がない GradCAM [Selvaraju+, ICCV 2017] ランダムなマスクで重要な領域を推定 • ランダムなので最重要領域とは限らない • マスクの最適化は非凸なので最適化も大変 RISE [Petsiuk+, CVPR 2021] 勾配ではなく累積勾配で重要領域を最適化 • 削除して最適化するだけなので最適解かは不明 • 重要な領域を細切れにしがち I-GOS [Qi+, AAAI 2020] [Khorram+, CHIL 2021]

Slide 12

Slide 12 text

実験設定 • 深層学習モデル – 古いCNN: VGG19, ResNet50 & 新しいCNN: ResNet50-C1/C2/D – ConvNeXt: ConvNeXt-T – Transformer: Swin-T, Nest-T, DeiT-S, PiT-S – CNNから蒸留したTransformer: DeiT-S, PiT-S, LeViT-256 • データセット:ImageNetの検証データセット(最初の5000枚)

Slide 13

Slide 13 text

モデル別のMSEの数とそれぞれのサイズから見えた傾向 MSEの比較による結果 • MSEの数 – CNN, ConvNext, 蒸留Transformer > Transformer • MSEのサイズ – Transformer > CNN, ConvNext, 蒸留Transformer MSE数が多くサイズが小さい=選言的 より少ないパッチで分類できるパターンが多くある サイズが大きい=合成的 パッチが多少減っても正しく分類できる どちらも隠蔽や欠損には強いメカニズム

Slide 14

Slide 14 text

サブ説明の視覚的な例 • CNNと蒸留 Transformerは – サブ説明小さめ ⇒選言性が高い • ConvNeXtと Transformerは – サブ説明大きめ ⇒合成性が高い • いずれも – 同じようなパッチの どれかを見ている

Slide 15

Slide 15 text

モデル別のサブ説明の数から見えた傾向 サブ説明の比較による結果 • ConvNextやTransformer は特にサブ説明が多い =最近の手法は合成的 – 他のCNNや蒸留Transformer の10倍 • ConvNextは – CNN並みにMSEが多い – CNN並みにMSEが小さい – Transformer並みにサブ説 明が多い ConvNeXtも CNNなのに? 何が原因?

Slide 16

Slide 16 text

畳込みだとか注意機構だとかは関係なさそう ConvNeXtとSwin-Tをアブレーションしてみた • アブレーション項目 – CNNの畳込みカーネルやTransformerのウィンドウサイズ – 正規化としてのレイヤー正規化、グループ正規化、バッチ正規化 • バッチ正則化 – ConvNeXtもTransformerもCNN並みのMSE数、サイズ、サブ説明数に(左) – バッチ正則化の時だけ、一部の特徴量次元のActivation Valueが大きい(右) – バッチ正則化は特徴量内で次元ごとにバラバラに値を変えることが原因か

Slide 17

Slide 17 text

クロス試験の定性的な例 Swin-Tと 他とのクロス試験 Swin-Tと 他とのクロス試験 VGG19と 他とのクロス試験 蒸留DeiTと 他とのクロス試験 モデルが 見ている パッチ (iGOS++) 元画像 モデル毎 事後確率

Slide 18

Slide 18 text

クロス試験の定性的な例 Swin-Tと 他とのクロス試験 Swin-Tと 他とのクロス試験 VGG19と 他とのクロス試験 蒸留DeiTと 他とのクロス試験 モデルが 見ている パッチ (iGOS++) 元画像 モデル毎 事後確率 ConvNeXtと 他のとクロス試験の結果を 用意しなくてよかったのか?

Slide 19

Slide 19 text

クロス試験の定量的な結果 • 挿入スコアに基づいてモデル同士の類似度を計算 • モデル同士の類似度からカーネルPCAでモデルをプロット ※iGOS++以外のScore-CAM[Wang+, CVPR 2020]でも傾向は同様 ConvNext, CNN, Transformerはそれぞ れクラスタが異なる 蒸留するとCNNに近づく

Slide 20

Slide 20 text

モデルのクラスタ間の混同行列 あれ、行列が非対称なの? 古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer ※ 見やすさのため、論文図8の色を変更して使用

Slide 21

Slide 21 text

どうやって比較した?(再掲) ×画像単体での比較 ✓データ全体に対する統計的アプローチ 1. サブ説明カウント 2. クロス試験 AI手法その1 全体的に見て タイ猫だと思った AI手法その2 この手だけで タイ猫だと思った ここだけ見れば 分かるよね? ・・・?

Slide 22

Slide 22 text

モデルのクラスタ間の混同行列 あれ、行列が非対称なの? 古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer CNN: 余裕 CNN: ここだけ見れば 分かるよね? ConvNeXt: ここだけ見れば 分かるよね? ConvNeXt: 無理 ※ 見やすさのため、論文図8の色を変更して使用

Slide 23

Slide 23 text

モデルのクラスタ間の混同行列 あれ、行列が非対称なの? 古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer 古いCNNと 蒸留Transformer これらが見ているパッチ は他のモデルも見ている 新しいCNNとConvNeXt、 Transformer 他のモデルが見てない パッチを見ている ⇒アンサンブルすると精度 が上がった ※ 見やすさのため、論文図8の色を変更して使用

Slide 24

Slide 24 text

まとめ ConvNeXtやTransformerなどを比較した論文 モデルのふるまいへの影響: 正規化手法>受容野のサイズやデータ増幅手法>注意機構や畳込み 今後の機械学習モデル開発でも使ってくれよな!!!