Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Grad-CAM: Visual Explanations from Deep Ne...

論文紹介:Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra, "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization." Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017, pp. 618-626

https://openaccess.thecvf.com/content_iccv_2017/html/Selvaraju_Grad-CAM_Visual_Explanations_ICCV_2017_paper.html

Avatar for Kazuki Adachi

Kazuki Adachi

March 15, 2022
Tweet

More Decks by Kazuki Adachi

Other Decks in Technology

Transcript

  1. 紹介論文 • Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna

    Vedantam, Devi Parikh Dhruv Batra • “Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization” • The IEEE International Conference on Computer Vision (ICCV), 2017, pp. 618-626 2
  2. 研究背景 • 畳み込みニューラルネットワーク(CNN) – 画像認識タスクで高い性能を発揮 – 判断の過程が不透明 • なぜそう判断したのか? •

    誤った判断をした場合に原因の推察が困難 • 精度と透明性はトレードオフの関係 – 例:ルールベース ↔ 深層学習 • ユーザが信頼できる知的システムを構築するためには 精度と透明性の両立が不可欠 4 目的:CNNの判断の根拠を可視化すること
  3. 従来研究 • Class activation mapping (CAM)[1] – CNNがどこを見たかを可視化 – 画像単位のラベルから物体の場所を特定する

    – 可視化ができるようにモデルを改変する必要性あり →モデルの性能が下がる – 提案手法はこれを拡張したもの • Guided backpropagation[2] – 出力の勾配を可視化 – 後述 5 [1] Zhou, Bolei, et al. "Learning deep features for discriminative localization." Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on. IEEE, 2016. [2] Springenberg, Jost Tobias, et al. "Striving for simplicity: The all convolutional net." arXiv preprint arXiv:1412.6806 (2014).
  4. 提案手法(1) Grad-CAM (Gradient-weighted Class Activation Mapping) • 出力ニューロンに大きく影響(勾配)を与えた 部分を可視化する •

    上位層の特徴マップを利用 – 画像の抽象的な特徴が抽出されている →画像の意味的な構造を捉えた可視化が期待できる (class-discriminative) 6
  5. 局所性の評価 Grad-CAMの可視化の性能を物体検出タスクとして評価 • ImageNet localization challenge – 画像のラベルと物体の領域を同時に予測するタスク 1. 画像分類を学習済みのモデル

    (VGG-16)で画像のクラスを予測 2. Grad-CAMにより可視化(ヒートマップ) 3. 最大値の15%以上の値を持つ領域の内, 最大面積の領域を囲む矩形を評価 – Top-1とTop-5のエラー率で評価 8 猫
  6. 評価尺度 準備 • モデルの予測 – クラス:ci (i=1,…,5) (確率が高い順) – 矩形領域:bi

    (i=1,…,5) • 画像のラベル – クラス:Ck (k=1,…,n) – 矩形領域:Bkm (m=1,…,Mk ) エラー率 9 n: 画像のラベル数 Mk : 画像中のクラスCk の物体の数 (bi とBkm の重複が50%以下) クラス分類 クラス分類+領域 Large Scale Visual Recognition Challenge 2014 (ILSVRC2014), http://image-net.org/challenges/LSVRC/2014/index
  7. Grad-CAMの改良 • Grad-CAMの課題: 「どこを見たか」が分かるが「何を見たか」は分からない – 上位層の特徴マップを用いるため,抽象的な領域情報しか残らない – 入力画像レベルでの,判断に寄与した具体的な特徴を知りたい • Guided

    Backpropagation (GBP) – 出力に寄与した入力画像の特徴を可視化する手法 – 入力画像と同等の画質での可視化 – 下位層(抽象度が低い)を見るため被写体の構造が反映されない (class-discriminativeでない) 13 Guided Backpropagationとの組み合わせ (Guided Grad-CAM)
  8. 可視化の妥当性の評価 18 • 可視化された画像から人間が正しいクラスを選択できた割合 手法 スコア [%] Deconvolution 53.33 Guided

    Backpropagation 44.44 Deconvolution Grad-CAM 61.23 Guided Grad-CAM 61.23 提案手法はより良い可視化が行えている
  9. 信頼性の比較(1) 同じ予測に2つの “説明” が与えられたときに どちらのモデルが信頼できるか? • 2つの学習済みモデルを使用 – AlexNet, VGG-16

    – VGG-16の方が分類精度が高いことが知られている • 同じ画像に対して2つのモデルでGuided Grad-CAMによる 可視化を行う – モデルの精度の差の影響を除くために両方のモデルが 正解した画像を使用 – どちらの可視化がより信頼できるかを54人のアンケートにより評価 • 5段階評価 (-2, -1, 0, +1, +2) 19
  10. まとめ • まとめ – Grad-CAMは特徴マップを勾配で重み付けして可視化 – GBPと組み合わせることで更に詳しい根拠を可視化 – 誤判断の定性的な分析が可能になる •

    感想 – ネットワーク構造によらず可視化できるのがGrad-CAMの 特長だったが,可視化に求める精度によっては制約を受けそう – 眼底画像で定量的評価を行うには? – 良い可視化がされている⇒汎化性能が高い とすれば Grad-CAMに制約を加えることで性能を高められる? 23