[Journal club] Full-Gradient Representation for Neural Network Visualization

Full-Gradient Representation for Neural Network Visualization Suraj Srinivas and Francois
Fleuret. Idiap Research Institute, EPFL NeurIPS, 2019. 慶應義塾大学杉浦孔明研究室 B4小松拓実 Srinivas, Suraj, and François Fleuret. "Full-gradient representation for neural network visualization." Advances in neural information processing systems 32 (2019).

2 概要・説明手法が満たすべき二つの性質(弱依存性と完全性)を定義・上記二つの性質を同時に満たす既存説明手法はほぼ存在しないことを示す・上記二つの性質を同時に満たすfull-gradientを提案・実験結果より、既存手法より鮮明な視覚的説明を生成することを示した

3 背景 : 説明性は暗黙的に二つのことが求められる 1. local attribution 入力の1部の値を変えたとき、モデルの出力に大きな影響を与える箇所が重要と判断 2.
global attribution 顕著性マップは、出力を完全に説明すべきモデルの数値的な出力は、入力の各特徴量に分配入力を変化 ⇨ 左画素の方が重要と判断される(べき) 確率 0.9 -> 0.4 確率 0.9 -> 0.8 犬の確率0.9 0.6 0.1 0.15 0.03 = 0.6 + 0.1 + 0.15 + 0.03 + (他)

4 関連研究 : 微分系の手法ではバイアスを考慮できない説明手法概要 Input-Gradient [Karen+, ICLR13] 出力に対する入力の勾配から
顕著性マップを作成する手法 DeconvNet[Matthew+, ECCV14] Guided-Backprop[Tobias+, ICLR15] 入力勾配に対する逆伝播の方法を変えることで鮮明化した手法 Deep Taylor decomposition[Gregoire+,PR17] DeepLIFT[Shrikumar+, JMLR17] 顕著性マップとモデルの出力との関係を数値的に求めた手法(完全性を満たす) Input-Gradient Guided-Backprop Deep Taylor decomposition

5 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎
𝑓, 𝒙 : 𝑥の𝑓に対する説明・数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力・線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない入力が属する集合によってパラメータが変わる関数を線形関数の集合で表すことを考えるテーブルデータの例 [引用: https://github.com/slundberg/shap]

𝑓, 𝒙 : 𝑥の𝑓に対する説明・数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力・線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない入力が属する集合によってパラメータが変わる関数を線形関数の集合で表すことを考える画像の例

𝑓, 𝒙 : 𝑥の𝑓に対する説明・数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力・線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 𝑥! 𝑥" y 𝑏 𝑤$ 𝑤% 1 𝑆 𝒙 = 𝒘 = [w! , w" ] 入力が属する集合によってパラメータが変わる関数を線形関数の集合で表すことを考える例) 部屋の数例) 敷地面積例) 家賃 𝑓 = 𝑤$𝑥$ + 𝑤%𝑥% + 𝑏

8 提案手法 : 弱依存性を具体例で説明 -- 区分線形関数-- 𝑓 𝑥 = 3
𝒘𝟎 𝑻𝒙 + 𝑏( 𝒙 ∈ 𝑼𝟎 … 𝒘𝒏 𝑻𝒙 + 𝑏* 𝒙 ∈ 𝑼𝒏 ・弱依存性 (weak dependence) の定義 𝑥が属する集合で属する線形関数が異なる関数 𝑈+ 𝑈, 𝑈- 𝑈* 𝑆 𝑥 は入力𝑥自体に依存しないが、 𝑥の属する集合𝑈.に依存するという間接的な”弱い依存性”がある。

9 提案手法 : global attributionとして完全性を定義出力 𝑆(𝑥)を顕著性マップ、𝑓をモデルの関数、𝑥を入力とする・ ∀
𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) また、あるbaseline 𝑥(で完全であるとは、 𝑆(𝑥()を𝑥(の顕著性マップとしたとき・ ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( )) 顕著性マップ𝑆 𝑥 と入力𝑥から元の関数𝑓が表現可能であるモデル・完全性 (completeness)の定義 𝑓 𝑥 𝑆(𝑥) 𝜙 ⇨ 二つの性質を同時に満たす説明𝑆は存在しない

10 提案手法 : full-gradients --重みとバイアスの影響を両方を反映-- ・full-gradients 重み(𝑤)に加えてニューラルネットのバイアスを考慮した手法を提案 𝑓 𝒙;
𝑏 = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ) #∈[&,(] (∇* 𝑓 𝒙; 𝑏 ⊙ 𝑏) 入力勾配バイアス勾配 full-gradients = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ∇* 𝑓 𝒙; 𝑏 "𝑏 𝑓 𝑥 = 𝑎 − 𝑅𝑒𝐿𝑈(𝑏 − 𝑥) , a=b=1とする ▪ 既存手法 𝑥 = 2のとき、𝑓 2 = 1だが、入力勾配 = 0 ▪ full-gradients 入力勾配 = 0 バイアス勾配 = (1, 0) ⇨ 弱依存性と完全性を満たすことを証明(略)

11 提案手法 : full-gradientsのCNNへの応用 -- FullGrad -- ・FullGrad S; 𝑥
= 𝜙 ∇<𝑓 𝒙 ⊙ 𝒙 + / #∈% / &∈&! 𝜙(∇' 𝑓 𝒙, 𝑏 ⊙ 𝑏) 畳み込み層でのバイアス勾配は以下 𝒛 = 𝒘 ∗ 𝒙 + 𝑏 ∇* 𝑓 𝒙, 𝑏 ⊙ 𝑏 = ∇𝒛 𝑓 𝒙 ⊙ 𝑏 ∈ 𝑅, 𝒘 ∗ 𝒙: padding適用後の畳み込み・FullGrad ⇨ 層ごとの顕著性マップの可視化が可能 ⇨ 全顕著性マップを集約し、FullGradとする 𝜙:任意の事後処理関数(upsampleなど) ※ FullGradは弱依存性、完全性を同時には満たさない

12 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換
-- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]

-- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.20 0.10 0.90 ⇨ 0.90 ⇨

-- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.88 0.85 0.90 ⇨ 0.90 ⇨

-- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]

16 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 --
変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待重要でない箇所を重点とする Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]

17 -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待重要でない箇所を重点とする Pixel perturbationと対照的に、
ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) ▪ 第一段階: 学習を行うモデル ▪ 第二段階: 学習を行うモデル 0.90 0.20 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果・ROAR[Sara+, NeurIPS19]

18 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待重要でない箇所を重点とする
Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) d Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17] 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果

19 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input
gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]

22 Appendix : 動かしてみた ▪ 成功例 : いくつかの手法で比較 ▪ 失敗?例:
GitHub issueにあったもの ▪FullGrad ▪Grad-CAM ▪FullGrad ▪Grad-CAM à Checker boardのような模様が生じている

23 まとめ ⇨ 弱依存性(weak dependence)と完全性(completeness)を提案・暗黙的な知見であったlocal attributionとglobal attributionを定義・弱依存性と完全性を同時に満たすfull-gradientsを導入
⇨ 既存手法による視覚的説明よりも表現力がある・CNNベースのモデルへの応用としてFullGradを提案・pixel perturbation と ROAR(remove-and-retrain)を用いて定量的評価 ⇨ FullGradが既存手法を上回ることを示した

Appendix 背景2: ピクセル単位では捉えきれない情報が含まれる・1pixelをマスクすることを考える・“犬”と判断することは可能である ⇨ 予測への影響は小さい・特定のpixelの集合をマスクする・“犬”か “猫”かの判定が困難
⇨ 予測への影響は大きい 24

25 Appendix: Integrated-gradient[Mukund+,2017]は弱依存性を満たさない・Integrated-gradient[Sundararajan+, ICML17] 𝐼𝐺# 𝒙 = 𝑥# −
𝑥# - × 7 ./0 & 𝜕𝑓(𝑥- + 𝛼(𝑥- − 𝑥) 𝜕𝑥# 𝑑𝛼 𝑥A: baseline, 𝑥.: 𝑥のi番目の要素 𝑓 𝑥$ , 𝑥% = 3 𝑥$ + 3𝑥% (𝑥$ , 𝑥% ≤ 1) 3𝑥$ + 𝑥% (𝑥$ , 𝑥% > 1) 0 (𝑜𝑡𝑒𝑟𝑤𝑖𝑠𝑒) 𝑥! , 𝑥" ∈ ℝ" ・簡単な区分線形関数で考える・同じ集合に属する例を考える baselineを𝑥A = 0とする 𝑥& , 𝑥1 = (4, 4) → 𝐼𝐺 4,4 = (10, 6) : 𝑥&をより重視している 𝑥& , 𝑥1 = (1.5, 1.5) → 𝐼𝐺 1.5,1.5 = (2.5, 3.5) : 𝑥1 をより重視している 𝑥& , 𝑥1 = (2, 2) → 𝐼𝐺 2,2 = (1.5, 1.5) : 同程度に重視している ⇨ 弱依存性を満たさない

26 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (1) baseline𝒙(に対して完全 𝑓 𝒙 = 𝒘$ #𝒙
+ 𝑏$(𝒙 ∈ 𝑈$) 𝒘% #𝒙 + 𝑏% (𝒙 ∈ 𝑈% ) … 𝒘* #𝒙 + 𝑏* (𝒙 ∈ 𝑈* ) 𝑥! , 𝑥" ∈ ℝ" 区分線形関数に対して、弱依存性・完全性を満たす 𝑆は存在しないことを示す ▪ 方針 ▪ 数式の定義・弱依存性 : 以下の区分線形関数を考える・完全性 : 以下の区分線形関数を考える・𝑈.: 開放連結集合・𝑆 𝒙 = 𝜎(𝑓, 𝒙) : saliency map ∀ 𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( ))

27 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (2) Saliency mapの定義より ▪ 準備 (1) ▪
準備 (2) この集合に対して二つの異なる関数 𝜎: 𝑓, 𝒙 → 𝑆 となる写像𝜎が存在続いて、同一の開放連結集合上 𝑈. (𝑖 ∈ 1, 𝑛 ) で定義される区分線形関数を考える 𝑓 ∶ 𝜃 = 𝒘. , 𝑏. 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) 𝑓′ ∶ 𝜃′ = 𝒘A ., 𝑏A . 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) を考える。さらに、弱依存性が示すのは、 𝜎 O D) : 𝒘. , 𝑏. → 𝑆 となり、 𝒘. , 𝑏. ∈ 𝑅"C$, 𝑆 ∈ 𝑅"より 𝜎|D) は多対一の関数である

28 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (3) 準備 (1) (2)より ▪ 準備 (3)
𝑈.上で、それぞれのパラメータをもち、同じsaliency map 𝑆にに写像する区分線形関数𝑓, 𝑓′が存在する 𝜽. = (𝒘., 𝑏.) 𝜽. A = (𝒘. A, 𝑏. A) 𝜽 ≠ 𝜽. A

29 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (4) 完全性の最初の定義より ▪ 完全性について (1) が成立する。ある入力𝒙
∈ 𝑈.に対して同じ𝑆に写像する 2つの異なる区分線形関数𝑓, 𝑓′に対して 𝜙: 𝑆, 𝒙 → 𝑓(𝒙) 𝒘𝒊 = 𝒘𝒊 A かつ 𝑏. = 𝑏. A 𝜙 𝑆, 𝒙 = 𝑓 𝒙 = 𝒘. #𝒙 + 𝑏. (a) が存在する。 𝜙 𝑆, 𝒙 = 𝑓A 𝒙 = 𝒘𝒊 A𝑻 𝒙 + 𝑏. A (b) (a), (b)の成立条件はが成り立つときのみである。一方で、最初の定義よりより不適 𝜽 ≠ 𝜽. A

30 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (5) 完全性の二つ目の定義より ▪ 完全性について (2) が成立ことが必要であるベースライン入力を𝒙(
∈ 𝑈Fとすると同様に 2つの異なる区分線形関数𝑓, 𝑓′が存在し 𝜙G : 𝑆, 𝑆( 𝒙, 𝒙( → 𝑓 𝒙 − 𝑓(𝒙( ) 𝜙G 𝑆, 𝑆(, 𝒙, 𝒙( = 𝑓 𝒙 − 𝑓 𝒙( = 𝒘. #𝒙 + 𝑏. − 𝒘F #𝒙 − 𝑏F が存在する。 𝒘. = 𝒘. A, 𝒘F = 𝒘F A, 𝑏. − 𝑏. A = 𝑏F − 𝑏F A 同じsaliency map 𝑆に写像する 𝜙G 𝑆, 𝑆( , 𝒙, 𝒙( = 𝑓′ 𝒙 − 𝑓′ 𝒙( = 𝒘𝒊 A𝑻𝒙 + 𝑏. A − 𝒘𝒋 A𝑻𝒙 − 𝑏F A 成立条件は、が全て成り立つ時のみであるが、一般的に成り立たない。よって不適

31 Appendix: 𝑏! − 𝑏! " = 𝑏# − 𝑏#
"が成り立つ条件について補足 (6) ▪ 𝑏. − 𝑏. A = 𝑏F − 𝑏F Aが成り立つ条件この場合、 𝑏. , 𝑏. A, 𝑏F , 𝑏F Aは全て0であるため (1) バイアス項を持たない区分線形モデル (例: バイアス項を持たないReLU NN) 上記条件式が成り立つ (2) 一部の線形モデルまたは𝒙と𝒙(が同じ線形部分上にあるこの場合、𝑏. = 𝑏Fとなるので上記条件式が成り立つ (1)(2)はコーナーケースであり、一般的にはバイアスに関する条件は成り立たないと考えて良い

32 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (1) Full-gradientは以下で定義 ▪ 前提 ▪ 命題5の証明 ReLUの次の性質(同質性)より
バイアス項なしのReLUネットワーク𝑓は 𝐺 = ∇I f 𝐱 , fJ 𝐱 ∈ 𝑅KC" ▪ 命題5 𝑓 𝒙 = ∇< 𝑓 𝒙 #𝒙 と表される max 0, 𝑘𝑥 = 𝑘 max 0, 𝑥 (a) 𝑘 ≥ 0のとき以下が成立 𝑓 𝑘𝒙 = 𝑘𝑓(𝒙) ここで、1次のテイラー級数より以下が得られる 𝑓 1 + 𝜖 𝒙 = 𝑓 𝑥 + 𝜖𝑓 𝒙 = 𝑓 𝒙 + 𝜖𝒙#∇𝒙 𝑓 𝒙 上記を整理して得られる

33 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (2) ▪ 命題6 ▪ 命題6の証明の続きバイアス入力𝒙L =
1K(単位ベクトル)をバイアス𝒃 ∈ 𝑅Kを持つReLUネットワーク𝑓は ▪ 命題6の証明 (次ページへ) 𝑓(𝐱, 𝐱𝐛)は入力(𝒙, 𝒙𝒃)を持つ一次関数となるここで命題より以下を得ると表される導入し、𝒃を乗じることとする。 (b) (c)

34 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (3) ▪ 命題6の証明の続きさらに連鎖律を用いることでここで𝑓に対し連鎖律を用いる従って(b)式が成り立つと表される
∇𝒙𝒃 𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 = ∇𝒛𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 ⨀𝒃 𝒛 ∈ 𝑅Kを活性化関数前の値とすると ∇𝒛 𝑓 𝒙, 𝒙𝒃 ; 𝒃, 𝒛 ⨀𝒃 = ∇𝒃 𝑓(𝒙, 𝒙𝒃 ; 𝒃, 𝒛) と表される (b) この式より、入力(𝒙, 𝒙𝒃)が与えられれば 𝑓を完全に復元することができるので、完全性を満たす

35 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (4) ▪ 弱依存性の証明入力勾配は線形領域に対して局所的に一定であるのは明らか。従って入力勾配は弱依存性を満たすバイアス勾配が弱依存性を
満たすことを示せば良い・入力勾配に関して・バイアス勾配に関して ▪ 方針隠れ層1層のReLUネットワーク𝑓を考える 𝑓 𝑥 = 𝑤$ ∗ 𝑟𝑒𝑙𝑢 𝑤( ∗ 𝑥 + 𝑏( + 𝑏$ 𝑓 𝑥 ∈ 𝑅 さらに、𝜌を次式で定義する 𝜌 𝑧 = 𝑑 𝑟𝑒𝑙𝑢 𝑧 𝑑𝑧 すなわち、 reluの出力とその入力に対する微分とする (d)

36 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (5) ▪ 弱依存性の証明の続き (d)式に関して、𝑏(の勾配は 𝑑𝑓 𝑑𝑏( =
𝑤$ ∗ 𝜌(𝑤( ∗ 𝑥 + 𝑏() 従って、各線形領域における非線形型の導関数は一定である。同様の議論を, より深いネットワークにも再帰的に適用することで、バイアス項も満たす 1つの隠れ層ネットワークでは、バイアス勾配は各線形領域で一定従って、full-gradientは・弱依存性・完全性を共に満たす

37 Appendix : 元画像を重ねていない結果

38 Appendix : 実験設定 ▪ Pixel Perturbation ImageNet2012 dataset CIFAR100
dataset https://cv.gluon.ai/build/examples_datasets/imagenet.html https://www.cs.toronto.edu/~kriz/cifar.html 3回実験 ▪ ROAR (remove and retrain) VGG-16 9層のVGG , 3回実験

[Journal club] Full-Gradient Representation for...

[Journal club] Full-Gradient Representation for Neural Network Visualization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript