Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Full-Gradient Representation for Neural Network Visualization

[Journal club] Full-Gradient Representation for Neural Network Visualization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Full-Gradient Representation for Neural Network Visualization Suraj Srinivas and Francois

    Fleuret. Idiap Research Institute, EPFL NeurIPS, 2019. 慶應義塾大学 杉浦孔明研究室 B4小松 拓実 Srinivas, Suraj, and François Fleuret. "Full-gradient representation for neural network visualization." Advances in neural information processing systems 32 (2019).
  2. 2 概要 ・説明手法が満たすべき二つの性質(弱依存性と完全性)を定義 ・上記二つの性質を同時に満たす既存説明手法はほぼ存在しないことを示す ・上記二つの性質を同時に満たすfull-gradientを提案 ・実験結果より、既存手法より鮮明な視覚的説明を生成することを示した

  3. 3 背景 : 説明性は暗黙的に二つのことが求められる 1. local attribution 入力の1部の値を変えたとき、モデルの出力に 大きな影響を与える箇所が重要と判断 2.

    global attribution 顕著性マップは、出力を完全に説明すべき モデルの数値的な出力は、入力の各特徴量に分配 入力を変化 ⇨ 左画素の方が重要と判断される(べき) 確率 0.9 -> 0.4 確率 0.9 -> 0.8 犬の確率0.9 0.6 0.1 0.15 0.03 = 0.6 + 0.1 + 0.15 + 0.03 + (他)
  4. 4 関連研究 : 微分系の手法ではバイアスを考慮できない 説明手法 概要 Input-Gradient [Karen+, ICLR13] 出力に対する入力の勾配から

    顕著性マップを作成する手法 DeconvNet[Matthew+, ECCV14] Guided-Backprop[Tobias+, ICLR15] 入力勾配に対する逆伝播の方法を 変えることで鮮明化した手法 Deep Taylor decomposition[Gregoire+,PR17] DeepLIFT[Shrikumar+, JMLR17] 顕著性マップとモデルの出力との関係を数 値的に求めた手法(完全性を満たす) Input-Gradient Guided-Backprop Deep Taylor decomposition
  5. 5 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える テーブルデータの例 [引用: https://github.com/slundberg/shap]
  6. 6 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える 画像の例
  7. 7 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 𝑥! 𝑥" y 𝑏 𝑤$ 𝑤% 1 𝑆 𝒙 = 𝒘 = [w! , w" ] 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える 例) 部屋の数 例) 敷地面積 例) 家賃 𝑓 = 𝑤$𝑥$ + 𝑤%𝑥% + 𝑏
  8. 8 提案手法 : 弱依存性を具体例で説明 -- 区分線形関数-- 𝑓 𝑥 = 3

    𝒘𝟎 𝑻𝒙 + 𝑏( 𝒙 ∈ 𝑼𝟎 … 𝒘𝒏 𝑻𝒙 + 𝑏* 𝒙 ∈ 𝑼𝒏 ・弱依存性 (weak dependence) の定義 𝑥が属する集合で属する線形関数が異なる関数 𝑈+ 𝑈, 𝑈- 𝑈* 𝑆 𝑥 は入力𝑥自体に依存しないが、 𝑥の属する集合𝑈.に依存するという 間接的な”弱い依存性”がある。
  9. 9 提案手法 : global attributionとして完全性を定義 出 力 𝑆(𝑥)を顕著性マップ、𝑓をモデルの関数、𝑥を入力とする ・ ∀

    𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) また、あるbaseline 𝑥(で完全であるとは、 𝑆(𝑥()を𝑥(の顕著性マップとしたとき ・ ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( )) 顕著性マップ𝑆 𝑥 と入力𝑥から元の関数𝑓が表現可能である モデル ・完全性 (completeness)の定義 𝑓 𝑥 𝑆(𝑥) 𝜙 ⇨ 二つの性質を同時に満たす説明𝑆は存在しない
  10. 10 提案手法 : full-gradients --重みとバイアスの影響を両方を反映-- ・full-gradients 重み(𝑤)に加えてニューラルネットのバイアスを 考慮した手法を提案 𝑓 𝒙;

    𝑏 = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ) #∈[&,(] (∇* 𝑓 𝒙; 𝑏 ⊙ 𝑏) 入力勾配 バイアス勾配 full-gradients = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ∇* 𝑓 𝒙; 𝑏 "𝑏 𝑓 𝑥 = 𝑎 − 𝑅𝑒𝐿𝑈(𝑏 − 𝑥) , a=b=1とする ▪ 既存手法 𝑥 = 2のとき、𝑓 2 = 1だが、 入力勾配 = 0 ▪ full-gradients 入力勾配 = 0 バイアス勾配 = (1, 0) ⇨ 弱依存性と完全性を満たすことを証明(略)
  11. 11 提案手法 : full-gradientsのCNNへの応用 -- FullGrad -- ・FullGrad S; 𝑥

    = 𝜙 ∇<𝑓 𝒙 ⊙ 𝒙 + / #∈% / &∈&! 𝜙(∇' 𝑓 𝒙, 𝑏 ⊙ 𝑏) 畳み込み層でのバイアス勾配は以下 𝒛 = 𝒘 ∗ 𝒙 + 𝑏 ∇* 𝑓 𝒙, 𝑏 ⊙ 𝑏 = ∇𝒛 𝑓 𝒙 ⊙ 𝑏 ∈ 𝑅, 𝒘 ∗ 𝒙: padding適用後の畳み込み ・FullGrad ⇨ 層ごとの顕著性マップの可視化が可能 ⇨ 全顕著性マップを集約し、FullGradとする 𝜙:任意の事後処理関数(upsampleなど) ※ FullGradは弱依存性、完全性を同時には満たさない
  12. 12 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  13. 13 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.20 0.10 0.90 ⇨ 0.90 ⇨
  14. 14 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.88 0.85 0.90 ⇨ 0.90 ⇨
  15. 15 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  16. 16 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 --

    変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  17. 17 -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする Pixel perturbationと対照的に、

    ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) ▪ 第一段階: 学習を行う モデル ▪ 第二段階: 学習を行う モデル 0.90 0.20 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果 ・ROAR[Sara+, NeurIPS19]
  18. 18 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする

    Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) d Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17] 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果
  19. 19 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  20. 20 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  21. 21 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  22. 22 Appendix : 動かしてみた ▪ 成功例 : いくつかの手法で比較 ▪ 失敗?例:

    GitHub issueにあったもの ▪FullGrad ▪Grad-CAM ▪FullGrad ▪Grad-CAM à Checker boardのような模様が生じている
  23. 23 まとめ ⇨ 弱依存性(weak dependence)と 完全性(completeness)を提案 ・暗黙的な知見であったlocal attributionとglobal attributionを定義 ・弱依存性と完全性を同時に満たすfull-gradientsを導入

    ⇨ 既存手法による視覚的説明よりも表現力がある ・CNNベースのモデルへの応用としてFullGradを提案 ・pixel perturbation と ROAR(remove-and-retrain)を用いて定量的評価 ⇨ FullGradが既存手法を上回ることを示した
  24. Appendix 背景2: ピクセル単位では捉えきれない情報が含まれる ・1pixelをマスクすることを考える ・“犬”と判断することは可能である ⇨ 予測への影響は小さい ・特定のpixelの集合をマスクする ・“犬”か “猫”かの判定が困難

    ⇨ 予測への影響は大きい 24
  25. 25 Appendix: Integrated-gradient[Mukund+,2017]は弱依存性を満たさない ・Integrated-gradient[Sundararajan+, ICML17] 𝐼𝐺# 𝒙 = 𝑥# −

    𝑥# - × 7 ./0 & 𝜕𝑓(𝑥- + 𝛼(𝑥- − 𝑥) 𝜕𝑥# 𝑑𝛼 𝑥A: baseline, 𝑥.: 𝑥のi番目の要素 𝑓 𝑥$ , 𝑥% = 3 𝑥$ + 3𝑥% (𝑥$ , 𝑥% ≤ 1) 3𝑥$ + 𝑥% (𝑥$ , 𝑥% > 1) 0 (𝑜𝑡𝑒𝑟𝑤𝑖𝑠𝑒) 𝑥! , 𝑥" ∈ ℝ" ・簡単な区分線形関数で考える ・同じ集合に属する例を考える baselineを𝑥A = 0とする 𝑥& , 𝑥1 = (4, 4) → 𝐼𝐺 4,4 = (10, 6) : 𝑥&をより重視している 𝑥& , 𝑥1 = (1.5, 1.5) → 𝐼𝐺 1.5,1.5 = (2.5, 3.5) : 𝑥1 をより重視している 𝑥& , 𝑥1 = (2, 2) → 𝐼𝐺 2,2 = (1.5, 1.5) : 同程度に重視している ⇨ 弱依存性を満たさない
  26. 26 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (1) baseline𝒙(に対して完全 𝑓 𝒙 = 𝒘$ #𝒙

    + 𝑏$(𝒙 ∈ 𝑈$) 𝒘% #𝒙 + 𝑏% (𝒙 ∈ 𝑈% ) … 𝒘* #𝒙 + 𝑏* (𝒙 ∈ 𝑈* ) 𝑥! , 𝑥" ∈ ℝ" 区分線形関数に対して、 弱依存性・完全性を満たす 𝑆は存在しないことを示す ▪ 方針 ▪ 数式の定義 ・弱依存性 : 以下の区分線形関数を考える ・完全性 : 以下の区分線形関数を考える ・𝑈.: 開放連結集合 ・𝑆 𝒙 = 𝜎(𝑓, 𝒙) : saliency map ∀ 𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( ))
  27. 27 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (2) Saliency mapの定義より ▪ 準備 (1) ▪

    準備 (2) この集合に対して二つの異なる関数 𝜎: 𝑓, 𝒙 → 𝑆 となる写像𝜎が存在 続いて、 同一の開放連結集合上 𝑈. (𝑖 ∈ 1, 𝑛 ) で定義される区分線形関数を考える 𝑓 ∶ 𝜃 = 𝒘. , 𝑏. 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) 𝑓′ ∶ 𝜃′ = 𝒘A ., 𝑏A . 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) を考える。 さらに、弱依存性が示すのは、 𝜎 O D) : 𝒘. , 𝑏. → 𝑆 となり、 𝒘. , 𝑏. ∈ 𝑅"C$, 𝑆 ∈ 𝑅"より 𝜎|D) は多対一の関数である
  28. 28 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (3) 準備 (1) (2)より ▪ 準備 (3)

    𝑈.上で、それぞれのパラメータ をもち、同じsaliency map 𝑆に に写像する区分線形関数𝑓, 𝑓′が存在する 𝜽. = (𝒘., 𝑏.) 𝜽. A = (𝒘. A, 𝑏. A) 𝜽 ≠ 𝜽. A
  29. 29 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (4) 完全性の最初の定義より ▪ 完全性について (1) が成立する。 ある入力𝒙

    ∈ 𝑈.に対して同じ𝑆に写像する 2つの異なる区分線形関数𝑓, 𝑓′に対して 𝜙: 𝑆, 𝒙 → 𝑓(𝒙) 𝒘𝒊 = 𝒘𝒊 A かつ 𝑏. = 𝑏. A 𝜙 𝑆, 𝒙 = 𝑓 𝒙 = 𝒘. #𝒙 + 𝑏. (a) が存在する。 𝜙 𝑆, 𝒙 = 𝑓A 𝒙 = 𝒘𝒊 A𝑻 𝒙 + 𝑏. A (b) (a), (b)の成立条件は が成り立つときのみである。 一方で、最初の定義より より不適 𝜽 ≠ 𝜽. A
  30. 30 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (5) 完全性の二つ目の定義より ▪ 完全性について (2) が成立ことが必要である ベースライン入力を𝒙(

    ∈ 𝑈Fとすると同様に 2つの異なる区分線形関数𝑓, 𝑓′が存在し 𝜙G : 𝑆, 𝑆( 𝒙, 𝒙( → 𝑓 𝒙 − 𝑓(𝒙( ) 𝜙G 𝑆, 𝑆(, 𝒙, 𝒙( = 𝑓 𝒙 − 𝑓 𝒙( = 𝒘. #𝒙 + 𝑏. − 𝒘F #𝒙 − 𝑏F が存在する。 𝒘. = 𝒘. A, 𝒘F = 𝒘F A, 𝑏. − 𝑏. A = 𝑏F − 𝑏F A 同じsaliency map 𝑆に写像する 𝜙G 𝑆, 𝑆( , 𝒙, 𝒙( = 𝑓′ 𝒙 − 𝑓′ 𝒙( = 𝒘𝒊 A𝑻𝒙 + 𝑏. A − 𝒘𝒋 A𝑻𝒙 − 𝑏F A 成立条件は、 が全て成り立つ時のみであるが、 一般的に成り立たない。 よって不適
  31. 31 Appendix: 𝑏! − 𝑏! " = 𝑏# − 𝑏#

    "が成り立つ条件について補足 (6) ▪ 𝑏. − 𝑏. A = 𝑏F − 𝑏F Aが成り立つ条件 この場合、 𝑏. , 𝑏. A, 𝑏F , 𝑏F Aは全て0であるため (1) バイアス項を持たない区分線形モデル (例: バイアス項を持たないReLU NN) 上記条件式が成り立つ (2) 一部の線形モデル または𝒙と𝒙(が同じ線形部分上にある この場合、𝑏. = 𝑏Fとなるので 上記条件式が成り立つ (1)(2)はコーナーケースであり、一般的にはバイアスに関する条件は 成り立たないと考えて良い
  32. 32 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (1) Full-gradientは以下で定義 ▪ 前提 ▪ 命題5の証明 ReLUの次の性質(同質性)より

    バイアス項なしのReLUネットワーク𝑓は 𝐺 = ∇I f 𝐱 , fJ 𝐱 ∈ 𝑅KC" ▪ 命題5 𝑓 𝒙 = ∇< 𝑓 𝒙 #𝒙 と表される max 0, 𝑘𝑥 = 𝑘 max 0, 𝑥 (a) 𝑘 ≥ 0のとき以下が成立 𝑓 𝑘𝒙 = 𝑘𝑓(𝒙) ここで、1次のテイラー級数より 以下が得られる 𝑓 1 + 𝜖 𝒙 = 𝑓 𝑥 + 𝜖𝑓 𝒙 = 𝑓 𝒙 + 𝜖𝒙#∇𝒙 𝑓 𝒙 上記を整理して得られる
  33. 33 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (2) ▪ 命題6 ▪ 命題6の証明の続き バイアス入力𝒙L =

    1K(単位ベクトル)を バイアス𝒃 ∈ 𝑅Kを持つReLUネットワーク𝑓は ▪ 命題6の証明 (次ページへ) 𝑓(𝐱, 𝐱𝐛)は入力(𝒙, 𝒙𝒃)を持つ一次関数となる ここで命題より以下を得る と表される 導入し、𝒃を乗じることとする。 (b) (c)
  34. 34 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (3) ▪ 命題6の証明の続き さらに連鎖律を用いることで ここで𝑓に対し連鎖律を用いる 従って(b)式が成り立つ と表される

    ∇𝒙𝒃 𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 = ∇𝒛𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 ⨀𝒃 𝒛 ∈ 𝑅Kを活性化関数前の値とすると ∇𝒛 𝑓 𝒙, 𝒙𝒃 ; 𝒃, 𝒛 ⨀𝒃 = ∇𝒃 𝑓(𝒙, 𝒙𝒃 ; 𝒃, 𝒛) と表される (b) この式より、入力(𝒙, 𝒙𝒃)が与えられれば 𝑓を完全に復元することができるので、 完全性を満たす
  35. 35 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (4) ▪ 弱依存性の証明 入力勾配は線形領域に対して 局所的に一定であるのは明らか。 従って入力勾配は弱依存性を満たす バイアス勾配が弱依存性を

    満たすことを示せば良い ・入力勾配に関して ・バイアス勾配に関して ▪ 方針 隠れ層1層のReLUネットワーク𝑓を考える 𝑓 𝑥 = 𝑤$ ∗ 𝑟𝑒𝑙𝑢 𝑤( ∗ 𝑥 + 𝑏( + 𝑏$ 𝑓 𝑥 ∈ 𝑅 さらに、𝜌を次式で定義する 𝜌 𝑧 = 𝑑 𝑟𝑒𝑙𝑢 𝑧 𝑑𝑧 すなわち、 reluの出力とその入力に対する微分とする (d)
  36. 36 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (5) ▪ 弱依存性の証明の続き (d)式に関して、𝑏(の勾配は 𝑑𝑓 𝑑𝑏( =

    𝑤$ ∗ 𝜌(𝑤( ∗ 𝑥 + 𝑏() 従って、各線形領域における 非線形型の導関数は一定である。 同様の議論を, より深いネットワークにも再帰的に適用する ことで、バイアス項も満たす 1つの隠れ層ネットワークでは、 バイアス勾配は各線形領域で一定 従って、full-gradientは ・弱依存性 ・完全性 を共に満たす
  37. 37 Appendix : 元画像を重ねていない結果

  38. 38 Appendix : 実験設定 ▪ Pixel Perturbation ImageNet2012 dataset CIFAR100

    dataset https://cv.gluon.ai/build/examples_datasets/imagenet.html https://www.cs.toronto.edu/~kriz/cifar.html 3回実験 ▪ ROAR (remove and retrain) VGG-16 9層のVGG , 3回実験