Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Full-Gradient Representation for Neural Network Visualization

[Journal club] Full-Gradient Representation for Neural Network Visualization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Full-Gradient Representation for Neural Network Visualization Suraj Srinivas and Francois

    Fleuret. Idiap Research Institute, EPFL NeurIPS, 2019. 慶應義塾大学 杉浦孔明研究室 B4小松 拓実 Srinivas, Suraj, and François Fleuret. "Full-gradient representation for neural network visualization." Advances in neural information processing systems 32 (2019).
  2. 3 背景 : 説明性は暗黙的に二つのことが求められる 1. local attribution 入力の1部の値を変えたとき、モデルの出力に 大きな影響を与える箇所が重要と判断 2.

    global attribution 顕著性マップは、出力を完全に説明すべき モデルの数値的な出力は、入力の各特徴量に分配 入力を変化 ⇨ 左画素の方が重要と判断される(べき) 確率 0.9 -> 0.4 確率 0.9 -> 0.8 犬の確率0.9 0.6 0.1 0.15 0.03 = 0.6 + 0.1 + 0.15 + 0.03 + (他)
  3. 4 関連研究 : 微分系の手法ではバイアスを考慮できない 説明手法 概要 Input-Gradient [Karen+, ICLR13] 出力に対する入力の勾配から

    顕著性マップを作成する手法 DeconvNet[Matthew+, ECCV14] Guided-Backprop[Tobias+, ICLR15] 入力勾配に対する逆伝播の方法を 変えることで鮮明化した手法 Deep Taylor decomposition[Gregoire+,PR17] DeepLIFT[Shrikumar+, JMLR17] 顕著性マップとモデルの出力との関係を数 値的に求めた手法(完全性を満たす) Input-Gradient Guided-Backprop Deep Taylor decomposition
  4. 5 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える テーブルデータの例 [引用: https://github.com/slundberg/shap]
  5. 6 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える 画像の例
  6. 7 提案手法 : local attributionとして弱依存性を定義 ⇨ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に対する説明 ・ 数式の定義 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線形モデルの例 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇨ 𝑆(𝑥)は入力𝒙に依存しない 𝑥! 𝑥" y 𝑏 𝑤$ 𝑤% 1 𝑆 𝒙 = 𝒘 = [w! , w" ] 入力が属する集合によってパラメータが変わる関数を 線形関数の集合で表すことを考える 例) 部屋の数 例) 敷地面積 例) 家賃 𝑓 = 𝑤$𝑥$ + 𝑤%𝑥% + 𝑏
  7. 8 提案手法 : 弱依存性を具体例で説明 -- 区分線形関数-- 𝑓 𝑥 = 3

    𝒘𝟎 𝑻𝒙 + 𝑏( 𝒙 ∈ 𝑼𝟎 … 𝒘𝒏 𝑻𝒙 + 𝑏* 𝒙 ∈ 𝑼𝒏 ・弱依存性 (weak dependence) の定義 𝑥が属する集合で属する線形関数が異なる関数 𝑈+ 𝑈, 𝑈- 𝑈* 𝑆 𝑥 は入力𝑥自体に依存しないが、 𝑥の属する集合𝑈.に依存するという 間接的な”弱い依存性”がある。
  8. 9 提案手法 : global attributionとして完全性を定義 出 力 𝑆(𝑥)を顕著性マップ、𝑓をモデルの関数、𝑥を入力とする ・ ∀

    𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) また、あるbaseline 𝑥(で完全であるとは、 𝑆(𝑥()を𝑥(の顕著性マップとしたとき ・ ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( )) 顕著性マップ𝑆 𝑥 と入力𝑥から元の関数𝑓が表現可能である モデル ・完全性 (completeness)の定義 𝑓 𝑥 𝑆(𝑥) 𝜙 ⇨ 二つの性質を同時に満たす説明𝑆は存在しない
  9. 10 提案手法 : full-gradients --重みとバイアスの影響を両方を反映-- ・full-gradients 重み(𝑤)に加えてニューラルネットのバイアスを 考慮した手法を提案 𝑓 𝒙;

    𝑏 = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ) #∈[&,(] (∇* 𝑓 𝒙; 𝑏 ⊙ 𝑏) 入力勾配 バイアス勾配 full-gradients = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ∇* 𝑓 𝒙; 𝑏 "𝑏 𝑓 𝑥 = 𝑎 − 𝑅𝑒𝐿𝑈(𝑏 − 𝑥) , a=b=1とする ▪ 既存手法 𝑥 = 2のとき、𝑓 2 = 1だが、 入力勾配 = 0 ▪ full-gradients 入力勾配 = 0 バイアス勾配 = (1, 0) ⇨ 弱依存性と完全性を満たすことを証明(略)
  10. 11 提案手法 : full-gradientsのCNNへの応用 -- FullGrad -- ・FullGrad S; 𝑥

    = 𝜙 ∇<𝑓 𝒙 ⊙ 𝒙 + / #∈% / &∈&! 𝜙(∇' 𝑓 𝒙, 𝑏 ⊙ 𝑏) 畳み込み層でのバイアス勾配は以下 𝒛 = 𝒘 ∗ 𝒙 + 𝑏 ∇* 𝑓 𝒙, 𝑏 ⊙ 𝑏 = ∇𝒛 𝑓 𝒙 ⊙ 𝑏 ∈ 𝑅, 𝒘 ∗ 𝒙: padding適用後の畳み込み ・FullGrad ⇨ 層ごとの顕著性マップの可視化が可能 ⇨ 全顕著性マップを集約し、FullGradとする 𝜙:任意の事後処理関数(upsampleなど) ※ FullGradは弱依存性、完全性を同時には満たさない
  11. 12 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  12. 13 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.20 0.10 0.90 ⇨ 0.90 ⇨
  13. 14 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) 元画像 25%置換 75%置換 0.90 0.88 0.85 0.90 ⇨ 0.90 ⇨
  14. 15 定量的結果 : ピクセルの削除でFullGradが既存手法を上回る ・Pixel perturbation ▪ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換

    -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 ⇨ FullGradが最も出力変動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  15. 16 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 --

    変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  16. 17 -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする Pixel perturbationと対照的に、

    ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) ▪ 第一段階: 学習を行う モデル ▪ 第二段階: 学習を行う モデル 0.90 0.20 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果 ・ROAR[Sara+, NeurIPS19]
  17. 18 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で置換 -- 変換後の画像を学習データとして再学習 -- 精度の下がり幅が大きくなることを期待 重要でない箇所を重点とする

    Pixel perturbationと対照的に、 ROARは、重要な箇所を重点をおく手法 ⇨ FullGradが最も精度が低下した(図) d Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17] 定量的結果 : ROAR[Sara+, NeurIPS19]による評価でもベストな結果
  18. 19 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  19. 20 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  20. 21 定性的結果 : FullGradは微分手法とGradCAMの中間的な可視化を実現 ▪ 視覚的評価 ▪ 3つの勾配手法 -- Input

    gradient, IG, smooth-grad -- 境界部分を強調する傾向がある ▪ Grad-CAM -- 明確な物体の境界を特定せず、 広がりのある領域を強調する ▪ FullGrad -- 境界部分も特定しつつ、 広がりのある領域で可視化 -- 両者の長所を併せ持つ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  21. 22 Appendix : 動かしてみた ▪ 成功例 : いくつかの手法で比較 ▪ 失敗?例:

    GitHub issueにあったもの ▪FullGrad ▪Grad-CAM ▪FullGrad ▪Grad-CAM à Checker boardのような模様が生じている
  22. 23 まとめ ⇨ 弱依存性(weak dependence)と 完全性(completeness)を提案 ・暗黙的な知見であったlocal attributionとglobal attributionを定義 ・弱依存性と完全性を同時に満たすfull-gradientsを導入

    ⇨ 既存手法による視覚的説明よりも表現力がある ・CNNベースのモデルへの応用としてFullGradを提案 ・pixel perturbation と ROAR(remove-and-retrain)を用いて定量的評価 ⇨ FullGradが既存手法を上回ることを示した
  23. 25 Appendix: Integrated-gradient[Mukund+,2017]は弱依存性を満たさない ・Integrated-gradient[Sundararajan+, ICML17] 𝐼𝐺# 𝒙 = 𝑥# −

    𝑥# - × 7 ./0 & 𝜕𝑓(𝑥- + 𝛼(𝑥- − 𝑥) 𝜕𝑥# 𝑑𝛼 𝑥A: baseline, 𝑥.: 𝑥のi番目の要素 𝑓 𝑥$ , 𝑥% = 3 𝑥$ + 3𝑥% (𝑥$ , 𝑥% ≤ 1) 3𝑥$ + 𝑥% (𝑥$ , 𝑥% > 1) 0 (𝑜𝑡𝑒𝑟𝑤𝑖𝑠𝑒) 𝑥! , 𝑥" ∈ ℝ" ・簡単な区分線形関数で考える ・同じ集合に属する例を考える baselineを𝑥A = 0とする 𝑥& , 𝑥1 = (4, 4) → 𝐼𝐺 4,4 = (10, 6) : 𝑥&をより重視している 𝑥& , 𝑥1 = (1.5, 1.5) → 𝐼𝐺 1.5,1.5 = (2.5, 3.5) : 𝑥1 をより重視している 𝑥& , 𝑥1 = (2, 2) → 𝐼𝐺 2,2 = (1.5, 1.5) : 同程度に重視している ⇨ 弱依存性を満たさない
  24. 26 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (1) baseline𝒙(に対して完全 𝑓 𝒙 = 𝒘$ #𝒙

    + 𝑏$(𝒙 ∈ 𝑈$) 𝒘% #𝒙 + 𝑏% (𝒙 ∈ 𝑈% ) … 𝒘* #𝒙 + 𝑏* (𝒙 ∈ 𝑈* ) 𝑥! , 𝑥" ∈ ℝ" 区分線形関数に対して、 弱依存性・完全性を満たす 𝑆は存在しないことを示す ▪ 方針 ▪ 数式の定義 ・弱依存性 : 以下の区分線形関数を考える ・完全性 : 以下の区分線形関数を考える ・𝑈.: 開放連結集合 ・𝑆 𝒙 = 𝜎(𝑓, 𝒙) : saliency map ∀ 𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( ))
  25. 27 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (2) Saliency mapの定義より ▪ 準備 (1) ▪

    準備 (2) この集合に対して二つの異なる関数 𝜎: 𝑓, 𝒙 → 𝑆 となる写像𝜎が存在 続いて、 同一の開放連結集合上 𝑈. (𝑖 ∈ 1, 𝑛 ) で定義される区分線形関数を考える 𝑓 ∶ 𝜃 = 𝒘. , 𝑏. 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) 𝑓′ ∶ 𝜃′ = 𝒘A ., 𝑏A . 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) を考える。 さらに、弱依存性が示すのは、 𝜎 O D) : 𝒘. , 𝑏. → 𝑆 となり、 𝒘. , 𝑏. ∈ 𝑅"C$, 𝑆 ∈ 𝑅"より 𝜎|D) は多対一の関数である
  26. 28 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (3) 準備 (1) (2)より ▪ 準備 (3)

    𝑈.上で、それぞれのパラメータ をもち、同じsaliency map 𝑆に に写像する区分線形関数𝑓, 𝑓′が存在する 𝜽. = (𝒘., 𝑏.) 𝜽. A = (𝒘. A, 𝑏. A) 𝜽 ≠ 𝜽. A
  27. 29 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (4) 完全性の最初の定義より ▪ 完全性について (1) が成立する。 ある入力𝒙

    ∈ 𝑈.に対して同じ𝑆に写像する 2つの異なる区分線形関数𝑓, 𝑓′に対して 𝜙: 𝑆, 𝒙 → 𝑓(𝒙) 𝒘𝒊 = 𝒘𝒊 A かつ 𝑏. = 𝑏. A 𝜙 𝑆, 𝒙 = 𝑓 𝒙 = 𝒘. #𝒙 + 𝑏. (a) が存在する。 𝜙 𝑆, 𝒙 = 𝑓A 𝒙 = 𝒘𝒊 A𝑻 𝒙 + 𝑏. A (b) (a), (b)の成立条件は が成り立つときのみである。 一方で、最初の定義より より不適 𝜽 ≠ 𝜽. A
  28. 30 Appendix: 弱依存性と完全性を満たす既存手法はないことの証明 (5) 完全性の二つ目の定義より ▪ 完全性について (2) が成立ことが必要である ベースライン入力を𝒙(

    ∈ 𝑈Fとすると同様に 2つの異なる区分線形関数𝑓, 𝑓′が存在し 𝜙G : 𝑆, 𝑆( 𝒙, 𝒙( → 𝑓 𝒙 − 𝑓(𝒙( ) 𝜙G 𝑆, 𝑆(, 𝒙, 𝒙( = 𝑓 𝒙 − 𝑓 𝒙( = 𝒘. #𝒙 + 𝑏. − 𝒘F #𝒙 − 𝑏F が存在する。 𝒘. = 𝒘. A, 𝒘F = 𝒘F A, 𝑏. − 𝑏. A = 𝑏F − 𝑏F A 同じsaliency map 𝑆に写像する 𝜙G 𝑆, 𝑆( , 𝒙, 𝒙( = 𝑓′ 𝒙 − 𝑓′ 𝒙( = 𝒘𝒊 A𝑻𝒙 + 𝑏. A − 𝒘𝒋 A𝑻𝒙 − 𝑏F A 成立条件は、 が全て成り立つ時のみであるが、 一般的に成り立たない。 よって不適
  29. 31 Appendix: 𝑏! − 𝑏! " = 𝑏# − 𝑏#

    "が成り立つ条件について補足 (6) ▪ 𝑏. − 𝑏. A = 𝑏F − 𝑏F Aが成り立つ条件 この場合、 𝑏. , 𝑏. A, 𝑏F , 𝑏F Aは全て0であるため (1) バイアス項を持たない区分線形モデル (例: バイアス項を持たないReLU NN) 上記条件式が成り立つ (2) 一部の線形モデル または𝒙と𝒙(が同じ線形部分上にある この場合、𝑏. = 𝑏Fとなるので 上記条件式が成り立つ (1)(2)はコーナーケースであり、一般的にはバイアスに関する条件は 成り立たないと考えて良い
  30. 32 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (1) Full-gradientは以下で定義 ▪ 前提 ▪ 命題5の証明 ReLUの次の性質(同質性)より

    バイアス項なしのReLUネットワーク𝑓は 𝐺 = ∇I f 𝐱 , fJ 𝐱 ∈ 𝑅KC" ▪ 命題5 𝑓 𝒙 = ∇< 𝑓 𝒙 #𝒙 と表される max 0, 𝑘𝑥 = 𝑘 max 0, 𝑥 (a) 𝑘 ≥ 0のとき以下が成立 𝑓 𝑘𝒙 = 𝑘𝑓(𝒙) ここで、1次のテイラー級数より 以下が得られる 𝑓 1 + 𝜖 𝒙 = 𝑓 𝑥 + 𝜖𝑓 𝒙 = 𝑓 𝒙 + 𝜖𝒙#∇𝒙 𝑓 𝒙 上記を整理して得られる
  31. 33 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (2) ▪ 命題6 ▪ 命題6の証明の続き バイアス入力𝒙L =

    1K(単位ベクトル)を バイアス𝒃 ∈ 𝑅Kを持つReLUネットワーク𝑓は ▪ 命題6の証明 (次ページへ) 𝑓(𝐱, 𝐱𝐛)は入力(𝒙, 𝒙𝒃)を持つ一次関数となる ここで命題より以下を得る と表される 導入し、𝒃を乗じることとする。 (b) (c)
  32. 34 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (3) ▪ 命題6の証明の続き さらに連鎖律を用いることで ここで𝑓に対し連鎖律を用いる 従って(b)式が成り立つ と表される

    ∇𝒙𝒃 𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 = ∇𝒛𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 ⨀𝒃 𝒛 ∈ 𝑅Kを活性化関数前の値とすると ∇𝒛 𝑓 𝒙, 𝒙𝒃 ; 𝒃, 𝒛 ⨀𝒃 = ∇𝒃 𝑓(𝒙, 𝒙𝒃 ; 𝒃, 𝒛) と表される (b) この式より、入力(𝒙, 𝒙𝒃)が与えられれば 𝑓を完全に復元することができるので、 完全性を満たす
  33. 35 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (4) ▪ 弱依存性の証明 入力勾配は線形領域に対して 局所的に一定であるのは明らか。 従って入力勾配は弱依存性を満たす バイアス勾配が弱依存性を

    満たすことを示せば良い ・入力勾配に関して ・バイアス勾配に関して ▪ 方針 隠れ層1層のReLUネットワーク𝑓を考える 𝑓 𝑥 = 𝑤$ ∗ 𝑟𝑒𝑙𝑢 𝑤( ∗ 𝑥 + 𝑏( + 𝑏$ 𝑓 𝑥 ∈ 𝑅 さらに、𝜌を次式で定義する 𝜌 𝑧 = 𝑑 𝑟𝑒𝑙𝑢 𝑧 𝑑𝑧 すなわち、 reluの出力とその入力に対する微分とする (d)
  34. 36 Appendix: full-gradientが弱依存性と完全性を満たすことの証明 (5) ▪ 弱依存性の証明の続き (d)式に関して、𝑏(の勾配は 𝑑𝑓 𝑑𝑏( =

    𝑤$ ∗ 𝜌(𝑤( ∗ 𝑥 + 𝑏() 従って、各線形領域における 非線形型の導関数は一定である。 同様の議論を, より深いネットワークにも再帰的に適用する ことで、バイアス項も満たす 1つの隠れ層ネットワークでは、 バイアス勾配は各線形領域で一定 従って、full-gradientは ・弱依存性 ・完全性 を共に満たす
  35. 38 Appendix : 実験設定 ▪ Pixel Perturbation ImageNet2012 dataset CIFAR100

    dataset https://cv.gluon.ai/build/examples_datasets/imagenet.html https://www.cs.toronto.edu/~kriz/cifar.html 3回実験 ▪ ROAR (remove and retrain) VGG-16 9層のVGG , 3回実験