Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] Full-Gradient Representation for...

[Journal club] Full-Gradient Representation for Neural Network Visualization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Full-Gradient Representation for Neural Network Visualization Suraj Srinivas and Francois

    Fleuret. Idiap Research Institute, EPFL NeurIPS, 2019. 慶應矩塟倧孊 杉浊孔明研究宀 B4小束 拓実 Srinivas, Suraj, and François Fleuret. "Full-gradient representation for neural network visualization." Advances in neural information processing systems 32 (2019).
  2. 3 背景 : 説明性は暗黙的に二぀のこずが求められる 1. local attribution 入力の1郚の倀を倉えたずき、モデルの出力に 倧きな圱響を䞎える箇所が重芁ず刀断 2.

    global attribution 顕著性マップは、出力を完党に説明すべき モデルの数倀的な出力は、入力の各特城量に分配 入力を倉化 ⇹ 巊画玠の方が重芁ず刀断される(べき) 確率 0.9 -> 0.4 確率 0.9 -> 0.8 犬の確率0.9 0.6 0.1 0.15 0.03 = 0.6 + 0.1 + 0.15 + 0.03 + (他)
  3. 4 関連研究 : 埮分系の手法ではバむアスを考慮できない 説明手法 抂芁 Input-Gradient [Karen+, ICLR13] 出力に察する入力の募配から

    顕著性マップを䜜成する手法 DeconvNet[Matthew+, ECCV14] Guided-Backprop[Tobias+, ICLR15] 入力募配に察する逆䌝播の方法を 倉えるこずで鮮明化した手法 Deep Taylor decomposition[Gregoire+,PR17] DeepLIFT[Shrikumar+, JMLR17] 顕著性マップずモデルの出力ずの関係を数 倀的に求めた手法(完党性を満たす) Input-Gradient Guided-Backprop Deep Taylor decomposition
  4. 5 提案手法 : local attributionずしお匱䟝存性を定矩 ⇹ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に察する説明 ・ 数匏の定矩 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線圢モデルの䟋 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇹ 𝑆(𝑥)は入力𝒙に䟝存しない 入力が属する集合によっおパラメヌタが倉わる関数を 線圢関数の集合で衚すこずを考える テヌブルデヌタの䟋 [匕甚: https://github.com/slundberg/shap]
  5. 6 提案手法 : local attributionずしお匱䟝存性を定矩 ⇹ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に察する説明 ・ 数匏の定矩 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線圢モデルの䟋 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇹ 𝑆(𝑥)は入力𝒙に䟝存しない 入力が属する集合によっおパラメヌタが倉わる関数を 線圢関数の集合で衚すこずを考える 画像の䟋
  6. 7 提案手法 : local attributionずしお匱䟝存性を定矩 ⇹ 𝑆 𝑥 = 𝜎

    𝑓, 𝒙 : 𝑥の𝑓に察する説明 ・ 数匏の定矩 𝑓: ℝ! → ℝ: モデル, 𝑥 ∈ ℝ": 入力 ・ 線圢モデルの䟋 𝑓 = 𝒘#𝒙 + 𝑏 → 𝑆 𝒙 = 𝒘 ⇹ 𝑆(𝑥)は入力𝒙に䟝存しない 𝑥! 𝑥" y 𝑏 𝑀$ 𝑀% 1 𝑆 𝒙 = 𝒘 = [w! , w" ] 入力が属する集合によっおパラメヌタが倉わる関数を 線圢関数の集合で衚すこずを考える 䟋) 郚屋の数 䟋) 敷地面積 䟋) 家賃 𝑓 = 𝑀$𝑥$ + 𝑀%𝑥% + 𝑏
  7. 8 提案手法 : 匱䟝存性を具䜓䟋で説明 -- 区分線圢関数-- 𝑓 𝑥 = 3

    𝒘𝟎 𝑻𝒙 + 𝑏( 𝒙 ∈ 𝑌𝟎 
 𝒘𝒏 𝑻𝒙 + 𝑏* 𝒙 ∈ 𝑌𝒏 ・匱䟝存性 (weak dependence) の定矩 𝑥が属する集合で属する線圢関数が異なる関数 𝑈+ 𝑈, 𝑈- 𝑈* 𝑆 𝑥 は入力𝑥自䜓に䟝存しないが、 𝑥の属する集合𝑈.に䟝存するずいう 間接的な”匱い䟝存性”がある。
  8. 9 提案手法 : global attributionずしお完党性を定矩 出 力 𝑆(𝑥)を顕著性マップ、𝑓をモデルの関数、𝑥を入力ずする ・ ∀

    𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) たた、あるbaseline 𝑥(で完党であるずは、 𝑆(𝑥()を𝑥(の顕著性マップずしたずき ・ ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( )) 顕著性マップ𝑆 𝑥 ず入力𝑥から元の関数𝑓が衚珟可胜である モデル ・完党性 (completeness)の定矩 𝑓 𝑥 𝑆(𝑥) 𝜙 ⇹ 二぀の性質を同時に満たす説明𝑆は存圚しない
  9. 10 提案手法 : full-gradients --重みずバむアスの圱響を䞡方を反映-- ・full-gradients 重み(𝑀)に加えおニュヌラルネットのバむアスを 考慮した手法を提案 𝑓 𝒙;

    𝑏 = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ) #∈[&,(] (∇* 𝑓 𝒙; 𝑏 ⊙ 𝑏) 入力募配 バむアス募配 full-gradients = ∇! 𝑓 𝒙; 𝑏 "𝑥 + ∇* 𝑓 𝒙; 𝑏 "𝑏 𝑓 𝑥 = 𝑎 − 𝑅𝑒𝐿𝑈(𝑏 − 𝑥) , a=b=1ずする ▪ 既存手法 𝑥 = 2のずき、𝑓 2 = 1だが、 入力募配 = 0 ▪ full-gradients 入力募配 = 0 バむアス募配 = (1, 0) ⇹ 匱䟝存性ず完党性を満たすこずを蚌明(略)
  10. 11 提案手法 : full-gradientsのCNNぞの応甚 -- FullGrad -- ・FullGrad S; 𝑥

    = 𝜙 ∇<𝑓 𝒙 ⊙ 𝒙 + / #∈% / &∈&! 𝜙(∇' 𝑓 𝒙, 𝑏 ⊙ 𝑏) 畳み蟌み局でのバむアス募配は以䞋 𝒛 = 𝒘 ∗ 𝒙 + 𝑏 ∇* 𝑓 𝒙, 𝑏 ⊙ 𝑏 = ∇𝒛 𝑓 𝒙 ⊙ 𝑏 ∈ 𝑅, 𝒘 ∗ 𝒙: padding適甚埌の畳み蟌み ・FullGrad ⇹ 局ごずの顕著性マップの可芖化が可胜 ⇹ 党顕著性マップを集玄し、FullGradずする 𝜙:任意の事埌凊理関数(upsampleなど) ※ FullGradは匱䟝存性、完党性を同時には満たさない
  11. 12 定量的結果 : ピクセルの削陀でFullGradが既存手法を䞊回る ・Pixel perturbation ▪ 埓来手法 -- 最も顕著なピクセル𝑘個を黒画玠で眮換

    -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別 ⇹ FullGradが最も出力倉動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  12. 13 定量的結果 : ピクセルの削陀でFullGradが既存手法を䞊回る ・Pixel perturbation ▪ 埓来手法 -- 最も顕著なピクセル𝑘個を黒画玠で眮換

    -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別 ⇹ FullGradが最も出力倉動が少ない(図) 元画像 25%眮換 75%眮換 0.90 0.20 0.10 0.90 ⇹ 0.90 ⇹
  13. 14 定量的結果 : ピクセルの削陀でFullGradが既存手法を䞊回る ・Pixel perturbation ▪ 埓来手法 -- 最も顕著なピクセル𝑘個を黒画玠で眮換

    -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別 ⇹ FullGradが最も出力倉動が少ない(図) 元画像 25%眮換 75%眮換 0.90 0.88 0.85 0.90 ⇹ 0.90 ⇹
  14. 15 定量的結果 : ピクセルの削陀でFullGradが既存手法を䞊回る ・Pixel perturbation ▪ 埓来手法 -- 最も顕著なピクセル𝑘個を黒画玠で眮換

    -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別 ⇹ FullGradが最も出力倉動が少ない(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  15. 16 定量的結果 : ROAR[Sara+, NeurIPS19]による評䟡でもベストな結果 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で眮換 --

    倉換埌の画像を孊習デヌタずしお再孊習 -- 粟床の䞋がり幅が倧きくなるこずを期埅 重芁でない箇所を重点ずする Pixel perturbationず察照的に、 ROARは、重芁な箇所を重点をおく手法 ⇹ FullGradが最も粟床が䜎䞋した(図) Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17]
  16. 17 -- 最も顕著なピクセル𝑘個を黒画像で眮換 -- 倉換埌の画像を孊習デヌタずしお再孊習 -- 粟床の䞋がり幅が倧きくなるこずを期埅 重芁でない箇所を重点ずする Pixel perturbationず察照的に、

    ROARは、重芁な箇所を重点をおく手法 ⇹ FullGradが最も粟床が䜎䞋した(図) ▪ 第䞀段階: 孊習を行う モデル ▪ 第二段階: 孊習を行う モデル 0.90 0.20 定量的結果 : ROAR[Sara+, NeurIPS19]による評䟡でもベストな結果 ・ROAR[Sara+, NeurIPS19]
  17. 18 ・ROAR[Sara+, NeurIPS19] -- 最も顕著なピクセル𝑘個を黒画像で眮換 -- 倉換埌の画像を孊習デヌタずしお再孊習 -- 粟床の䞋がり幅が倧きくなるこずを期埅 重芁でない箇所を重点ずする

    Pixel perturbationず察照的に、 ROARは、重芁な箇所を重点をおく手法 ⇹ FullGradが最も粟床が䜎䞋した(図) d Input-Gradient[Karen+, ICLR13+] gradCAM[Selvaraju+, ICCV17+] Integrated Gradient[Sundararajan+, ICML17+] SmoothGrad[Smilkov+, arxiv17] 定量的結果 : ROAR[Sara+, NeurIPS19]による評䟡でもベストな結果
  18. 19 定性的結果 : FullGradは埮分手法ずGradCAMの䞭間的な可芖化を実珟 ▪ 芖芚的評䟡 ▪ 3぀の募配手法 -- Input

    gradient, IG, smooth-grad -- 境界郚分を匷調する傟向がある ▪ Grad-CAM -- 明確な物䜓の境界を特定せず、 広がりのある領域を匷調する ▪ FullGrad -- 境界郚分も特定し぀぀、 広がりのある領域で可芖化 -- 䞡者の長所を䜵せ持぀ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  19. 20 定性的結果 : FullGradは埮分手法ずGradCAMの䞭間的な可芖化を実珟 ▪ 芖芚的評䟡 ▪ 3぀の募配手法 -- Input

    gradient, IG, smooth-grad -- 境界郚分を匷調する傟向がある ▪ Grad-CAM -- 明確な物䜓の境界を特定せず、 広がりのある領域を匷調する ▪ FullGrad -- 境界郚分も特定し぀぀、 広がりのある領域で可芖化 -- 䞡者の長所を䜵せ持぀ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  20. 21 定性的結果 : FullGradは埮分手法ずGradCAMの䞭間的な可芖化を実珟 ▪ 芖芚的評䟡 ▪ 3぀の募配手法 -- Input

    gradient, IG, smooth-grad -- 境界郚分を匷調する傟向がある ▪ Grad-CAM -- 明確な物䜓の境界を特定せず、 広がりのある領域を匷調する ▪ FullGrad -- 境界郚分も特定し぀぀、 広がりのある領域で可芖化 -- 䞡者の長所を䜵せ持぀ Input Gradient [Karen+, ICLR13+] Integrated Gradient [Sundararajan+, ICML17+] SmoothGrad [Smilkov+, 17] gradCAM [Selvaraju+, ICCV17+]
  21. 22 Appendix : 動かしおみた ▪ 成功䟋 : いく぀かの手法で比范 ▪ 倱敗?䟋:

    GitHub issueにあったもの ▪FullGrad ▪Grad-CAM ▪FullGrad ▪Grad-CAM à Checker boardのような暡様が生じおいる
  22. 23 たずめ ⇹ 匱䟝存性(weak dependence)ず 完党性(completeness)を提案 ・暗黙的な知芋であったlocal attributionずglobal attributionを定矩 ・匱䟝存性ず完党性を同時に満たすfull-gradientsを導入

    ⇹ 既存手法による芖芚的説明よりも衚珟力がある ・CNNベヌスのモデルぞの応甚ずしおFullGradを提案 ・pixel perturbation ず ROAR(remove-and-retrain)を甚いお定量的評䟡 ⇹ FullGradが既存手法を䞊回るこずを瀺した
  23. 25 Appendix: Integrated-gradient[Mukund+,2017]は匱䟝存性を満たさない ・Integrated-gradient[Sundararajan+, ICML17] 𝐌𝐺# 𝒙 = 𝑥# −

    𝑥# - × 7 ./0 & 𝜕𝑓(𝑥- + 𝛌(𝑥- − 𝑥) 𝜕𝑥# 𝑑𝛌 𝑥A: baseline, 𝑥.: 𝑥のi番目の芁玠 𝑓 𝑥$ , 𝑥% = 3 𝑥$ + 3𝑥% (𝑥$ , 𝑥% ≀ 1) 3𝑥$ + 𝑥% (𝑥$ , 𝑥% > 1) 0 (𝑜𝑡𝑒𝑟𝑀𝑖𝑠𝑒) 𝑥! , 𝑥" ∈ ℝ" ・簡単な区分線圢関数で考える ・同じ集合に属する䟋を考える baselineを𝑥A = 0ずする 𝑥& , 𝑥1 = (4, 4) → 𝐌𝐺 4,4 = (10, 6) : 𝑥&をより重芖しおいる 𝑥& , 𝑥1 = (1.5, 1.5) → 𝐌𝐺 1.5,1.5 = (2.5, 3.5) : 𝑥1 をより重芖しおいる 𝑥& , 𝑥1 = (2, 2) → 𝐌𝐺 2,2 = (1.5, 1.5) : 同皋床に重芖しおいる ⇹ 匱䟝存性を満たさない
  24. 26 Appendix: 匱䟝存性ず完党性を満たす既存手法はないこずの蚌明 (1) baseline𝒙(に察しお完党 𝑓 𝒙 = 𝒘$ #𝒙

    + 𝑏$(𝒙 ∈ 𝑈$) 𝒘% #𝒙 + 𝑏% (𝒙 ∈ 𝑈% ) 
 𝒘* #𝒙 + 𝑏* (𝒙 ∈ 𝑈* ) 𝑥! , 𝑥" ∈ ℝ" 区分線圢関数に察しお、 匱䟝存性・完党性を満たす 𝑆は存圚しないこずを瀺す ▪ 方針 ▪ 数匏の定矩 ・匱䟝存性 : 以䞋の区分線圢関数を考える ・完党性 : 以䞋の区分線圢関数を考える ・𝑈.: 開攟連結集合 ・𝑆 𝒙 = 𝜎(𝑓, 𝒙) : saliency map ∀ 𝑓, 𝑥 ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑥 = 𝑓 𝑥 ) ∀ 𝑓, 𝑥, 𝑥( ; ∃𝜙(𝜙 𝑆 𝑥 , 𝑆( 𝑥( , 𝑥, 𝑥( = 𝑓 𝑥 − 𝑓(𝑥( ))
  25. 27 Appendix: 匱䟝存性ず完党性を満たす既存手法はないこずの蚌明 (2) Saliency mapの定矩より ▪ 準備 (1) ▪

    準備 (2) この集合に察しお二぀の異なる関数 𝜎: 𝑓, 𝒙 → 𝑆 ずなる写像𝜎が存圚 続いお、 同䞀の開攟連結集合䞊 𝑈. (𝑖 ∈ 1, 𝑛 ) で定矩される区分線圢関数を考える 𝑓 ∶ 𝜃 = 𝒘. , 𝑏. 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) 𝑓′ ∶ 𝜃′ = 𝒘A ., 𝑏A . 𝑖 ∈ 1, 𝑛 ∈ 𝑅*×("C$) を考える。 さらに、匱䟝存性が瀺すのは、 𝜎 O D) : 𝒘. , 𝑏. → 𝑆 ずなり、 𝒘. , 𝑏. ∈ 𝑅"C$, 𝑆 ∈ 𝑅"より 𝜎|D) は倚察䞀の関数である
  26. 28 Appendix: 匱䟝存性ず完党性を満たす既存手法はないこずの蚌明 (3) 準備 (1) (2)より ▪ 準備 (3)

    𝑈.䞊で、それぞれのパラメヌタ をもち、同じsaliency map 𝑆に に写像する区分線圢関数𝑓, 𝑓′が存圚する 𝜜. = (𝒘., 𝑏.) 𝜜. A = (𝒘. A, 𝑏. A) 𝜜 ≠ 𝜜. A
  27. 29 Appendix: 匱䟝存性ず完党性を満たす既存手法はないこずの蚌明 (4) 完党性の最初の定矩より ▪ 完党性に぀いお (1) が成立する。 ある入力𝒙

    ∈ 𝑈.に察しお同じ𝑆に写像する 2぀の異なる区分線圢関数𝑓, 𝑓′に察しお 𝜙: 𝑆, 𝒙 → 𝑓(𝒙) 𝒘𝒊 = 𝒘𝒊 A か぀ 𝑏. = 𝑏. A 𝜙 𝑆, 𝒙 = 𝑓 𝒙 = 𝒘. #𝒙 + 𝑏. (a) が存圚する。 𝜙 𝑆, 𝒙 = 𝑓A 𝒙 = 𝒘𝒊 A𝑻 𝒙 + 𝑏. A (b) (a), (b)の成立条件は が成り立぀ずきのみである。 䞀方で、最初の定矩より より䞍適 𝜜 ≠ 𝜜. A
  28. 30 Appendix: 匱䟝存性ず完党性を満たす既存手法はないこずの蚌明 (5) 完党性の二぀目の定矩より ▪ 完党性に぀いお (2) が成立こずが必芁である ベヌスラむン入力を𝒙(

    ∈ 𝑈Fずするず同様に 2぀の異なる区分線圢関数𝑓, 𝑓′が存圚し 𝜙G : 𝑆, 𝑆( 𝒙, 𝒙( → 𝑓 𝒙 − 𝑓(𝒙( ) 𝜙G 𝑆, 𝑆(, 𝒙, 𝒙( = 𝑓 𝒙 − 𝑓 𝒙( = 𝒘. #𝒙 + 𝑏. − 𝒘F #𝒙 − 𝑏F が存圚する。 𝒘. = 𝒘. A, 𝒘F = 𝒘F A, 𝑏. − 𝑏. A = 𝑏F − 𝑏F A 同じsaliency map 𝑆に写像する 𝜙G 𝑆, 𝑆( , 𝒙, 𝒙( = 𝑓′ 𝒙 − 𝑓′ 𝒙( = 𝒘𝒊 A𝑻𝒙 + 𝑏. A − 𝒘𝒋 A𝑻𝒙 − 𝑏F A 成立条件は、 が党お成り立぀時のみであるが、 䞀般的に成り立たない。 よっお䞍適
  29. 31 Appendix: 𝑏! − 𝑏! " = 𝑏# − 𝑏#

    "が成り立぀条件に぀いお補足 (6) ▪ 𝑏. − 𝑏. A = 𝑏F − 𝑏F Aが成り立぀条件 この堎合、 𝑏. , 𝑏. A, 𝑏F , 𝑏F Aは党お0であるため (1) バむアス項を持たない区分線圢モデル (䟋: バむアス項を持たないReLU NN) 䞊蚘条件匏が成り立぀ (2) 䞀郚の線圢モデル たたは𝒙ず𝒙(が同じ線圢郚分䞊にある この堎合、𝑏. = 𝑏Fずなるので 䞊蚘条件匏が成り立぀ (1)(2)はコヌナヌケヌスであり、䞀般的にはバむアスに関する条件は 成り立たないず考えお良い
  30. 32 Appendix: full-gradientが匱䟝存性ず完党性を満たすこずの蚌明 (1) Full-gradientは以䞋で定矩 ▪ 前提 ▪ 呜題5の蚌明 ReLUの次の性質(同質性)より

    バむアス項なしのReLUネットワヌク𝑓は 𝐺 = ∇I f 𝐱 , fJ 𝐱 ∈ 𝑅KC" ▪ 呜題5 𝑓 𝒙 = ∇< 𝑓 𝒙 #𝒙 ず衚される max 0, 𝑘𝑥 = 𝑘 max 0, 𝑥 (a) 𝑘 ≥ 0のずき以䞋が成立 𝑓 𝑘𝒙 = 𝑘𝑓(𝒙) ここで、1次のテむラヌ玚数より 以䞋が埗られる 𝑓 1 + 𝜖 𝒙 = 𝑓 𝑥 + 𝜖𝑓 𝒙 = 𝑓 𝒙 + 𝜖𝒙#∇𝒙 𝑓 𝒙 䞊蚘を敎理しお埗られる
  31. 33 Appendix: full-gradientが匱䟝存性ず完党性を満たすこずの蚌明 (2) ▪ 呜題6 ▪ 呜題6の蚌明の続き バむアス入力𝒙L =

    1K(単䜍ベクトル)を バむアス𝒃 ∈ 𝑅Kを持぀ReLUネットワヌク𝑓は ▪ 呜題6の蚌明 (次ペヌゞぞ) 𝑓(𝐱, 𝐱𝐛)は入力(𝒙, 𝒙𝒃)を持぀䞀次関数ずなる ここで呜題より以䞋を埗る ず衚される 導入し、𝒃を乗じるこずずする。 (b) (c)
  32. 34 Appendix: full-gradientが匱䟝存性ず完党性を満たすこずの蚌明 (3) ▪ 呜題6の蚌明の続き さらに連鎖埋を甚いるこずで ここで𝑓に察し連鎖埋を甚いる 埓っお(b)匏が成り立぀ ず衚される

    ∇𝒙𝒃 𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 = ∇𝒛𝑓 𝒙, 𝒙𝒃; 𝒃, 𝒛 ⚀𝒃 𝒛 ∈ 𝑅Kを掻性化関数前の倀ずするず ∇𝒛 𝑓 𝒙, 𝒙𝒃 ; 𝒃, 𝒛 ⚀𝒃 = ∇𝒃 𝑓(𝒙, 𝒙𝒃 ; 𝒃, 𝒛) ず衚される (b) この匏より、入力(𝒙, 𝒙𝒃)が䞎えられれば 𝑓を完党に埩元するこずができるので、 完党性を満たす
  33. 35 Appendix: full-gradientが匱䟝存性ず完党性を満たすこずの蚌明 (4) ▪ 匱䟝存性の蚌明 入力募配は線圢領域に察しお 局所的に䞀定であるのは明らか。 埓っお入力募配は匱䟝存性を満たす バむアス募配が匱䟝存性を

    満たすこずを瀺せば良い ・入力募配に関しお ・バむアス募配に関しお ▪ 方針 隠れ局1局のReLUネットワヌク𝑓を考える 𝑓 𝑥 = 𝑀$ ∗ 𝑟𝑒𝑙𝑢 𝑀( ∗ 𝑥 + 𝑏( + 𝑏$ 𝑓 𝑥 ∈ 𝑅 さらに、𝜌を次匏で定矩する 𝜌 𝑧 = 𝑑 𝑟𝑒𝑙𝑢 𝑧 𝑑𝑧 すなわち、 reluの出力ずその入力に察する埮分ずする (d)
  34. 36 Appendix: full-gradientが匱䟝存性ず完党性を満たすこずの蚌明 (5) ▪ 匱䟝存性の蚌明の続き (d)匏に関しお、𝑏(の募配は 𝑑𝑓 𝑑𝑏( =

    𝑀$ ∗ 𝜌(𝑀( ∗ 𝑥 + 𝑏() 埓っお、各線圢領域における 非線圢型の導関数は䞀定である。 同様の議論を, より深いネットワヌクにも再垰的に適甚する こずで、バむアス項も満たす 1぀の隠れ局ネットワヌクでは、 バむアス募配は各線圢領域で䞀定 埓っお、full-gradientは ・匱䟝存性 ・完党性 を共に満たす
  35. 38 Appendix : 実隓蚭定 ▪ Pixel Perturbation ImageNet2012 dataset CIFAR100

    dataset https://cv.gluon.ai/build/examples_datasets/imagenet.html https://www.cs.toronto.edu/~kriz/cifar.html 3回実隓 ▪ ROAR (remove and retrain) VGG-16 9局のVGG , 3回実隓