Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[FIT22] Visual Explanation Generation Using Lam...

[FIT22] Visual Explanation Generation Using Lambda Attention Branch Networks with Saliency Guided Training

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 1 Saliency Guided Trainingを䜿甚した Lambda Attention Branch Networks による芖芚的説明生成 小束

    拓実1 飯田 玡1 兌田 寛倧1 平川 翌2 山䞋 隆矩2 藀吉 匘亘2 杉浊 孔明1 1. 慶應矩塟倧孊 2. 䞭郚倧孊
  2. 背景 : 未解明な珟象ぞ説明性の応甚が可胜 • 深局孊習の䞻な応甚分野 – 自動運転 – 医療分野 –

    理論が未知の物理珟象 (䟋: 倪陜フレア予枬) 深局孊習による説明性は 未知の理論ぞの掞察に぀ながる可胜性がある 県底画像 2 自動運転 倪陜磁堎画像
  3. 背景 : 未解明な珟象ぞ説明性の応甚が可胜 • 深局孊習の䞻な応甚分野 – 自動運転 – 医療分野 –

    理論が未知の物理珟象 (䟋: 倪陜フレア予枬) magnetogram(磁堎画像) 深局孊習による説明性は 未知の理論ぞの掞察に぀ながる可胜性がある 芖芚的説明 3 倪陜フレアの 原因解明の鍵ずなる 可胜性
  4. 背景 : 倪陜フレアによる珟実ぞの圱響は甚倧だが珟象ずしお未解明 ▪ 倪陜フレア – 倪陜衚面で起きる爆発珟象 ▪ X線等玚 –

    X, M, C, Oクラスに分類 ▪ 䞻な被害 – 倧芏暡な停電 [1989] – 人工衛星ぞの被害[2022] (日経新聞2022/4/26) 等玚の分類 4 倧 小 芏暡・被害 被害想定額は 箄40兆円 (保険䌚瀟詊算) NASA, https://svs.gsfc.nasa.gov/4491 TBS, https://newsdig.tbs.co.jp/articles/-/78060?display=1
  5. 関連研究 : 既存手法は重芁でない領域を重芁芖する粗い説明を生成 • 重芁でない領域の圱響も含たれた 粗い説明を生成する傟向がある RISE [Petsiuk+, BMCV18] 説明の暙準的な手法,

    評䟡指暙であるInsertion-Deletion scoreを提案 Lambda Attention Branch Networks [飯田+, JSAI22] ABN[Fukui+, CVPR19]を利甚しお Lambda Networks[Bello+, ICLR21]の説明を生成 Full-Gradient [Srinivas+, NeurlPS19] バむアス項の募配を含めた説明生成を提案 マスクによる予枬ぞの圱響を瀺唆 5 RISE LABN
  6. 関連研究: Insertion-Deletion score (IDs) [Petsiuk+, BMCV18] 6 Deletion Insertion n

    Insertion-Deletion score (IDs) 1. 蚈算した重芁床に基づき 重芁な画玠から挿入/削陀を行う 2. 挿入 / 削陀したパッチ数ず モデルの予枬確率をプロット 3. プロット図のAUCを蚈算 IDs = AUC Insertion − AUC(Deletion)
  7. モゞュヌル② : Lambda Attention Branch (LAB)でattention mapを生成 11 n Lambda

    Attention Branch (LAB) – 芖芚的説明生成のモゞュヌル – モデルの䞊行にブランチを 導入し、attention mapを生成 ・入力 : 画像特城量 𝒉!"# ・出力 : attention map 𝜶′ 予枬確率 𝑝(: y!$% )
  8. モゞュヌル③ : Lambda Perception Branch (LPB)で分類を行う 12 n Lambda Perception

    Branch (LPB) – 画像特城量𝒉!"# ず – attention map 𝜶′ から分類
  9. 損倱関数 以䞋の損倱𝐿を䜿甚 𝐿 = 𝐿"#$ + 𝛌% 𝐿"&$ + 𝛌'

    𝐿(" 𝐿!"# = 𝐶𝐞 𝑓!"# $ ⋅ , 𝒚 𝐿"&$ = 𝐶𝐞 𝑓)*+ ⋅ , 𝒚 𝐿(" = D,) 𝑓"&$ 𝑥 ||𝑓"&$ (𝑥-) 𝑓(⋅) 提案ネットワヌク 𝒙, 𝑊 , 𝑥′ 入出力, マスクした画像 𝐶𝐞(⋅,⋅) 亀差゚ントロピヌ 𝐷!" -∥- KLダむバヌゞェンス 𝛌# , 𝛌$ 損倱の重み 13 𝑓!&% 𝑓!$% (()
  10. 新芏性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 マスクした画像

    17 重芁な領域の圱響を倧きくし、 重芁でない領域の圱響を軜枛
  11. 新芏性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 attention

    map 18 実際は、バむアス画像 でマスク画像を䜜成
  12. 実隓蚭定 : DeFN magnetogram デヌタセット 20 磁堎画像をSolar Dynamic Observatoryより収集 Training

    Set Validation Set Test Set 期間 サンプル数 期間 サンプル数 期間 サンプル数 2010-2015 45530 2016 7795 2017 7790 magnetogram
  13. 評䟡指暙 : Insertion-Deletion score(IDs) ・Patch Insertion-Deletion score(PID) 21 Deletion Insertion

    Patch Deletion Patch Insertion Patch Insertion-Deletion score (PID) 1. 画像を𝑚×𝑚のパッチに分割 2. attention mapに基づき、 重芁なパッチから挿入/削陀を行う 3. 挿入 / 削陀したパッチ数ず モデルの予枬確率をプロット PID = AUC Insertion − AUC(Deletion) 1画玠単䜍ではなく パッチ単䜍で挿入/削陀
  14. 定量的結果 : IDs・PIDの5぀のパッチサむズで粟床向䞊 IDs PID (𝑚 = 1) 𝑚 =

    16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [Petsiuk+,18] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 LABN [飯田, 22] 0.044 0.311 0.489 0.523 0.556 Ours 𝟎. 𝟓𝟎𝟔 𝟎. 𝟕𝟒𝟖 𝟎. 𝟕𝟓𝟓 𝟎. 𝟕𝟓𝟕 𝟎. 𝟕𝟓𝟔 n IDsで既存手法を䞊回る性胜を達成 n 各パッチサむズ(PID)で既存手法を䞊回る性胜を達成 22 +𝟎. 𝟏𝟑𝟐 +𝟎. 𝟐𝟑𝟒
  15. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 24 粗い説明を生成 Ours

    重芁床の䜎い領域 の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む
  16. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 25 Ours 重芁床の䜎い領域

    の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む 領域倖にも泚目
  17. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 26 領域倖にも泚目 Ours

    重芁床の䜎い領域 の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む
  18. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 27 党䜓的に重芁床 が倧きい

    Ours 重芁床の䜎い領域 の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む
  19. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 28 詳现な重芁床 を反映

    Ours 重芁床の䜎い領域 の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む
  20. 定性的結果 : ベヌスラむン手法よりも重芁領域を限定した説明の生成に成功 RISE Lambda LABN Ours 29 1぀1぀の黒点 を泚目

    Ours 重芁床の䜎い領域 の圱響を軜枛 RISE 粗い / 倖偎に泚目 Lambda 倖偎に泚目 LABN 重芁床の䜎い領域の 圱響を含む
  21. Ablation Study : 損倱の導入により重芁床の䜎い領域の圱響を軜枛 IDs PID 𝑚 = 1 𝑚

    = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o 𝐿!" 0.124 0.446 0.405 0.388 0.382 w/o バむアス画像 0.460 𝟎. 𝟕𝟕𝟒 𝟎. 𝟕𝟗𝟐 𝟎. 𝟖𝟎𝟖 𝟎. 𝟖𝟎𝟕 Ours 𝟎. 𝟓𝟎𝟔 0.748 0.755 0.757 0.756 ・Saliency Guided Trainingで導入された損倱により 重芁でない領域の圱響を軜枛し、IDs/PIDs䞡方で粟床向䞊 ・バむアス画像を孊習デヌタに入れるかどうかの圱響は少ない 30
  22. Ablation Study : 損倱の導入により重芁床の䜎い領域の圱響を軜枛 IDs PID 𝑚 = 1 𝑚

    = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o 𝐿!" 0.124 0.446 0.405 0.388 0.382 w/o バむアス画像 0.460 𝟎. 𝟕𝟕𝟒 𝟎. 𝟕𝟗𝟐 𝟎. 𝟖𝟎𝟖 𝟎. 𝟖𝟎𝟕 Ours 𝟎. 𝟓𝟎𝟔 0.748 0.755 0.757 0.756 ・Saliency Guided Trainingで導入された損倱により 重芁でない領域の圱響を軜枛し、IDs/PIDs䞡方で粟床向䞊 ・バむアス画像を孊習デヌタに入れるかどうかの圱響は少ない 31
  23. たずめ • 背景 芖芚的説明生成により、未解明な珟象に掞察を䞎えるこずが可胜 䞀方、既存手法では粗い説明を生成する • 提案手法 Saliency Guided Trainingによる孊習方法を導入し

    非重芁領域の圱響を軜枛 マスク画像ずしおバむアス画像を提案 • 結果 IDs / PID の5぀のパッチサむズでベヌスラむン手法を䞊回った 32 Deletion バむアス画像 黒画玠
  24. Appendixïž“Lambda Networks [Bello+, ICLR21] 34 ・入力𝒉を畳みこみQuery, Key, Valueの生成 𝑄 =

    𝐶𝑜𝑛𝑣 𝒉 , 𝑉 = 𝑐𝑜𝑛𝑣 𝒉 , 𝐟 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥(𝐶𝑜𝑛𝑣 𝒉 ) ・valueの倉換, key,valueの積で𝝀! , 𝝀" を生成 𝝀! = 𝐶𝑜𝑛𝑣 𝑉 , 𝝀" = 𝐟#𝑉 ・最終出力: 𝒉$ 𝒉$ = 𝝀! + 𝝀" # 𝑄
  25. Appendixïž“Lambda Networks [Bello+, ICLR21] 35 ・蚈算 𝝀! = 𝐶𝑜𝑛𝑣 𝑉

    , 𝝀" = 𝐟#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 à 𝝀" はQを瞮玄する関数ず芋做せる
  26. Appendixïž“-- Lambda attentionの可芖化 -- 36 ・蚈算 𝝀! = 𝐶𝑜𝑛𝑣 𝑉

    , 𝝀" = 𝐟#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 à 𝝀" はQを瞮玄する関数ず芋做せる ・説明生成 1. Attention Rollout[Abnar+, NeuralPS21]を参考に 実隓的に𝝀" #𝑞をチャネル方向に平均化しお可芖化 (Lambda attention) 2. 説明生成専甚のモゞュヌルを䜿甚 (LABN) ※ 倖郚を泚目: IA-RED[Pan+, ACL20]でも指摘されおいる
  27. Appendix : 既存研究 -- RISE[Petsiuk+, BMCV18] -- 37 ▪ 可芖化手順

    1. ランダムにマスクを生成 2. マスクした画像を モデルに入力 3. 予枬の倉化に応じお マスクに重み付け 4. 3を可芖化 ▪ 予枬の倉化 予枬の倉化倧 à 重芁 予枬の倉化小 à 非重芁
  28. Appendixïž“IDsは重芁領域がスパヌスな画像に䞍適切 -- PID -- 6 粗いattention map deletionの入力 詳现なattention map

    deletionの入力 元画像 1 2 3 4 5 6 7 8 9 カヌネル 0 0 0 0 0 0 0 0 0 粗く削陀された堎合 0 0 1 1 0 0 0 0 0 现かく削陀された堎合 䜍眮・カヌネルによっお出力が異なる 䜍眮・カヌネル䟝存性無し 0 7
  29. AppendixPatch Insertion-Deletion score 定矩匏 1. 入力画像 𝒙 を𝑚 × 𝑚のパッチ

    𝒑%& ∈ ℝ"!×(" に分割 2. attention map 𝜶 にmax-poolingを適甚しお パッチごずのattention map 𝒂) ∈ ℝ(" を䜜成 3. 𝒂) の芁玠を、倀が倧きい順番に𝛌%#&# , 𝛌%"&" , ⋯ , 𝛌%$&$ ずする 4. 集合𝐎* を 𝐎* = 𝑖+, 𝑗+ | 𝑘 ≀ 𝑛 ず定矩重芁床䞊䜍𝑛個のむンデックス 5. Insertion, Deletionの入力𝒊*, 𝒅* はそれぞれ䞋蚘の様に定矩される
  30. Appendix : マスクによる予枬ぞの圱響[Srinivas+, NeurlPS19] ▪ 問題点 予枬の倉化に察する圱響が ・重芁箇所の挿入/削陀 ・分垃の倉化 ・高呚波成分(゚ッゞなど)

    どの圱響なのか明確化するのは困難 埓来の手法でmaskした画像 40 ▪ 既存手法 重芁床の高い領域から 黒画玠で挿入/削陀を行う
  31. Appendix : 既存研究 -- Full-Gradientでの評䟡方法 -- 41 ・Pixel perturbation ▪

    埓来手法 -- 最も顕著なピクセル𝑘個を黒画玠で眮換 -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別
  32. Appendix : 既存研究 -- Full-Gradientでの評䟡方法 -- 42 ▪ 埓来手法 --

    最も顕著なピクセル𝑘個を黒画玠で眮換 -- 重芁性が高いほど関数出力の倉動が倧きい -- 倉動が高呚波成分の圱響の可胜性が拭えない ▪ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で眮換 -- 関数出力の倉動が小さいこずを期埅 -- 重芁でない郚分ず重芁な郚分を明確に識別 元画像 25%眮換 75%眮換 0.90 0.88 0.85 ⇩ 0.90 ⇩ 0.90 元画像 25%眮換 75%眮換 0.90 0.20 0.10 ⇩ 0.90 ⇩ 0.90
  33. Appendix : Insertion-Deletion score --RISE, Lambda attention, Ours-- ・ 提案手法はInsertion

    / Deletion score ずもに倧幅に改善しおいる (𝑚 = 1) 43 Method RISE Lambda attention Ours Insertion↑ 0.562 ± 0.088 0.600 ± 0.118 0.742 ± 0.102 Deletion↓ 0.327 ± 0.119 0.226 ± 0.133 0.099 ± 0.120
  34. Appendix : 既存研究 -- LABM[飯田+, JSAI22] ずの比范 -- DeFN PID

    𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 Ours 0.044 0.311 0.489 0.523 0.556 ・ 暙準的な評䟡指暙であるInsertion-Deletion scoreやパッチサむズの小さい時に ベヌスラむン手法を超えおいないずいう問題点があった
  35. Appendix : Ablation Study --バむアス画像を加えた時-- Insertion IDs(Ins) PID(Ins) 𝑚 =

    1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o バむアス画像 0.763 0.816 0.818 0.816 0.814 Ours 0.742 0.782 0.783 0.779 0.782 ・Deletionは䞡手法で小さく倧差がない ・Insertionのスコアが提案手法では小さくなっおしたっおいる 46 Deletion IDs(Del) PID(Del) 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o バむアス画像 0.198 0.069 0.044 0.020 0.022 Ours 0.099 0.035 0.028 0.022 0.026
  36. Appendix : 発展 -- LABM[飯田+, JSAI22] ずの比范 (IDRiDを甚いた堎合でも最良) -- ・

    远加実隓 -- LABNず同様に、 IDRiDを甚いた実隓を行った ・結果 -- Insertion-Deletion score Patch Insertion-Deletion score 党おのパッチサむズで最良 IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 RISE [1] 0.319 0.179 0.130 0.136 0.148 Lambda -0.101 -0.105 -0.116 -0.123 0.093 LABN 0.111 0.084 0.150 0.183 0.230 Ours 0.431 0.458 0.473 0.470 0.455 DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 LABN 0.044 0.311 0.489 0.523 0.556 Ours 0.506 0.748 0.755 0.757 0.756 IDRiD