Slide 1

Slide 1 text

1 Saliency Guided Trainingを使用した Lambda Attention Branch Networks による視覚的説明生成 小松 拓実1 飯田 紡1 兼田 寛大1 平川 翼2 山下 隆義2 藤吉 弘亘2 杉浦 孔明1 1. 慶應義塾大学 2. 中部大学

Slide 2

Slide 2 text

背景 : 未解明な現象へ説明性の応用が可能 • 深層学習の主な応用分野 – 自動運転 – 医療分野 – 理論が未知の物理現象 (例: 太陽フレア予測) 深層学習による説明性は 未知の理論への洞察につながる可能性がある 眼底画像 2 自動運転 太陽磁場画像

Slide 3

Slide 3 text

背景 : 未解明な現象へ説明性の応用が可能 • 深層学習の主な応用分野 – 自動運転 – 医療分野 – 理論が未知の物理現象 (例: 太陽フレア予測) magnetogram(磁場画像) 深層学習による説明性は 未知の理論への洞察につながる可能性がある 視覚的説明 3 太陽フレアの 原因解明の鍵となる 可能性

Slide 4

Slide 4 text

背景 : 太陽フレアによる現実への影響は甚大だが現象として未解明 ■ 太陽フレア – 太陽表面で起きる爆発現象 ■ X線等級 – X, M, C, Oクラスに分類 ■ 主な被害 – 大規模な停電 [1989] – 人工衛星への被害[2022] (日経新聞2022/4/26) 等級の分類 4 大 小 規模・被害 被害想定額は 約40兆円 (保険会社試算) NASA, https://svs.gsfc.nasa.gov/4491 TBS, https://newsdig.tbs.co.jp/articles/-/78060?display=1

Slide 5

Slide 5 text

関連研究 : 既存手法は重要でない領域を重要視する粗い説明を生成 • 重要でない領域の影響も含まれた 粗い説明を生成する傾向がある RISE [Petsiuk+, BMCV18] 説明の標準的な手法, 評価指標であるInsertion-Deletion scoreを提案 Lambda Attention Branch Networks [飯田+, JSAI22] ABN[Fukui+, CVPR19]を利用して Lambda Networks[Bello+, ICLR21]の説明を生成 Full-Gradient [Srinivas+, NeurlPS19] バイアス項の勾配を含めた説明生成を提案 マスクによる予測への影響を示唆 5 RISE LABN

Slide 6

Slide 6 text

関連研究: Insertion-Deletion score (IDs) [Petsiuk+, BMCV18] 6 Deletion Insertion n Insertion-Deletion score (IDs) 1. 計算した重要度に基づき 重要な画素から挿入/削除を行う 2. 挿入 / 削除したパッチ数と モデルの予測確率をプロット 3. プロット図のAUCを計算 IDs = AUC Insertion − AUC(Deletion)

Slide 7

Slide 7 text

問題点 : 注目領域の範囲が広範囲 • 既存手法は重要でない領域も注目 幅のある粗い視覚的説明を生成する 重要でない領域の重要度が全体的に大きい 元画像 幅のある粗い説明 重要でない領域の重要度が高い 7 Saliency Guided Training[Ismail+, NeurIPS21]による学習を導入

Slide 8

Slide 8 text

問題設定 : モデルの判断根拠の視覚的説明生成 ■ タスク 分類問題におけるモデルの 判断根拠の視覚的説明生成 8 モデル 予測確率 各画素の重要度を 可視化 ラベル1 ラベル0

Slide 9

Slide 9 text

モデル構造の概要 : 視覚的説明生成専用のブランチ構造を導入 • Lambda Networks[Bello+, ICLR21]を基にした3つのモジュールから成る • 説明生成モジュールとしてABN[Fukui+, CVPR19]を導入したLABNを使用 9

Slide 10

Slide 10 text

モジュール① : Lambda Feature Extractor (LFE)で特徴を抽出 • 10

Slide 11

Slide 11 text

モジュール② : Lambda Attention Branch (LAB)でattention mapを生成 11 n Lambda Attention Branch (LAB) – 視覚的説明生成のモジュール – モデルの並行にブランチを 導入し、attention mapを生成 ・入力 : 画像特徴量 𝒉!"# ・出力 : attention map 𝜶′ 予測確率 𝑝(: y!$% )

Slide 12

Slide 12 text

モジュール③ : Lambda Perception Branch (LPB)で分類を行う 12 n Lambda Perception Branch (LPB) – 画像特徴量𝒉!"# と – attention map 𝜶′ から分類

Slide 13

Slide 13 text

損失関数 以下の損失𝐿を使用 𝐿 = 𝐿"#$ + 𝛼% 𝐿"&$ + 𝛼' 𝐿(" 𝐿!"# = 𝐶𝐸 𝑓!"# $ ⋅ , 𝒚 𝐿"&$ = 𝐶𝐸 𝑓)*+ ⋅ , 𝒚 𝐿(" = D,) 𝑓"&$ 𝑥 ||𝑓"&$ (𝑥-) 𝑓(⋅) 提案ネットワーク 𝒙, 𝑦 , 𝑥′ 入出力, マスクした画像 𝐶𝐸(⋅,⋅) 交差エントロピー 𝐷!" -∥- KLダイバージェンス 𝛼# , 𝛼$ 損失の重み 13 𝑓!&% 𝑓!$% (()

Slide 14

Slide 14 text

新規性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 attention map 14

Slide 15

Slide 15 text

新規性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 attention map 15

Slide 16

Slide 16 text

新規性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 attention map 16

Slide 17

Slide 17 text

新規性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 マスクした画像 17 重要な領域の影響を大きくし、 重要でない領域の影響を軽減

Slide 18

Slide 18 text

新規性① : Saliency Guided Training [Ismail+, NeurIPS21]の導入 • 元画像 attention map 18 実際は、バイアス画像 でマスク画像を作成

Slide 19

Slide 19 text

新規性②: バイアス画像によるマスク • 元画像 バイアス画像 Deletion 19 Insertion マスクされている

Slide 20

Slide 20 text

実験設定 : DeFN magnetogram データセット 20 磁場画像をSolar Dynamic Observatoryより収集 Training Set Validation Set Test Set 期間 サンプル数 期間 サンプル数 期間 サンプル数 2010-2015 45530 2016 7795 2017 7790 magnetogram

Slide 21

Slide 21 text

評価指標 : Insertion-Deletion score(IDs) ・Patch Insertion-Deletion score(PID) 21 Deletion Insertion Patch Deletion Patch Insertion Patch Insertion-Deletion score (PID) 1. 画像を𝑚×𝑚のパッチに分割 2. attention mapに基づき、 重要なパッチから挿入/削除を行う 3. 挿入 / 削除したパッチ数と モデルの予測確率をプロット PID = AUC Insertion − AUC(Deletion) 1画素単位ではなく パッチ単位で挿入/削除

Slide 22

Slide 22 text

定量的結果 : IDs・PIDの5つのパッチサイズで精度向上 IDs PID (𝑚 = 1) 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [Petsiuk+,18] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 LABN [飯田, 22] 0.044 0.311 0.489 0.523 0.556 Ours 𝟎. 𝟓𝟎𝟔 𝟎. 𝟕𝟒𝟖 𝟎. 𝟕𝟓𝟓 𝟎. 𝟕𝟓𝟕 𝟎. 𝟕𝟓𝟔 n IDsで既存手法を上回る性能を達成 n 各パッチサイズ(PID)で既存手法を上回る性能を達成 22 +𝟎. 𝟏𝟑𝟐 +𝟎. 𝟐𝟑𝟒

Slide 23

Slide 23 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む 23

Slide 24

Slide 24 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 24 粗い説明を生成 Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む

Slide 25

Slide 25 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 25 Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む 領域外にも注目

Slide 26

Slide 26 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 26 領域外にも注目 Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む

Slide 27

Slide 27 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 27 全体的に重要度 が大きい Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む

Slide 28

Slide 28 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 28 詳細な重要度 を反映 Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む

Slide 29

Slide 29 text

定性的結果 : ベースライン手法よりも重要領域を限定した説明の生成に成功 RISE Lambda LABN Ours 29 1つ1つの黒点 を注目 Ours 重要度の低い領域 の影響を軽減 RISE 粗い / 外側に注目 Lambda 外側に注目 LABN 重要度の低い領域の 影響を含む

Slide 30

Slide 30 text

Ablation Study : 損失の導入により重要度の低い領域の影響を軽減 IDs PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o 𝐿!" 0.124 0.446 0.405 0.388 0.382 w/o バイアス画像 0.460 𝟎. 𝟕𝟕𝟒 𝟎. 𝟕𝟗𝟐 𝟎. 𝟖𝟎𝟖 𝟎. 𝟖𝟎𝟕 Ours 𝟎. 𝟓𝟎𝟔 0.748 0.755 0.757 0.756 ・Saliency Guided Trainingで導入された損失により 重要でない領域の影響を軽減し、IDs/PIDs両方で精度向上 ・バイアス画像を学習データに入れるかどうかの影響は少ない 30

Slide 31

Slide 31 text

Ablation Study : 損失の導入により重要度の低い領域の影響を軽減 IDs PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o 𝐿!" 0.124 0.446 0.405 0.388 0.382 w/o バイアス画像 0.460 𝟎. 𝟕𝟕𝟒 𝟎. 𝟕𝟗𝟐 𝟎. 𝟖𝟎𝟖 𝟎. 𝟖𝟎𝟕 Ours 𝟎. 𝟓𝟎𝟔 0.748 0.755 0.757 0.756 ・Saliency Guided Trainingで導入された損失により 重要でない領域の影響を軽減し、IDs/PIDs両方で精度向上 ・バイアス画像を学習データに入れるかどうかの影響は少ない 31

Slide 32

Slide 32 text

まとめ • 背景 視覚的説明生成により、未解明な現象に洞察を与えることが可能 一方、既存手法では粗い説明を生成する • 提案手法 Saliency Guided Trainingによる学習方法を導入し 非重要領域の影響を軽減 マスク画像としてバイアス画像を提案 • 結果 IDs / PID の5つのパッチサイズでベースライン手法を上回った 32 Deletion バイアス画像 黒画素

Slide 33

Slide 33 text

Appendix︓Lambda Networks [Bello+, ICLR21] ・Lambda Layer CNNとの親和性が高い ・transformer層 ViTより少ない計算量で 広範囲の関係を捉えることが可能 ViT Lambda 33

Slide 34

Slide 34 text

Appendix︓Lambda Networks [Bello+, ICLR21] 34 ・入力𝒉を畳みこみQuery, Key, Valueの生成 𝑄 = 𝐶𝑜𝑛𝑣 𝒉 , 𝑉 = 𝑐𝑜𝑛𝑣 𝒉 , 𝐾 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥(𝐶𝑜𝑛𝑣 𝒉 ) ・valueの変換, key,valueの積で𝝀! , 𝝀" を生成 𝝀! = 𝐶𝑜𝑛𝑣 𝑉 , 𝝀" = 𝐾#𝑉 ・最終出力: 𝒉$ 𝒉$ = 𝝀! + 𝝀" # 𝑄

Slide 35

Slide 35 text

Appendix︓Lambda Networks [Bello+, ICLR21] 35 ・計算 𝝀! = 𝐶𝑜𝑛𝑣 𝑉 , 𝝀" = 𝐾#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 à 𝝀" はQを縮約する関数と見做せる

Slide 36

Slide 36 text

Appendix︓-- Lambda attentionの可視化 -- 36 ・計算 𝝀! = 𝐶𝑜𝑛𝑣 𝑉 , 𝝀" = 𝐾#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 à 𝝀" はQを縮約する関数と見做せる ・説明生成 1. Attention Rollout[Abnar+, NeuralPS21]を参考に 実験的に𝝀" #𝑸をチャネル方向に平均化して可視化 (Lambda attention) 2. 説明生成専用のモジュールを使用 (LABN) ※ 外部を注目: IA-RED[Pan+, ACL20]でも指摘されている

Slide 37

Slide 37 text

Appendix : 既存研究 -- RISE[Petsiuk+, BMCV18] -- 37 ■ 可視化手順 1. ランダムにマスクを生成 2. マスクした画像を モデルに入力 3. 予測の変化に応じて マスクに重み付け 4. 3を可視化 ■ 予測の変化 予測の変化大 à 重要 予測の変化小 à 非重要

Slide 38

Slide 38 text

Appendix︓IDsは重要領域がスパースな画像に不適切 -- PID -- 6 粗いattention map deletionの入力 詳細なattention map deletionの入力 元画像 1 2 3 4 5 6 7 8 9 カーネル 0 0 0 0 0 0 0 0 0 粗く削除された場合 0 0 1 1 0 0 0 0 0 細かく削除された場合 位置・カーネルによって出力が異なる 位置・カーネル依存性無し 0 7

Slide 39

Slide 39 text

Appendix:Patch Insertion-Deletion score 定義式 1. 入力画像 𝒙 を𝑚 × 𝑚のパッチ 𝒑%& ∈ ℝ"!×(" に分割 2. attention map 𝜶 にmax-poolingを適用して パッチごとのattention map 𝒂) ∈ ℝ(" を作成 3. 𝒂) の要素を、値が大きい順番に𝛼%# , 𝛼%"&" , ⋯ , 𝛼%$&$ とする 4. 集合𝐴* を 𝐴* = 𝑖+, 𝑗+ | 𝑘 ≤ 𝑛 と定義(重要度上位𝑛個のインデックス) 5. Insertion, Deletionの入力𝒊*, 𝒅* はそれぞれ下記の様に定義される

Slide 40

Slide 40 text

Appendix : マスクによる予測への影響[Srinivas+, NeurlPS19] ■ 問題点 予測の変化に対する影響が ・重要箇所の挿入/削除 ・分布の変化 ・高周波成分(エッジなど) どの影響なのか明確化するのは困難 従来の手法でmaskした画像 40 ■ 既存手法 重要度の高い領域から 黒画素で挿入/削除を行う

Slide 41

Slide 41 text

Appendix : 既存研究 -- Full-Gradientでの評価方法 -- 41 ・Pixel perturbation ■ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換 -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ■ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別

Slide 42

Slide 42 text

Appendix : 既存研究 -- Full-Gradientでの評価方法 -- 42 ■ 従来手法 -- 最も顕著なピクセル𝑘個を黒画素で置換 -- 重要性が高いほど関数出力の変動が大きい -- 変動が高周波成分の影響の可能性が拭えない ■ 提案手法 -- 最も顕著でないピクセル𝑘個を黒で置換 -- 関数出力の変動が小さいことを期待 -- 重要でない部分と重要な部分を明確に識別 元画像 25%置換 75%置換 0.90 0.88 0.85 ⇦ 0.90 ⇦ 0.90 元画像 25%置換 75%置換 0.90 0.20 0.10 ⇦ 0.90 ⇦ 0.90

Slide 43

Slide 43 text

Appendix : Insertion-Deletion score --RISE, Lambda attention, Ours-- ・ 提案手法はInsertion / Deletion score ともに大幅に改善している (𝑚 = 1) 43 Method RISE Lambda attention Ours Insertion↑ 0.562 ± 0.088 0.600 ± 0.118 0.742 ± 0.102 Deletion↓ 0.327 ± 0.119 0.226 ± 0.133 0.099 ± 0.120

Slide 44

Slide 44 text

Appendix : 既存研究 -- LABM[飯田+, JSAI22] との比較 -- DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 Ours 0.044 0.311 0.489 0.523 0.556 ・ 標準的な評価指標であるInsertion-Deletion scoreやパッチサイズの小さい時に ベースライン手法を超えていないという問題点があった

Slide 45

Slide 45 text

Appendix : Ablation Study --バイアス画像を加えた時-- ・バイアス画像を学習データに入れるかどうかの影響は少ない 45 ⇨ Deletion最終時の予測値0とするために学習データに追加 ⇨ Deletionの値が下がることを期待 Deletionの様子 最終時を0に縛 る

Slide 46

Slide 46 text

Appendix : Ablation Study --バイアス画像を加えた時-- Insertion IDs(Ins) PID(Ins) 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o バイアス画像 0.763 0.816 0.818 0.816 0.814 Ours 0.742 0.782 0.783 0.779 0.782 ・Deletionは両手法で小さく大差がない ・Insertionのスコアが提案手法では小さくなってしまっている 46 Deletion IDs(Del) PID(Del) 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 w/o バイアス画像 0.198 0.069 0.044 0.020 0.022 Ours 0.099 0.035 0.028 0.022 0.026

Slide 47

Slide 47 text

Appendix : 発展 -- LABM[飯田+, JSAI22] との比較 (IDRiDを用いた場合でも最良) -- ・ 追加実験 -- LABNと同様に、 IDRiDを用いた実験を行った ・結果 -- Insertion-Deletion score Patch Insertion-Deletion score 全てのパッチサイズで最良 IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 RISE [1] 0.319 0.179 0.130 0.136 0.148 Lambda -0.101 -0.105 -0.116 -0.123 0.093 LABN 0.111 0.084 0.150 0.183 0.230 Ours 0.431 0.458 0.473 0.470 0.455 DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 LABN 0.044 0.311 0.489 0.523 0.556 Ours 0.506 0.748 0.755 0.757 0.756 IDRiD