Slide 1

Slide 1 text

飯田 紡1 兼田 寛大1 平川 翼2 山下 隆義2 藤吉 弘亘2 杉浦 孔明1 1. 慶應義塾大学 2. 中部大学 Lambda Attention Branch Networksによる 視覚的説明生成

Slide 2

Slide 2 text

背景︓説明性により,未解明現象に洞察を与えることが可能 1 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 • ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる https://www.jiji.com/jc/article?k=20211029 00998&g=soc&p=20211029at65S&rel=pv

Slide 3

Slide 3 text

背景︓説明性により,未解明現象に洞察を与えることが可能 1 (モデルが注⽬︓⾚) 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 • ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる

Slide 4

Slide 4 text

背景︓説明性により,未解明現象に洞察を与えることが可能 1 太陽フレア現象解明の 鍵となる可能性 (モデルが注⽬︓⾚) 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 • ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる

Slide 5

Slide 5 text

問題設定︓判断根拠の視覚的説明⽣成 2 分類問題におけるモデルの判断根拠の視覚的説明⽣成 ⼊⼒︓画像 𝒙 ∈ ℝ!×#×$ 出⼒︓予測,視覚的説明(attention map) 𝜶 ∈ ℝ%×#×$ attention map︓ 予測に重要な画素 / 重要でない画素を可視化 眼底画像における ⼊出⼒例

Slide 6

Slide 6 text

関連研究︓transformerの説明⽣成や応⽤先を考慮した説明の研究は少ない 3 Attention Branch Network [Fukui+, CVPR19] ブランチ構造によりCNNの説明を⽣成 Attention Rollout [Abnar+, 20] ViT [Dosovitskiy+, ICLR21]のtransformer型注意を連鎖した説明⽣成 transformerの説明⽣成の標準 RISE [Petsiuk+, BMCV18] 説明の標準的な評価指標Insertion-Deletion score (IDs) を提案 • ViTを基にしたtransformer以外のモデルにおける説明⽣成の研究は少ない • ⾃然画像や⼀般画像を対象とした研究が多い → 重要領域がスパースな画像において、 IDsは不適切 ⼀般画像 スパース画像

Slide 7

Slide 7 text

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer CNNとの親和性が⾼いtransformer層 ViTより少ない計算量で 広範囲の関係を捉えることが可能 ViT Lambda

Slide 8

Slide 8 text

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で 全ピクセル間の関係を取得可能 ⼊⼒𝒉を畳み込みquery, key, valueを⽣成 𝑄 = Conv 𝒉 , 𝑉 = Conv(𝒉) 𝐾 = Softmax Conv 𝒉 valueの変換,keyとvalueの積で𝝀!, 𝝀" を⽣成 𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 下式により,Lambda Layerの出⼒𝒉$ を得る 𝒉$ = 𝝀! + 𝝀" # 𝑄

Slide 9

Slide 9 text

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で 全ピクセル間の関係を取得可能 𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 𝝀& は𝑄を縮約する関数とみなせる ○説明⽣成⽅針 1. 𝝀& をAttentionのように可視化 2. 説明⽣成専⽤のモジュールを使⽤

Slide 10

Slide 10 text

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能

Slide 11

Slide 11 text

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Feature Extractor 画像から特徴量𝒉'() を抽出 Bottleneck中にLambda Layer

Slide 12

Slide 12 text

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Attention Branch ブランチ構造を加えて attention map 𝜶 ∈ ℝ%×#×$ を⽣成

Slide 13

Slide 13 text

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Perception Branch 𝒉'() と𝜶から分類を⾏う 説明𝜶を予測にも利⽤可能

Slide 14

Slide 14 text

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion − AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため 重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像 粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒ 元画像

Slide 15

Slide 15 text

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion − AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため 重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像 粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒ 元画像 1 2 3 4 5 6 7 8 9 カーネル 0 0 0 0 0 0 0 0 0 粗く削除された場合 0 0 1 1 0 0 0 0 0 細かく削除された場合 位置・カーネルによって出⼒が異なる 位置・カーネル依存性無し 0 7

Slide 16

Slide 16 text

提案⼿法②︓Patch Insertion-Deletion score(PID) Insertion Deletion Patch Insertion-Deletion score (PID) パッチサイズ𝑚 = 1のときIDsと⼀致 1. 画像を𝑚 × 𝑚のパッチに分割 2. attention mapに基づき、重要なパッチ から挿⼊ / 削除 3. 挿⼊ / 削除したパッチ数とモデルの予 測確率をプロット PID = AUC Insertion − AUC(Deletion) 7 0 𝒙! = - 𝒑"# 𝑖, 𝑗 ∈ 重要度上位𝑛個 (otherwise) 𝑝(? 𝑦 = 1|𝒙! ) 𝑛 𝑛

Slide 17

Slide 17 text

IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 RISE [1] 0.319 0.179 0.130 0.136 0.148 Lambda -0.101 -0.105 -0.116 -0.123 0.093 Ours 0.111 0.084 0.150 0.183 0.230 定量的結果︓パッチサイズ⼤のとき提案⼿法が最良 8 データセット • IDRiD(眼底画像診断) • DeFN magnetogram(太陽フレア予測) パッチサイズ⼤のとき提案⼿法が最良 既存⼿法との差が広がっていく 𝑚 : パッチサイズ DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 Ours 0.044 0.311 0.489 0.523 0.556 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 18

Slide 18 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 19

Slide 19 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 20

Slide 20 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 21

Slide 21 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 22

Slide 22 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 23

Slide 23 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 24

Slide 24 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 25

Slide 25 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 26

Slide 26 text

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬ RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

Slide 27

Slide 27 text

定性的結果︓失敗例 注⽬領域が⼤きすぎる Deletionが下がらない 注⽬領域が⼩さすぎる モデルが予測誤り 10 attention map Insertion Deletion PID = -0.0138 PID = 0.1255 元画像を⼊⼒した際の予測確率

Slide 28

Slide 28 text

Ablation Study︓Lambda Attention Branchの位置は中層が最適 11 IDRiD Acc PID 𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 Ours (浅層) 0.691 0.061 0.062 0.094 0.150 0.137 Ours (中層) 0.771 0.111 0.084 0.150 0.183 0.230 Ours (深層) 0.742 -0.079 -0.079 -0.053 -0.067 -0.075 深い層から抽出 浅い層から抽出 Lambda Attention Branchの⼊⼒を 得る位置を変更 深い層ほど細かい特徴を抽出 浅い層から抽出 エッジに注⽬ ⾼解像度なattention map 深い層から抽出 全体的にぼんやり 低解像度で不安定なものも存在

Slide 29

Slide 29 text

まとめ 背景 説明性は未解明現象に洞察を与えることが可能 提案⼿法 Lambda Attention Branch Networks スパースな重要領域を有する画像に有効な評価指標 PID 結果 パッチサイズが⼤きいとき、PIDでベースライン⼿法を上回った. 12