[JSAI22] Visual Explanation Generation Using Lambda Attention Branch Networks

飯田紡1 兼田寛大1 平川翼2 山下隆義2 藤吉弘亘2
杉浦孔明1 1. 慶應義塾大学 2. 中部大学 Lambda Attention Branch Networksによる視覚的説明生成

背景︓説明性により，未解明現象に洞察を与えることが可能 1 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 •
⾃動運転 • 理論が未解明な現象（例︓太陽フレア予測）深層学習の説明性向上はさらなる普及・理論への洞察に繋がる https://www.jiji.com/jc/article?k=20211029 00998&g=soc&p=20211029at65S&rel=pv

背景︓説明性により，未解明現象に洞察を与えることが可能 1 （モデルが注⽬︓⾚）深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療
• ⾃動運転 • 理論が未解明な現象（例︓太陽フレア予測）深層学習の説明性向上はさらなる普及・理論への洞察に繋がる

背景︓説明性により，未解明現象に洞察を与えることが可能 1 太陽フレア現象解明の鍵となる可能性（モデルが注⽬︓⾚）深層学習の主な応⽤ • 翻訳 • 姿勢推定
• 医療 • ⾃動運転 • 理論が未解明な現象（例︓太陽フレア予測）深層学習の説明性向上はさらなる普及・理論への洞察に繋がる

問題設定︓判断根拠の視覚的説明⽣成 2 分類問題におけるモデルの判断根拠の視覚的説明⽣成⼊⼒︓画像 𝒙 ∈ ℝ!×#×$ 出⼒︓予測，視覚的説明（attention map） 𝜶
∈ ℝ%×#×$ attention map︓ 予測に重要な画素 / 重要でない画素を可視化眼底画像における⼊出⼒例

関連研究︓transformerの説明⽣成や応⽤先を考慮した説明の研究は少ない 3 Attention Branch Network [Fukui+, CVPR19] ブランチ構造によりCNNの説明を⽣成 Attention Rollout
[Abnar+, 20] ViT [Dosovitskiy+, ICLR21]のtransformer型注意を連鎖した説明⽣成 transformerの説明⽣成の標準 RISE [Petsiuk+, BMCV18] 説明の標準的な評価指標Insertion-Deletion score (IDs) を提案 • ViTを基にしたtransformer以外のモデルにおける説明⽣成の研究は少ない • ⾃然画像や⼀般画像を対象とした研究が多い → 重要領域がスパースな画像において、 IDsは不適切⼀般画像スパース画像

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer CNNとの親和性が⾼いtransformer層 ViTより少ない計算量で広範囲の関係を捉えることが可能
ViT Lambda

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で全ピクセル間の関係を取得可能
⼊⼒𝒉を畳み込みquery, key, valueを⽣成 𝑄 = Conv 𝒉 , 𝑉 = Conv(𝒉) 𝐾 = Softmax Conv 𝒉 valueの変換，keyとvalueの積で𝝀!, 𝝀" を⽣成 𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 下式により，Lambda Layerの出⼒𝒉$ を得る 𝒉$ = 𝝀! + 𝝀" # 𝑄

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で全ピクセル間の関係を取得可能
𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 𝝀& は𝑄を縮約する関数とみなせる ◦説明⽣成⽅針 1. 𝝀& をAttentionのように可視化 2. 説明⽣成専⽤のモジュールを使⽤

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention
Branchでtransformer注意機構より明瞭な説明を⽣成可能

Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Feature Extractor 画像から特徴量𝒉'() を抽出 Bottleneck中にLambda Layer

Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Attention Branch ブランチ構造を加えて attention map 𝜶 ∈ ℝ%×#×$ を⽣成

Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Perception Branch 𝒉'() と𝜶から分類を⾏う説明𝜶を予測にも利⽤可能

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −
AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像粗いattention map deletionの⼊⼒詳細なattention map deletionの⼊⼒元画像

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −
AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像粗いattention map deletionの⼊⼒詳細なattention map deletionの⼊⼒元画像 1 2 3 4 5 6 7 8 9 カーネル 0 0 0 0 0 0 0 0 0 粗く削除された場合 0 0 1 1 0 0 0 0 0 細かく削除された場合位置・カーネルによって出⼒が異なる位置・カーネル依存性無し 0 7

提案⼿法②︓Patch Insertion-Deletion score（PID） Insertion Deletion Patch Insertion-Deletion score (PID) パッチサイズ𝑚
= 1のときIDsと⼀致 1. 画像を𝑚 × 𝑚のパッチに分割 2. attention mapに基づき、重要なパッチから挿⼊ / 削除 3. 挿⼊ / 削除したパッチ数とモデルの予測確率をプロット PID = AUC Insertion − AUC(Deletion) 7 0 𝒙! = - 𝒑"# 𝑖, 𝑗 ∈ 重要度上位𝑛個 (otherwise) 𝑝(? 𝑦 = 1|𝒙! ) 𝑛 𝑛

IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 =
4 𝑚 = 8 𝑚 = 16 RISE [1] 0.319 0.179 0.130 0.136 0.148 Lambda -0.101 -0.105 -0.116 -0.123 0.093 Ours 0.111 0.084 0.150 0.183 0.230 定量的結果︓パッチサイズ⼤のとき提案⼿法が最良 8 データセット • IDRiD（眼底画像診断） • DeFN magnetogram（太陽フレア予測）パッチサイズ⼤のとき提案⼿法が最良既存⼿法との差が広がっていく 𝑚 : パッチサイズ DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 Ours 0.044 0.311 0.489 0.523 0.556 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬
RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

定性的結果︓失敗例注⽬領域が⼤きすぎる Deletionが下がらない注⽬領域が⼩さすぎるモデルが予測誤り 10 attention map Insertion Deletion
PID = -0.0138 PID = 0.1255 元画像を⼊⼒した際の予測確率

Ablation Study︓Lambda Attention Branchの位置は中層が最適 11 IDRiD Acc PID 𝑚 =
1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 Ours (浅層) 0.691 0.061 0.062 0.094 0.150 0.137 Ours (中層) 0.771 0.111 0.084 0.150 0.183 0.230 Ours (深層) 0.742 -0.079 -0.079 -0.053 -0.067 -0.075 深い層から抽出浅い層から抽出 Lambda Attention Branchの⼊⼒を得る位置を変更深い層ほど細かい特徴を抽出浅い層から抽出エッジに注⽬⾼解像度なattention map 深い層から抽出全体的にぼんやり低解像度で不安定なものも存在

まとめ背景説明性は未解明現象に洞察を与えることが可能提案⼿法 Lambda Attention Branch Networks スパースな重要領域を有する画像に有効な評価指標 PID
結果パッチサイズが⼤きいとき、PIDでベースライン⼿法を上回った． 12

[JSAI22] Visual Explanation Generation Using La...

[JSAI22] Visual Explanation Generation Using Lambda Attention Branch Networks

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

飯田紡1 兼田寛大1 平川翼2 山下隆義2 藤吉弘亘2

背景︓説明性により，未解明現象に洞察を与えることが可能 1 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 •

背景︓説明性により，未解明現象に洞察を与えることが可能 1 （モデルが注⽬︓⾚）深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療

背景︓説明性により，未解明現象に洞察を与えることが可能 1 太陽フレア現象解明の鍵となる可能性（モデルが注⽬︓⾚）深層学習の主な応⽤ • 翻訳 • 姿勢推定

問題設定︓判断根拠の視覚的説明⽣成 2 分類問題におけるモデルの判断根拠の視覚的説明⽣成⼊⼒︓画像 𝒙 ∈ ℝ!×#×$ 出⼒︓予測，視覚的説明（attention map） 𝜶

関連研究︓transformerの説明⽣成や応⽤先を考慮した説明の研究は少ない 3 Attention Branch Network [Fukui+, CVPR19] ブランチ構造によりCNNの説明を⽣成 Attention Rollout

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer CNNとの親和性が⾼いtransformer層 ViTより少ない計算量で広範囲の関係を捉えることが可能

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で全ピクセル間の関係を取得可能

関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で全ピクセル間の関係を取得可能

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −

問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −

提案⼿法②︓Patch Insertion-Deletion score（PID） Insertion Deletion Patch Insertion-Deletion score (PID) パッチサイズ𝑚

IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 =

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

定性的結果︓失敗例注⽬領域が⼤きすぎる Deletionが下がらない注⽬領域が⼩さすぎるモデルが予測誤り 10 attention map Insertion Deletion

Ablation Study︓Lambda Attention Branchの位置は中層が最適 11 IDRiD Acc PID 𝑚 =

まとめ背景説明性は未解明現象に洞察を与えることが可能提案⼿法 Lambda Attention Branch Networks スパースな重要領域を有する画像に有効な評価指標 PID