Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI22] Visual Explanation Generation Using La...

[JSAI22] Visual Explanation Generation Using Lambda Attention Branch Networks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 飯田 紡1 兼田 寛大1 平川 翼2 山下 隆義2 藤吉 弘亘2

    杉浦 孔明1 1. 慶應義塾大学 2. 中部大学 Lambda Attention Branch Networksによる 視覚的説明生成
  2. 背景︓説明性により,未解明現象に洞察を与えることが可能 1 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療 •

    ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる https://www.jiji.com/jc/article?k=20211029 00998&g=soc&p=20211029at65S&rel=pv
  3. 背景︓説明性により,未解明現象に洞察を与えることが可能 1 (モデルが注⽬︓⾚) 深層学習の主な応⽤ • 翻訳 • 姿勢推定 • 医療

    • ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる
  4. 背景︓説明性により,未解明現象に洞察を与えることが可能 1 太陽フレア現象解明の 鍵となる可能性 (モデルが注⽬︓⾚) 深層学習の主な応⽤ • 翻訳 • 姿勢推定

    • 医療 • ⾃動運転 • 理論が未解明な現象 (例︓太陽フレア予測) 深層学習の説明性向上は さらなる普及・理論への洞察に繋がる
  5. 関連研究︓transformerの説明⽣成や応⽤先を考慮した説明の研究は少ない 3 Attention Branch Network [Fukui+, CVPR19] ブランチ構造によりCNNの説明を⽣成 Attention Rollout

    [Abnar+, 20] ViT [Dosovitskiy+, ICLR21]のtransformer型注意を連鎖した説明⽣成 transformerの説明⽣成の標準 RISE [Petsiuk+, BMCV18] 説明の標準的な評価指標Insertion-Deletion score (IDs) を提案 • ViTを基にしたtransformer以外のモデルにおける説明⽣成の研究は少ない • ⾃然画像や⼀般画像を対象とした研究が多い → 重要領域がスパースな画像において、 IDsは不適切 ⼀般画像 スパース画像
  6. 関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で 全ピクセル間の関係を取得可能

    ⼊⼒𝒉を畳み込みquery, key, valueを⽣成 𝑄 = Conv 𝒉 , 𝑉 = Conv(𝒉) 𝐾 = Softmax Conv 𝒉 valueの変換,keyとvalueの積で𝝀!, 𝝀" を⽣成 𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 下式により,Lambda Layerの出⼒𝒉$ を得る 𝒉$ = 𝝀! + 𝝀" # 𝑄
  7. 関連研究︓Lambda Networks [Bello+, ICLR21] 4 Lambda Layer 画像特化したtransformer ViTより少ない計算量で 全ピクセル間の関係を取得可能

    𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉 𝒉$ = 𝝀! + 𝝀" # 𝑄 𝝀& は𝑄を縮約する関数とみなせる ◦説明⽣成⽅針 1. 𝝀& をAttentionのように可視化 2. 説明⽣成専⽤のモジュールを使⽤
  8. 提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

    Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Feature Extractor 画像から特徴量𝒉'() を抽出 Bottleneck中にLambda Layer
  9. 提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

    Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Attention Branch ブランチ構造を加えて attention map 𝜶 ∈ ℝ%×#×$ を⽣成
  10. 提案⼿法①︓Lambda Attention Branch Networks 5 Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成 Lambda Attention

    Branchでtransformer注意機構より明瞭な説明を⽣成可能 Lambda Perception Branch 𝒉'() と𝜶から分類を⾏う 説明𝜶を予測にも利⽤可能
  11. 問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −

    AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため 重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像 粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒ 元画像
  12. 問題点②︓IDsは重要領域がスパースな画像に不適切 6 Insertion-Deletion score ︓ IDs = AUC Insertion −

    AUC(Deletion) Insertion-Deletion score (IDs) の問題点 Deletionの⼊⼒が⼤きく削られるため 重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる ex. 重要な⿊点領域が⼩さい太陽フレア画像 粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒ 元画像 1 2 3 4 5 6 7 8 9 カーネル 0 0 0 0 0 0 0 0 0 粗く削除された場合 0 0 1 1 0 0 0 0 0 細かく削除された場合 位置・カーネルによって出⼒が異なる 位置・カーネル依存性無し 0 7
  13. 提案⼿法②︓Patch Insertion-Deletion score(PID) Insertion Deletion Patch Insertion-Deletion score (PID) パッチサイズ𝑚

    = 1のときIDsと⼀致 1. 画像を𝑚 × 𝑚のパッチに分割 2. attention mapに基づき、重要なパッチ から挿⼊ / 削除 3. 挿⼊ / 削除したパッチ数とモデルの予 測確率をプロット PID = AUC Insertion − AUC(Deletion) 7 0 𝒙! = - 𝒑"# 𝑖, 𝑗 ∈ 重要度上位𝑛個 (otherwise) 𝑝(? 𝑦 = 1|𝒙! ) 𝑛 𝑛
  14. IDRiD PID 𝑚 = 1 𝑚 = 2 𝑚 =

    4 𝑚 = 8 𝑚 = 16 RISE [1] 0.319 0.179 0.130 0.136 0.148 Lambda -0.101 -0.105 -0.116 -0.123 0.093 Ours 0.111 0.084 0.150 0.183 0.230 定量的結果︓パッチサイズ⼤のとき提案⼿法が最良 8 データセット • IDRiD(眼底画像診断) • DeFN magnetogram(太陽フレア予測) パッチサイズ⼤のとき提案⼿法が最良 既存⼿法との差が広がっていく 𝑚 : パッチサイズ DeFN PID 𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128 RISE [1] 0.235 0.261 0.296 0.379 0.461 Lambda 0.374 0.414 0.403 0.378 0.291 Ours 0.044 0.311 0.489 0.523 0.556 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  15. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  16. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  17. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  18. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  19. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  20. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  21. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  22. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  23. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功 Ours 注⽬すべき部位や⿊点に細 かく注⽬ RISE 粗い / 太陽の外に注⽬ Lambda 外側に注⽬

    RISE [1] Lambda Ours 9 ⼊⼒画像 [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).
  24. Ablation Study︓Lambda Attention Branchの位置は中層が最適 11 IDRiD Acc PID 𝑚 =

    1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16 Ours (浅層) 0.691 0.061 0.062 0.094 0.150 0.137 Ours (中層) 0.771 0.111 0.084 0.150 0.183 0.230 Ours (深層) 0.742 -0.079 -0.079 -0.053 -0.067 -0.075 深い層から抽出 浅い層から抽出 Lambda Attention Branchの⼊⼒を 得る位置を変更 深い層ほど細かい特徴を抽出 浅い層から抽出 エッジに注⽬ ⾼解像度なattention map 深い層から抽出 全体的にぼんやり 低解像度で不安定なものも存在