Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI22] Visual Explanation Generation Using Lambda Attention Branch Networks

[JSAI22] Visual Explanation Generation Using Lambda Attention Branch Networks

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 飯田 紡1 兼田 寛大1 平川 翼2 山下 隆義2 藤吉 弘亘2 杉浦 孔明1
    1. 慶應義塾大学 2. 中部大学
    Lambda Attention Branch Networksによる
    視覚的説明生成

    View Slide

  2. 背景︓説明性により,未解明現象に洞察を与えることが可能
    1
    深層学習の主な応⽤
    • 翻訳
    • 姿勢推定
    • 医療
    • ⾃動運転
    • 理論が未解明な現象
    (例︓太陽フレア予測)
    深層学習の説明性向上は
    さらなる普及・理論への洞察に繋がる
    https://www.jiji.com/jc/article?k=20211029
    00998&g=soc&p=20211029at65S&rel=pv

    View Slide

  3. 背景︓説明性により,未解明現象に洞察を与えることが可能
    1
    (モデルが注⽬︓⾚)
    深層学習の主な応⽤
    • 翻訳
    • 姿勢推定
    • 医療
    • ⾃動運転
    • 理論が未解明な現象
    (例︓太陽フレア予測)
    深層学習の説明性向上は
    さらなる普及・理論への洞察に繋がる

    View Slide

  4. 背景︓説明性により,未解明現象に洞察を与えることが可能
    1
    太陽フレア現象解明の
    鍵となる可能性
    (モデルが注⽬︓⾚)
    深層学習の主な応⽤
    • 翻訳
    • 姿勢推定
    • 医療
    • ⾃動運転
    • 理論が未解明な現象
    (例︓太陽フレア予測)
    深層学習の説明性向上は
    さらなる普及・理論への洞察に繋がる

    View Slide

  5. 問題設定︓判断根拠の視覚的説明⽣成
    2
    分類問題におけるモデルの判断根拠の視覚的説明⽣成
    ⼊⼒︓画像 𝒙 ∈ ℝ!×#×$
    出⼒︓予測,視覚的説明(attention map) 𝜶 ∈ ℝ%×#×$
    attention map︓
    予測に重要な画素 / 重要でない画素を可視化
    眼底画像における
    ⼊出⼒例

    View Slide

  6. 関連研究︓transformerの説明⽣成や応⽤先を考慮した説明の研究は少ない
    3
    Attention Branch Network
    [Fukui+, CVPR19]
    ブランチ構造によりCNNの説明を⽣成
    Attention Rollout
    [Abnar+, 20]
    ViT [Dosovitskiy+, ICLR21]のtransformer型注意を連鎖した説明⽣成
    transformerの説明⽣成の標準
    RISE
    [Petsiuk+, BMCV18]
    説明の標準的な評価指標Insertion-Deletion score (IDs) を提案
    • ViTを基にしたtransformer以外のモデルにおける説明⽣成の研究は少ない
    • ⾃然画像や⼀般画像を対象とした研究が多い
    → 重要領域がスパースな画像において、 IDsは不適切
    ⼀般画像 スパース画像

    View Slide

  7. 関連研究︓Lambda Networks [Bello+, ICLR21]
    4
    Lambda Layer
    CNNとの親和性が⾼いtransformer層
    ViTより少ない計算量で
    広範囲の関係を捉えることが可能
    ViT Lambda

    View Slide

  8. 関連研究︓Lambda Networks [Bello+, ICLR21]
    4
    Lambda Layer
    画像特化したtransformer
    ViTより少ない計算量で
    全ピクセル間の関係を取得可能
    ⼊⼒𝒉を畳み込みquery, key, valueを⽣成
    𝑄 = Conv 𝒉 , 𝑉 = Conv(𝒉)
    𝐾 = Softmax Conv 𝒉
    valueの変換,keyとvalueの積で𝝀!, 𝝀"
    を⽣成
    𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉
    下式により,Lambda Layerの出⼒𝒉$
    を得る
    𝒉$ = 𝝀! + 𝝀"
    #
    𝑄

    View Slide

  9. 関連研究︓Lambda Networks [Bello+, ICLR21]
    4
    Lambda Layer
    画像特化したtransformer
    ViTより少ない計算量で
    全ピクセル間の関係を取得可能
    𝝀! = Conv 𝑉 , 𝝀" = 𝐾#𝑉
    𝒉$ = 𝝀! + 𝝀"
    #
    𝑄
    𝝀&
    は𝑄を縮約する関数とみなせる
    ○説明⽣成⽅針
    1. 𝝀&
    をAttentionのように可視化
    2. 説明⽣成専⽤のモジュールを使⽤

    View Slide

  10. 提案⼿法①︓Lambda Attention Branch Networks
    5
    Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成
    Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能

    View Slide

  11. 提案⼿法①︓Lambda Attention Branch Networks
    5
    Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成
    Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能
    Lambda Feature Extractor
    画像から特徴量𝒉'()
    を抽出
    Bottleneck中にLambda Layer

    View Slide

  12. 提案⼿法①︓Lambda Attention Branch Networks
    5
    Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成
    Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能
    Lambda Attention Branch
    ブランチ構造を加えて
    attention map 𝜶 ∈ ℝ%×#×$
    を⽣成

    View Slide

  13. 提案⼿法①︓Lambda Attention Branch Networks
    5
    Lambda [Bello+, ICLR21]を基にしたtransformerの説明⽣成
    Lambda Attention Branchでtransformer注意機構より明瞭な説明を⽣成可能
    Lambda Perception Branch
    𝒉'()
    と𝜶から分類を⾏う
    説明𝜶を予測にも利⽤可能

    View Slide

  14. 問題点②︓IDsは重要領域がスパースな画像に不適切
    6
    Insertion-Deletion score ︓ IDs = AUC Insertion − AUC(Deletion)
    Insertion-Deletion score (IDs) の問題点
    Deletionの⼊⼒が⼤きく削られるため
    重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる
    ex. 重要な⿊点領域が⼩さい太陽フレア画像
    粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒
    元画像

    View Slide

  15. 問題点②︓IDsは重要領域がスパースな画像に不適切
    6
    Insertion-Deletion score ︓ IDs = AUC Insertion − AUC(Deletion)
    Insertion-Deletion score (IDs) の問題点
    Deletionの⼊⼒が⼤きく削られるため
    重要領域がスパースな画像は粗い説明のスコアが過剰に⾼くなる
    ex. 重要な⿊点領域が⼩さい太陽フレア画像
    粗いattention map deletionの⼊⼒ 詳細なattention map deletionの⼊⼒
    元画像
    1 2 3
    4 5 6
    7 8 9
    カーネル
    0 0 0
    0 0 0
    0 0 0
    粗く削除された場合
    0 0 1
    1 0 0
    0 0 0
    細かく削除された場合
    位置・カーネルによって出⼒が異なる
    位置・カーネル依存性無し
    0 7

    View Slide

  16. 提案⼿法②︓Patch Insertion-Deletion score(PID)
    Insertion Deletion
    Patch Insertion-Deletion score (PID)
    パッチサイズ𝑚 = 1のときIDsと⼀致
    1. 画像を𝑚 × 𝑚のパッチに分割
    2. attention mapに基づき、重要なパッチ
    から挿⼊ / 削除
    3. 挿⼊ / 削除したパッチ数とモデルの予
    測確率をプロット
    PID = AUC Insertion − AUC(Deletion)
    7
    0
    𝒙!
    = -
    𝒑"#
    𝑖, 𝑗 ∈ 重要度上位𝑛個
    (otherwise)
    𝑝(?
    𝑦 = 1|𝒙!
    )
    𝑛 𝑛

    View Slide

  17. IDRiD
    PID
    𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16
    RISE [1] 0.319 0.179 0.130 0.136 0.148
    Lambda -0.101 -0.105 -0.116 -0.123 0.093
    Ours 0.111 0.084 0.150 0.183 0.230
    定量的結果︓パッチサイズ⼤のとき提案⼿法が最良
    8
    データセット
    • IDRiD(眼底画像診断)
    • DeFN magnetogram(太陽フレア予測)
    パッチサイズ⼤のとき提案⼿法が最良
    既存⼿法との差が広がっていく
    𝑚 : パッチサイズ
    DeFN
    PID
    𝑚 = 1 𝑚 = 16 𝑚 = 32 𝑚 = 64 𝑚 = 128
    RISE [1] 0.235 0.261 0.296 0.379 0.461
    Lambda 0.374 0.414 0.403 0.378 0.291
    Ours 0.044 0.311 0.489 0.523 0.556
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  18. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  19. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  20. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  21. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  22. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  23. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  24. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  25. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  26. 定性的結果︓ベースライン⼿法よりも明瞭で詳細な説明の⽣成に成功
    Ours
    注⽬すべき部位や⿊点に細
    かく注⽬
    RISE
    粗い / 太陽の外に注⽬
    Lambda
    外側に注⽬
    RISE [1] Lambda Ours
    9
    ⼊⼒画像
    [1] Vitali Petsiuk, Abir Das, and Kate Saenko, “RISE: Randomized input sampling for explanation of black-box models,” in BMVC, 2018, p. 151(13pp).

    View Slide

  27. 定性的結果︓失敗例
    注⽬領域が⼤きすぎる
    Deletionが下がらない
    注⽬領域が⼩さすぎる
    モデルが予測誤り
    10
    attention map Insertion Deletion
    PID = -0.0138
    PID = 0.1255
    元画像を⼊⼒した際の予測確率

    View Slide

  28. Ablation Study︓Lambda Attention Branchの位置は中層が最適
    11
    IDRiD Acc
    PID
    𝑚 = 1 𝑚 = 2 𝑚 = 4 𝑚 = 8 𝑚 = 16
    Ours (浅層) 0.691 0.061 0.062 0.094 0.150 0.137
    Ours (中層) 0.771 0.111 0.084 0.150 0.183 0.230
    Ours (深層) 0.742 -0.079 -0.079 -0.053 -0.067 -0.075
    深い層から抽出
    浅い層から抽出
    Lambda Attention Branchの⼊⼒を
    得る位置を変更
    深い層ほど細かい特徴を抽出
    浅い層から抽出
    エッジに注⽬
    ⾼解像度なattention map
    深い層から抽出
    全体的にぼんやり
    低解像度で不安定なものも存在

    View Slide

  29. まとめ
    背景
    説明性は未解明現象に洞察を与えることが可能
    提案⼿法
    Lambda Attention Branch Networks
    スパースな重要領域を有する画像に有効な評価指標 PID
    結果
    パッチサイズが⼤きいとき、PIDでベースライン⼿法を上回った.
    12

    View Slide