Slide 1

Slide 1 text

Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学

Slide 2

Slide 2 text

概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ■ 特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ■ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ■ 過不足ない説明を生成、既存手法を上回った

Slide 3

Slide 3 text

- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題 CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/

Slide 4

Slide 4 text

問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成 ≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map

Slide 5

Slide 5 text

最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+, CVPR24]: MLLMを導入したzero-shot segmentation手法

Slide 6

Slide 6 text

関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM [Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図

Slide 7

Slide 7 text

- 7 - 新規性 ■ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ■ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続

Slide 8

Slide 8 text

Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 - 目的:モデルの各層の注目領域を考慮した特徴抽出 ■ Transformer layerにより構成 ■ 特徴量抽出層の恣意的な選択が不要 ■ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer

Slide 9

Slide 9 text

- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼ CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう

Slide 10

Slide 10 text

- 10 - SBN・ABの学習を遅らせる 1エポックおきに ■ Side Branch NetworkとAttention Branchをfreeze ■ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更

Slide 11

Slide 11 text

実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]: ■ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ■ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ■ mean IoU / Insertion / Deletion / ID Score

Slide 12

Slide 12 text

定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -

Slide 13

Slide 13 text

定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE Ours 入力画像

Slide 14

Slide 14 text

定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像 複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像

Slide 15

Slide 15 text

定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射

Slide 16

Slide 16 text

手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -

Slide 17

Slide 17 text

Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze

Slide 18

Slide 18 text

Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下

Slide 19

Slide 19 text

まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ■ 特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ■ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ■ 過不足ない説明を生成、既存手法を上回った

Slide 20

Slide 20 text

- 34 - Appendix

Slide 21

Slide 21 text

エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended : 注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)

Slide 22

Slide 22 text

エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA 注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入

Slide 23

Slide 23 text

- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch Networkを導入した説明生成手法 ■ Frozen CLIP image encoder ■ Side Branch Network ■ Attention Branch ■ Perception Branch

Slide 24

Slide 24 text

- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論

Slide 25

Slide 25 text

- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論

Slide 26

Slide 26 text

Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross Entropy Loss :ハイパーパラメータ

Slide 27

Slide 27 text

- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion Score) ■ 重要な領域のみでも十分予測できるはず ■ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出

Slide 28

Slide 28 text

- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion Score) ■ 重要な領域のみでも十分予測できるはず ■ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion