Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI24] Attention Lattice Adapter: Visual Expl...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Technology
0
600
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
47
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
49
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
15
[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
keio_smilab
PRO
0
31
[Journal club] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
keio_smilab
PRO
0
43
[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions
keio_smilab
PRO
1
210
[MIRU25] An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
keio_smilab
PRO
1
210
[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks
keio_smilab
PRO
0
180
Semantic Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
3
480
Other Decks in Technology
See All in Technology
AIドリブンのソフトウェア開発 - うまいやり方とまずいやり方
okdt
PRO
9
580
[CV勉強会@関東 CVPR2025 読み会] MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos (Li+, CVPR2025)
abemii
0
190
Goss: New Production-Ready Go Binding for Faiss #coefl_go_jp
bengo4com
0
1.1k
ドキュメントはAIの味方!スタートアップのアジャイルを加速するADR
kawauso
3
350
EKS Pod Identity における推移的な session tags
z63d
1
200
小さなチーム 大きな仕事 - 個人開発でAIをフル活用する
himaratsu
0
120
ECS モニタリング手法大整理
yendoooo
1
120
モダンフロントエンド 開発研修
recruitengineers
PRO
2
290
RAID6 を楔形文字で組んで現代人を怖がらせましょう(実装編)
mimifuwa
0
300
株式会社ARAV 採用案内
maqui
0
340
人と組織に偏重したEMへのアンチテーゼ──なぜ、EMに設計力が必要なのか/An antithesis to the overemphasis of people and organizations in EM
dskst
5
600
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
kzykmyzw
0
310
Featured
See All Featured
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Bash Introduction
62gerente
614
210k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
480
A Tale of Four Properties
chriscoyier
160
23k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
1k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
The Cult of Friendly URLs
andyhume
79
6.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.6k
Being A Developer After 40
akosma
90
590k
Transcript
Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学
概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題
CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/
問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成
≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map
最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+,
CVPR24]: MLLMを導入したzero-shot segmentation手法
関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM
[Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図
- 7 - 新規性 ▪ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ▪
モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続
Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 -
目的:モデルの各層の注目領域を考慮した特徴抽出 ▪ Transformer layerにより構成 ▪ 特徴量抽出層の恣意的な選択が不要 ▪ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer
- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼
CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう
- 10 - SBN・ABの学習を遅らせる 1エポックおきに ▪ Side Branch NetworkとAttention Branchをfreeze
▪ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更
実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]:
▪ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ▪ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ▪ mean IoU / Insertion / Deletion / ID Score
定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -
定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE
Ours 入力画像
定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像
複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像
定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射
手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score
↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -
Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze
Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean
IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下
まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 34 - Appendix
エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended :
注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)
エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA
注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入
- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch
Networkを導入した説明生成手法 ▪ Frozen CLIP image encoder ▪ Side Branch Network ▪ Attention Branch ▪ Perception Branch
- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross
Entropy Loss :ハイパーパラメータ
- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出
- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion