Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI24] Attention Lattice Adapter: Visual Expl...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Technology
0
580
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
39
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
45
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
7
[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
keio_smilab
PRO
0
11
[Journal club] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
keio_smilab
PRO
0
32
[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions
keio_smilab
PRO
1
190
[MIRU25] An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
keio_smilab
PRO
1
94
[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks
keio_smilab
PRO
0
160
Semantic Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
2
440
Other Decks in Technology
See All in Technology
20250728 MCP, A2A and Multi-Agents in the future
yoshidashingo
1
210
オブザーバビリティプラットフォーム開発におけるオブザーバビリティとの向き合い / Hatena Engineer Seminar #34 オブザーバビリティの実現と運用編
arthur1
0
340
生成AI時代におけるAI・機械学習技術を用いたプロダクト開発の深化と進化 #BetAIDay
layerx
PRO
1
1k
Agent Development Kitで始める生成 AI エージェント実践開発
danishi
0
120
Mambaで物体検出 完全に理解した
shirarei24
2
210
マルチプロダクト×マルチテナントを支えるモジュラモノリスを中心としたアソビューのアーキテクチャ
disc99
0
270
リリース2ヶ月で収益化した話
kent_code3
1
180
Findy Freelance 利用シーン別AI活用例
ness
0
290
マルチモーダル基盤モデルに基づく動画と音の解析技術
lycorptech_jp
PRO
4
500
LTに影響を受けてテンプレリポジトリを作った話
hol1kgmg
0
270
Oracle Cloud Infrastructure:2025年7月度サービス・アップデート
oracle4engineer
PRO
1
110
2025新卒研修・HTML/CSS #弁護士ドットコム
bengo4com
3
13k
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
462
33k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Faster Mobile Websites
deanohume
308
31k
Designing Experiences People Love
moore
142
24k
GitHub's CSS Performance
jonrohan
1031
460k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
540
YesSQL, Process and Tooling at Scale
rocio
173
14k
How to train your dragon (web standard)
notwaldorf
96
6.1k
Practical Orchestrator
shlominoach
190
11k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
Transcript
Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学
概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題
CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/
問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成
≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map
最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+,
CVPR24]: MLLMを導入したzero-shot segmentation手法
関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM
[Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図
- 7 - 新規性 ▪ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ▪
モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続
Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 -
目的:モデルの各層の注目領域を考慮した特徴抽出 ▪ Transformer layerにより構成 ▪ 特徴量抽出層の恣意的な選択が不要 ▪ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer
- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼
CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう
- 10 - SBN・ABの学習を遅らせる 1エポックおきに ▪ Side Branch NetworkとAttention Branchをfreeze
▪ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更
実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]:
▪ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ▪ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ▪ mean IoU / Insertion / Deletion / ID Score
定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -
定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE
Ours 入力画像
定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像
複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像
定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射
手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score
↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -
Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze
Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean
IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下
まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 34 - Appendix
エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended :
注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)
エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA
注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入
- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch
Networkを導入した説明生成手法 ▪ Frozen CLIP image encoder ▪ Side Branch Network ▪ Attention Branch ▪ Perception Branch
- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross
Entropy Loss :ハイパーパラメータ
- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出
- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion