Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI24] Attention Lattice Adapter: Visual Expl...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Technology
0
620
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
46
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
140
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
89
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
91
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
73
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
140
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
63
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
59
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
26
Other Decks in Technology
See All in Technology
AI ReadyなData PlatformとしてのAutonomous Databaseアップデート
oracle4engineer
PRO
0
220
OpenAI gpt-oss ファインチューニング入門
kmotohas
2
1.1k
オープンソースでどこまでできる?フォーマル検証チャレンジ
msyksphinz
0
120
Optuna DashboardにおけるPLaMo2連携機能の紹介 / PFN LLM セミナー
pfn
PRO
2
920
VCC 2025 Write-up
bata_24
0
180
Why React!?? Next.jsそしてReactを改めてイチから選ぶ
ypresto
10
4.5k
社内報はAIにやらせよう / Let AI handle the company newsletter
saka2jp
7
1.2k
o11yで育てる、強い内製開発組織
_awache
3
120
多様な事業ドメインのクリエイターへ 価値を届けるための営みについて
massyuu
1
450
定期的な価値提供だけじゃない、スクラムが導くチームの共創化 / 20251004 Naoki Takahashi
shift_evolve
PRO
4
340
【Kaigi on Rails 事後勉強会LT】MeはどうしてGirlsに? 私とRubyを繋いだRail(s)
joyfrommasara
0
170
ガバメントクラウドの概要と自治体事例(名古屋市)
techniczna
1
190
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.7k
Designing for humans not robots
tammielis
254
26k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Code Reviewing Like a Champion
maltzj
525
40k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Building Adaptive Systems
keathley
43
2.8k
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.6k
Transcript
Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学
概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題
CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/
問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成
≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map
最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+,
CVPR24]: MLLMを導入したzero-shot segmentation手法
関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM
[Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図
- 7 - 新規性 ▪ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ▪
モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続
Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 -
目的:モデルの各層の注目領域を考慮した特徴抽出 ▪ Transformer layerにより構成 ▪ 特徴量抽出層の恣意的な選択が不要 ▪ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer
- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼
CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう
- 10 - SBN・ABの学習を遅らせる 1エポックおきに ▪ Side Branch NetworkとAttention Branchをfreeze
▪ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更
実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]:
▪ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ▪ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ▪ mean IoU / Insertion / Deletion / ID Score
定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -
定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE
Ours 入力画像
定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像
複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像
定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射
手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score
↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -
Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze
Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean
IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下
まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 34 - Appendix
エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended :
注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)
エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA
注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入
- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch
Networkを導入した説明生成手法 ▪ Frozen CLIP image encoder ▪ Side Branch Network ▪ Attention Branch ▪ Perception Branch
- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross
Entropy Loss :ハイパーパラメータ
- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出
- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion