Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI24] Attention Lattice Adapter: Visual Expl...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Technology
0
520
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
110
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
130
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
65
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
89
Will multimodal language processing change the world?
keio_smilab
PRO
3
580
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
170
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
160
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
170
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
200
Other Decks in Technology
See All in Technology
Sleep-time Compute: LLM推論コスト削減のための事前推論
sergicalsix
1
160
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
740
OpenTelemetry SpanProcessor を Let's カスタマイズ!
phaya72
1
100
テスト設計、逆から読むとおもしろい──仕様にない“望ましさ”の逆設計
mhlyc
0
200
hacomonoらしさをデザインする
hacomono
PRO
2
110
インフラからSREへ
mirakui
20
7.9k
20250514 1Passwordを使い倒す道場 vol.1
east_takumi
0
160
"発信文化"をどうやって計測する?技術広報のKPI探索記/How do we measure communication culture?
bitkey
4
370
PythonツールであるpygnmiをSONiCのgNMIに対して使ってみた
sonic
0
340
名単体テスト 禁断の傀儡(モック)
iwamot
PRO
1
340
分解し、導き、託す ログラスにおける“技術でリードする” 実践の記録
hryushm
1
630
AIエージェントのオブザーバビリティについて
yunosukey
1
430
Featured
See All Featured
Facilitating Awesome Meetings
lara
54
6.4k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
32
5.8k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
30
2.4k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
34
2.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
3.8k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.8k
Adopting Sorbet at Scale
ufuk
76
9.4k
The Straight Up "How To Draw Better" Workshop
denniskardys
233
140k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
137
33k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Transcript
Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学
概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題
CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/
問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成
≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map
最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+,
CVPR24]: MLLMを導入したzero-shot segmentation手法
関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM
[Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図
- 7 - 新規性 ▪ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ▪
モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続
Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 -
目的:モデルの各層の注目領域を考慮した特徴抽出 ▪ Transformer layerにより構成 ▪ 特徴量抽出層の恣意的な選択が不要 ▪ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer
- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼
CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう
- 10 - SBN・ABの学習を遅らせる 1エポックおきに ▪ Side Branch NetworkとAttention Branchをfreeze
▪ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更
実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]:
▪ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ▪ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ▪ mean IoU / Insertion / Deletion / ID Score
定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -
定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE
Ours 入力画像
定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像
複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像
定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射
手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score
↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -
Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze
Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean
IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下
まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 34 - Appendix
エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended :
注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)
エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA
注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入
- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch
Networkを導入した説明生成手法 ▪ Frozen CLIP image encoder ▪ Side Branch Network ▪ Attention Branch ▪ Perception Branch
- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross
Entropy Loss :ハイパーパラメータ
- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出
- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion