Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[JSAI24] Attention Lattice Adapter: Visual Expl...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Technology
0
430
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 25, 2024
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
10
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
5
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
0
5
Will multimodal language processing change the world?
keio_smilab
PRO
3
470
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
100
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
100
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
100
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
130
[Journal club] Simplified State Space Layers for Sequence Modeling
keio_smilab
PRO
0
120
Other Decks in Technology
See All in Technology
ビジネスモデリング道場 目的と背景
masuda220
PRO
9
520
Swiftの “private” を テストする / Testing Swift "private"
yutailang0119
0
130
PHPカンファレンス名古屋-テックリードの経験から学んだ設計の教訓
hayatokudou
2
310
プロダクトエンジニア構想を立ち上げ、プロダクト志向な組織への成長を続けている話 / grow into a product-oriented organization
hiro_torii
1
200
Larkご案内資料
customercloud
PRO
0
650
Cloud Spanner 導入で実現した快適な開発と運用について
colopl
1
660
運用しているアプリケーションのDBのリプレイスをやってみた
miura55
1
720
The Future of SEO: The Impact of AI on Search
badams
0
200
モノレポ開発のエラー、誰が見る?Datadog で実現する適切なトリアージとエスカレーション
biwashi
6
810
利用終了したドメイン名の最強終活〜観測環境を育てて、分析・供養している件〜 / The Ultimate End-of-Life Preparation for Discontinued Domain Names
nttcom
2
200
リアルタイム分析データベースで実現する SQLベースのオブザーバビリティ
mikimatsumoto
0
1.4k
2.5Dモデルのすべて
yu4u
2
860
Featured
See All Featured
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Unsuck your backbone
ammeep
669
57k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
410
Six Lessons from altMBA
skipperchong
27
3.6k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
9
440
[RailsConf 2023] Rails as a piece of cake
palkan
53
5.2k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
A Philosophy of Restraint
colly
203
16k
Designing Experiences People Love
moore
140
23k
Statistics for Hackers
jakevdp
797
220k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
1k
Transcript
Attention Lattice Adapter: 視覚言語基盤モデルのための説明生成 平野愼之助, 飯田紡, 杉浦孔明 慶應義塾大学
概要: 視覚言語基盤モデルの視覚的説明を生成 - 2 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 3 - 複雑な機械学習モデルの解釈は難しい ◼ パラメータ数が多い ◼ 複雑な計算が増加 背景: 複雑な視覚言語基盤モデルの解釈性は課題
CLIP[Radford+, PMLR21] 基盤モデルの説明性は重要だが、 ほとんど取り組まれていない 決定木 深層NN SVM 分類ルール https://yuya-y.com/posts/published-jsai2023-tutorial-slides/
問題設定:CLIPの判断根拠の視覚的説明生成 - 4 - 視覚的説明:予測に重要な画素 / 重要でない画素を可視化 対象物体に注目できているほど良い説明 モデルの特徴や構造によって適切な説明生成手法は異なる 視覚的説明生成
≒正解マスクのないsegmentationタスク →難しい CLIP 𝑝(ෝ 𝒚) attention map
最新zero-shot segmentation手法LISAでも困難 - 5 - “Northern Waterthrush” “Rock Wren” LISA[Lai+,
CVPR24]: MLLMを導入したzero-shot segmentation手法
関連研究:モデルの複数の層を用いた説明生成は困難 - 6 - RISE [Petsiuk, BMVC18] ランダムにマスクされた画像と出力の関係から 説明を生成 F-CAM
[Belharbi+, WACV22] CNNベースのモデルから複数の中間層を用いて 注目領域を可視化 Attention Branch Network (ABN) [Fukui+, CVPR19] 説明生成専用のモジュール Attention Branchを ブランチ構造として導入 特徴抽出する層の恣意的な選択が必要 Feature Extractor 𝒙 input 𝑝 ෝ 𝒚 AB 𝑝 ෝ 𝒚 PB ⊙ 𝒉 Attention Branch Perception Branch 𝜶′: attention map ABN概略図
- 7 - 新規性 ▪ 複数の中間特徴量からモデル全体を考慮した説明のための特徴量を抽出する Side Branch Networkを導入 ▪
モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architectの提案 提案手法:Attention Lattice Adapter CLIPに説明生成用Adapterを接続
Side Branch Network (SBN): CLIP image encoderの中間特徴量を抽出 - 8 -
目的:モデルの各層の注目領域を考慮した特徴抽出 ▪ Transformer layerにより構成 ▪ 特徴量抽出層の恣意的な選択が不要 ▪ CLIPの複数の層について特徴量が取得可能 (cf. SAN[Xu+, CVPR23]) …Transformer layer
- 9 - SBNとCLIP image encoderの両方を用いて分類 Perception BranchがSBN・Attention Branch(AB)の特徴量に偏って学習 ◼
CLIP image encoderの特徴量を過小評価、注目領域が狭くなる SBN・ABの学習を遅らせることでCLIP image encoderの特徴量を重視 問題点:Side Branch Network・Attention Branchに偏って 学習してしまう
- 10 - SBN・ABの学習を遅らせる 1エポックおきに ▪ Side Branch NetworkとAttention Branchをfreeze
▪ Attention Branchから出力をしない Alternative Epoch Architect (AEA): モジュールの出力およびfreezeする層を動的に変更
実験設定: Caltech-UCSD Birds-200-2011(CUB) データセットを使用 - 12 - CUBデータセット [Wah+, 11]:
▪ 200種類の鳥の画像、鳥の位置を表すマスク画像から構成 ▪ Train: 5,000 / Validation: 994 / Test: 5,794 評価指標: ▪ mean IoU / Insertion / Deletion / ID Score
定性的結果 (成功例1/3) : 鳥の領域全体に過不足なく注目 - 13 -
定性的結果 (成功例2/3) : 既存手法より適切なマスクを生成 - 17 - 入力画像 F-CAM RISE
Ours 入力画像
定性的結果(成功例3/3) : ImageNet-Sデータセット[Gao+, TPAMI22] においても良好な説明 - 22 - Ours 入力画像
複数物体、凹凸のある物体でも適切な説明を生成 Ours 入力画像
定性的結果(失敗例) : 水面に反射した鳥の領域にも誤って注目 - 25 - 鳥本体と水面に反射した像の区別に失敗 水面に鳥が反射
手法 mean IoU ↑ Insertion ↑ Deletion ↓ ID Score
↑ RISE [Petsiuk, BMVC18] 0.390±0.014 0.604±0.007 0.086±0.002 0.522±0.005 F-CAM [Belharbi+, WACV22] 0.550±0.017 0.681±0.008 0.034±0.001 0.647±0.008 Ours 0.693±0.002 0.704±0.007 0.007±0.003 0.697±0.004 定量的結果: 標準的な評価尺度で既存手法を上回る - 26 -
Ablation Study: SBN・AEAの有効性を確認 - 28 - 新規性:SBN・AEA AEA: 1epochおきにSBN・ABをfreeze
Ablation Study: SBNが性能向上に最も貢献 - 31 - モデル AEA SBN mean
IoU ↑ Insertion ↑ Deletion ↓ ID Score ↑ (i) ✓ 0.477±0.019 0.595±0.054 0.020±0.012 0.575±0.045 (ii) ✓ 0.495±0.008 0.717±0.009 0.014±0.004 0.702±0.011 (iii) ✓ ✓ 0.693±0.007 0.704±0.012 0.007±0.002 0.697±0.011 複数の中間特徴量を用いなかった場合にすべての評価指標で最も性能が低下
まとめ: 視覚言語基盤モデルの視覚的説明を生成 - 33 - 提案手法: Attention Lattice Adapter ▪
特徴量を抽出する層の恣意的な選択が不要な Side Adapter Network ▪ モジュールの出力およびfreezeする層を動的に変更する Alternative Epoch Architect 結果 ▪ 過不足ない説明を生成、既存手法を上回った
- 34 - Appendix
エラー分析: mIoUが最も低かった100サンプルについてエラーを分析 - 35 - ◼ エラー原因を二つに大別 ◼ Over-Attended :
注目領域が過剰 ◼ Insufficiently Attended : 注目領域が過小 Over-Attended (OA) Insufficiently Attended (IA)
エラー分析: 注目領域が過剰なことが主要なエラー要因 - 36 - Error ID 詳細 #Error OA
注目領域が過剰 86 IA 注目領域が不十分 12 Others その他 2 合計 - 100 ◼ 解決案: エッジ検出を用いることで物体の境界を抽出し、 注目度が低い物体の領域を取り除く処理を導入
- 37 - 提案手法: Attention Lattice Adapter (ALA) 視覚言語基盤モデルにSide Branch
Networkを導入した説明生成手法 ▪ Frozen CLIP image encoder ▪ Side Branch Network ▪ Attention Branch ▪ Perception Branch
- 38 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
- 39 - SBNの出力 入力 CLIP image encoderの出力 入力 Attention
Branch (AB), Perception Branch (PB): 適切な領域に注目した説明を生成、最終的なクラスを推論
Appendix:損失関数 - 40 - 損失関数は以下を使用した。 :Perception Branchの出力 :Attention Branchの出力 :Cross
Entropy Loss :ハイパーパラメータ
- 41 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ①視覚的説明の重要度が高い順に画素を挿入/削除 ②挿入/削除後の画像をモデル入力して𝑝 ො 𝑦 を算出
- 42 - 評価指標(Insertion-Deletion Score; ID Score) ID Score (Insertion-Deletion
Score) ▪ 重要な領域のみでも十分予測できるはず ▪ 重要な領域を削除すれば予測精度が落ちる という仮説に基づいた評価指標 ③ 挿入/削除したピクセル数と𝑝 ො 𝑦 をプロット ④ ③でプロットした曲線のAUCを計算 ⑤ ID Score = Insertion − Deletion