Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Vision Transformer with Deformab...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
3.1k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Vision Transformer with Deformable Attention
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
39
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
630
あなたの知らないPDFのアクセシビリティ
lycorptech_jp
PRO
0
220
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
280
Agile and AI Redmine Japan 2026
hiranabe
3
340
FPC(フレキシブル)基板にZephyr実装してみた。
iotengineer22
0
130
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
430
人材育成分科会.pdf
_awache
4
300
Android の公式 Skill / Android skills
yanzm
0
160
SONiCの統計情報を取得したい
sonic
0
240
アジャイルな経理と Claude Code と経営の未来
kawaguti
PRO
3
170
iAEONの段階的リアーキテクト戦略 / iAEON's_Gradual_Re-architecture_Strategy
aeonpeople
0
230
AI駆動開発を通して感じた、 AI時代のデザイナーの役割変化
whisaiyo
4
2.3k
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
150
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
860
Neural Spatial Audio Processing for Sound Field Analysis and Control
skoyamalab
0
340
4 Signs Your Business is Dying
shpigford
187
22k
Speed Design
sergeychernyshev
33
1.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Test your architecture with Archunit
thirion
1
2.3k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
580
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
390
Thoughts on Productivity
jonyablonski
76
5.2k
[RailsConf 2023] Rails as a piece of cake
palkan
59
6.7k
Transcript
Vision Transformer with Deformable Attention Zhuofan Xia1, Xuran Pan1, Shiji
Song1, Li Erran Li2, Gao Huang1,3 (1Tsinghua University , 2AWS AI, Amazon , 3Beijing Academy of Artificial Intelligence) 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 Xia, Z., Pan, X., Song, S., Li, L. E., & Huang, G. (2022). Vision Transformer with Deformable Attention. CVPR22 CVPR 2022
和田唯我 / Yuiga Wada
概要 2 ü 受容野を変形して学習するDeformable Attentionを提案 ü 画像認識モデルDATを提案し, Deformable Attentionの有⽤性を検証 ü
様々な画像認識タスクでSwin Transformerなどの既存⼿法を超える結果を記録
o 受容野 (receptive field) • 画像内の⼀つのクエリから情報を得る際に, 関係を捉えうる範囲 ⇒ 各モデルごとに受容野は異なる 背景
: 画像認識モデルにはそれぞれ固有の受容野が存在 3 CNN Swin Transformer [Liu+, ICCV21] Vision Transformer [Dosovitskiy+, ICLR20]
背景 : 受容野を変形できるAttentionが望まれる 4 o Vision Transformer [Dosovitskiy+, ICLR20] •
CNNよりも広範囲な受容野を持つが, 計算量が⼤きい o Sparse Transformer • 計算量を落とすため, 受容野を狭める → 広範囲の関係性を捉えられない • 例 : Swin Transformer [Liu+, ICCV21] , PVT [Wang+, ICCV21] 計算量を抑えつつ, 物体ごとに受容野を変形できるAttention機構が望まれる
既存研究 : DeformableなAttentionには改善の余地がある 5 o Deformable Convolution (DCN) [Dai+, ICCV17]
• カーネルに対してoffsetを⽤いることで, 受容野を変形する o Deformable DETR [Zhu+, 2020] • DETRにDeformable モジュールを追加 • 通常のAttentionだと計算量が⼤きい → Keyの次元を"! = 4 として計算量を削減 ⇒ 重要な情報が失われているという指摘 ⇒ 次元を減らすことなく受容野を変形できるAttentionの必要性 DCN [Dai+, CCV17]
提案⼿法 : Deformable Attention Transformer o Deformable Attention Transformer (DAT)
o 4-stageで構成 o (前半) Shift-Window Attention (後半) Deformable Attention o 新規性 o Deformable Attentionの提案 → 物体ごとに受容野を変形して学習 6
提案⼿法 : Deformable Attention 7 o Deformable Attention o ⼊⼒画像
%と参照点 & % でAttentionを計算 o グリッドからoffset分ずらした点を参照点 & % とする ⇒ 変形された受容野を実現
Step1 : 格⼦点からのoffsetを計算 1. ⼊⼒画像 % を線形変換し, クエリ ' を計算
2. サブネットワーク ("##$%& より, 格⼦点 * からのoffset Δ* を計算 * ∈ ℝ'!×)!×* , ' = %. + , Δ* = ("##$%& ' 8 "! ≔ " $ , & ! ≔ & $ ,!""#$% - Δ-
Step2 : bilinear補間により参照点から特徴量を計算 (1/2) 1. % ∈ ℝ'×)×/ の各要素 10
, 11 に対してbilinear補間 & % = 2 %; * + Δ* を計算 9
Step2 : bilinear補間により参照点から特徴量を計算 (2/2) 10 • すなわち 10 , 11
近傍にある参照点から, 距離に応じた加重和を取る ' $" , $# , :
Step3 : 変形された参照点をKey, ValueとしてAttentionを計算 1. bilinear補間された参照点 & % を線形変換して 5
6 , & 7を計算 2. クエリ 'と参照点から得られた 5 6 , & 7 とでAttentionを計算 11 offset情報を⽤いた Positional Embeddingを付与
定性的結果 : 物体ごとに参照点が変形されている 12 Stage3 Stage4 • COCOデータセットで物体検出&セグメンテーションを実施 ⇒ 各Stageにおいて,
対象物体へと集中するように参照点が変形
定量的結果 : 画像分類タスクにおいて既存⼿法を上回る結果を記録 13 • ImageNet-1Kを⽤いた画像分類 • 様々な従来⼿法を上回る結果を記録 • モデルサイズが⼤きくなるにつれて,
精度が向上している
定量的結果 : セグメンテーションにおいても既存⼿法を上回る結果を記録 14 • ADE20Kを⽤いたセグメンテーション • Swin Transformer, PVTを上回る結果を記
録 • 最も軽量なDAT-Tにおいても, PVT-Sや Swin-Tを上回っている
Ablation : Deformable Attentionは後半のみの配置が最良 15 • Deformable AttentionはStage3 / Stage4
のみの配置が最良 ⇒ Stage1 / Stage2では, ⽐較的局所的な特徴を学習させた⽅が良い ✔ → Deformable Attention / 空 → Shift-Window Attention
まとめ 16 ü Deformable Attention Transformer (DAT)を提案 ü Deformable Attentionにより物体ごとに受容野を変形して学習
• Deformable Attentionは後半のStageに配置するのが最良 ü 様々な画像処理タスクでSwin Transformerを超える精度を記録
⇒ Swin Transformer / DCNはクエリごとに異なる受容野を持つ Appendix : ⼿法ごとの受容野 17
Appendix : アーキテクチャの詳細 18
Appendix : 物体検出に関する定量的結果 19