Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Vision Transformer with Deformab...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
3.1k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Vision Transformer with Deformable Attention
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
38
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
気軽に使える"情報のハブ"としてのNotion活用 〜フロー情報の集積点 と、 Claude Code × Notion AI〜
syucream
1
140
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
140
【2026年版】 ベクトル検索䛸 Embedding最前線
mocobeta
2
220
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.4k
LLMにもCAP定理があるという話
harukasakihara
0
380
AIソロプレナー時代に2ヶ月で20人増員した事業創造会社の開発組織の話
miyatakoji
0
670
Claude Codeとのおしゃべりでセマンティックモデルの定義からダッシュボード作成まで完成させる
nic_sugiyama
0
120
AIネイティブな開発のサプライチェーンリスク対策 〜激動の開発現場でリスクに立ち向かう〜【ZennFes】
cscengineer
PRO
2
130
Android の公式 Skill / Android skills
yanzm
0
150
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2.3k
新しいVibe Codingと”自走”について
watany
6
330
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
350
Featured
See All Featured
Information Architects: The Missing Link in Design Systems
soysaucechin
0
970
We Analyzed 250 Million AI Search Results: Here's What I Found
joshbly
1
1.4k
From π to Pie charts
rasagy
0
210
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
HU Berlin: Industrial-Strength Natural Language Processing with spaCy and Prodigy
inesmontani
PRO
0
410
Making the Leap to Tech Lead
cromwellryan
135
9.9k
Test your architecture with Archunit
thirion
1
2.3k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
330
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
Ethics towards AI in product and experience design
skipperchong
2
310
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
1
1.7k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
320
Transcript
Vision Transformer with Deformable Attention Zhuofan Xia1, Xuran Pan1, Shiji
Song1, Li Erran Li2, Gao Huang1,3 (1Tsinghua University , 2AWS AI, Amazon , 3Beijing Academy of Artificial Intelligence) 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 Xia, Z., Pan, X., Song, S., Li, L. E., & Huang, G. (2022). Vision Transformer with Deformable Attention. CVPR22 CVPR 2022
和田唯我 / Yuiga Wada
概要 2 ü 受容野を変形して学習するDeformable Attentionを提案 ü 画像認識モデルDATを提案し, Deformable Attentionの有⽤性を検証 ü
様々な画像認識タスクでSwin Transformerなどの既存⼿法を超える結果を記録
o 受容野 (receptive field) • 画像内の⼀つのクエリから情報を得る際に, 関係を捉えうる範囲 ⇒ 各モデルごとに受容野は異なる 背景
: 画像認識モデルにはそれぞれ固有の受容野が存在 3 CNN Swin Transformer [Liu+, ICCV21] Vision Transformer [Dosovitskiy+, ICLR20]
背景 : 受容野を変形できるAttentionが望まれる 4 o Vision Transformer [Dosovitskiy+, ICLR20] •
CNNよりも広範囲な受容野を持つが, 計算量が⼤きい o Sparse Transformer • 計算量を落とすため, 受容野を狭める → 広範囲の関係性を捉えられない • 例 : Swin Transformer [Liu+, ICCV21] , PVT [Wang+, ICCV21] 計算量を抑えつつ, 物体ごとに受容野を変形できるAttention機構が望まれる
既存研究 : DeformableなAttentionには改善の余地がある 5 o Deformable Convolution (DCN) [Dai+, ICCV17]
• カーネルに対してoffsetを⽤いることで, 受容野を変形する o Deformable DETR [Zhu+, 2020] • DETRにDeformable モジュールを追加 • 通常のAttentionだと計算量が⼤きい → Keyの次元を"! = 4 として計算量を削減 ⇒ 重要な情報が失われているという指摘 ⇒ 次元を減らすことなく受容野を変形できるAttentionの必要性 DCN [Dai+, CCV17]
提案⼿法 : Deformable Attention Transformer o Deformable Attention Transformer (DAT)
o 4-stageで構成 o (前半) Shift-Window Attention (後半) Deformable Attention o 新規性 o Deformable Attentionの提案 → 物体ごとに受容野を変形して学習 6
提案⼿法 : Deformable Attention 7 o Deformable Attention o ⼊⼒画像
%と参照点 & % でAttentionを計算 o グリッドからoffset分ずらした点を参照点 & % とする ⇒ 変形された受容野を実現
Step1 : 格⼦点からのoffsetを計算 1. ⼊⼒画像 % を線形変換し, クエリ ' を計算
2. サブネットワーク ("##$%& より, 格⼦点 * からのoffset Δ* を計算 * ∈ ℝ'!×)!×* , ' = %. + , Δ* = ("##$%& ' 8 "! ≔ " $ , & ! ≔ & $ ,!""#$% - Δ-
Step2 : bilinear補間により参照点から特徴量を計算 (1/2) 1. % ∈ ℝ'×)×/ の各要素 10
, 11 に対してbilinear補間 & % = 2 %; * + Δ* を計算 9
Step2 : bilinear補間により参照点から特徴量を計算 (2/2) 10 • すなわち 10 , 11
近傍にある参照点から, 距離に応じた加重和を取る ' $" , $# , :
Step3 : 変形された参照点をKey, ValueとしてAttentionを計算 1. bilinear補間された参照点 & % を線形変換して 5
6 , & 7を計算 2. クエリ 'と参照点から得られた 5 6 , & 7 とでAttentionを計算 11 offset情報を⽤いた Positional Embeddingを付与
定性的結果 : 物体ごとに参照点が変形されている 12 Stage3 Stage4 • COCOデータセットで物体検出&セグメンテーションを実施 ⇒ 各Stageにおいて,
対象物体へと集中するように参照点が変形
定量的結果 : 画像分類タスクにおいて既存⼿法を上回る結果を記録 13 • ImageNet-1Kを⽤いた画像分類 • 様々な従来⼿法を上回る結果を記録 • モデルサイズが⼤きくなるにつれて,
精度が向上している
定量的結果 : セグメンテーションにおいても既存⼿法を上回る結果を記録 14 • ADE20Kを⽤いたセグメンテーション • Swin Transformer, PVTを上回る結果を記
録 • 最も軽量なDAT-Tにおいても, PVT-Sや Swin-Tを上回っている
Ablation : Deformable Attentionは後半のみの配置が最良 15 • Deformable AttentionはStage3 / Stage4
のみの配置が最良 ⇒ Stage1 / Stage2では, ⽐較的局所的な特徴を学習させた⽅が良い ✔ → Deformable Attention / 空 → Shift-Window Attention
まとめ 16 ü Deformable Attention Transformer (DAT)を提案 ü Deformable Attentionにより物体ごとに受容野を変形して学習
• Deformable Attentionは後半のStageに配置するのが最良 ü 様々な画像処理タスクでSwin Transformerを超える精度を記録
⇒ Swin Transformer / DCNはクエリごとに異なる受容野を持つ Appendix : ⼿法ごとの受容野 17
Appendix : アーキテクチャの詳細 18
Appendix : 物体検出に関する定量的結果 19