Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Vision Transformer with Deformab...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
3.1k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Vision Transformer with Deformable Attention
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
39
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
When Platform Engineering Meets GenAI
sucitw
0
140
【NRUG vol.18】KubernetesにおけるNew Relicデータ取得量削減の考え方
nrug_member
0
170
【2026年版】 ベクトル検索とEmbedding最前線
mocobeta
22
5.8k
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
2k
MUSUBI 田中裕一『AIと共に行う「しごとのリデザイン」- スモールバックオフィス編』AI Ops Lab #4
musubi
0
280
サイバーエージェントにおけるAI推進戦略と変革への取り組み
shotatsuge
0
220
FPGAの開発コンペでZephyrを使ってみた
iotengineer22
0
150
AIはどのように 組織のアジリティを変えるのか?
junki
4
1.1k
Android の公式 Skill / Android skills
yanzm
0
160
PostgreSQL 19 新機能概要 OSC Hokkaido 2026
nori_shinoda
0
180
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
240
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
Featured
See All Featured
Technical Leadership for Architectural Decision Making
baasie
3
420
Ruling the World: When Life Gets Gamed
codingconduct
0
260
Git: the NoSQL Database
bkeepers
PRO
432
67k
Thoughts on Productivity
jonyablonski
76
5.2k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.5k
AI: The stuff that nobody shows you
jnunemaker
PRO
8
720
Building Adaptive Systems
keathley
44
3.1k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
440
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
28
3.5k
Rails Girls Zürich Keynote
gr2m
96
14k
Become a Pro
speakerdeck
PRO
31
6k
Transcript
Vision Transformer with Deformable Attention Zhuofan Xia1, Xuran Pan1, Shiji
Song1, Li Erran Li2, Gao Huang1,3 (1Tsinghua University , 2AWS AI, Amazon , 3Beijing Academy of Artificial Intelligence) 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 Xia, Z., Pan, X., Song, S., Li, L. E., & Huang, G. (2022). Vision Transformer with Deformable Attention. CVPR22 CVPR 2022
和田唯我 / Yuiga Wada
概要 2 ü 受容野を変形して学習するDeformable Attentionを提案 ü 画像認識モデルDATを提案し, Deformable Attentionの有⽤性を検証 ü
様々な画像認識タスクでSwin Transformerなどの既存⼿法を超える結果を記録
o 受容野 (receptive field) • 画像内の⼀つのクエリから情報を得る際に, 関係を捉えうる範囲 ⇒ 各モデルごとに受容野は異なる 背景
: 画像認識モデルにはそれぞれ固有の受容野が存在 3 CNN Swin Transformer [Liu+, ICCV21] Vision Transformer [Dosovitskiy+, ICLR20]
背景 : 受容野を変形できるAttentionが望まれる 4 o Vision Transformer [Dosovitskiy+, ICLR20] •
CNNよりも広範囲な受容野を持つが, 計算量が⼤きい o Sparse Transformer • 計算量を落とすため, 受容野を狭める → 広範囲の関係性を捉えられない • 例 : Swin Transformer [Liu+, ICCV21] , PVT [Wang+, ICCV21] 計算量を抑えつつ, 物体ごとに受容野を変形できるAttention機構が望まれる
既存研究 : DeformableなAttentionには改善の余地がある 5 o Deformable Convolution (DCN) [Dai+, ICCV17]
• カーネルに対してoffsetを⽤いることで, 受容野を変形する o Deformable DETR [Zhu+, 2020] • DETRにDeformable モジュールを追加 • 通常のAttentionだと計算量が⼤きい → Keyの次元を"! = 4 として計算量を削減 ⇒ 重要な情報が失われているという指摘 ⇒ 次元を減らすことなく受容野を変形できるAttentionの必要性 DCN [Dai+, CCV17]
提案⼿法 : Deformable Attention Transformer o Deformable Attention Transformer (DAT)
o 4-stageで構成 o (前半) Shift-Window Attention (後半) Deformable Attention o 新規性 o Deformable Attentionの提案 → 物体ごとに受容野を変形して学習 6
提案⼿法 : Deformable Attention 7 o Deformable Attention o ⼊⼒画像
%と参照点 & % でAttentionを計算 o グリッドからoffset分ずらした点を参照点 & % とする ⇒ 変形された受容野を実現
Step1 : 格⼦点からのoffsetを計算 1. ⼊⼒画像 % を線形変換し, クエリ ' を計算
2. サブネットワーク ("##$%& より, 格⼦点 * からのoffset Δ* を計算 * ∈ ℝ'!×)!×* , ' = %. + , Δ* = ("##$%& ' 8 "! ≔ " $ , & ! ≔ & $ ,!""#$% - Δ-
Step2 : bilinear補間により参照点から特徴量を計算 (1/2) 1. % ∈ ℝ'×)×/ の各要素 10
, 11 に対してbilinear補間 & % = 2 %; * + Δ* を計算 9
Step2 : bilinear補間により参照点から特徴量を計算 (2/2) 10 • すなわち 10 , 11
近傍にある参照点から, 距離に応じた加重和を取る ' $" , $# , :
Step3 : 変形された参照点をKey, ValueとしてAttentionを計算 1. bilinear補間された参照点 & % を線形変換して 5
6 , & 7を計算 2. クエリ 'と参照点から得られた 5 6 , & 7 とでAttentionを計算 11 offset情報を⽤いた Positional Embeddingを付与
定性的結果 : 物体ごとに参照点が変形されている 12 Stage3 Stage4 • COCOデータセットで物体検出&セグメンテーションを実施 ⇒ 各Stageにおいて,
対象物体へと集中するように参照点が変形
定量的結果 : 画像分類タスクにおいて既存⼿法を上回る結果を記録 13 • ImageNet-1Kを⽤いた画像分類 • 様々な従来⼿法を上回る結果を記録 • モデルサイズが⼤きくなるにつれて,
精度が向上している
定量的結果 : セグメンテーションにおいても既存⼿法を上回る結果を記録 14 • ADE20Kを⽤いたセグメンテーション • Swin Transformer, PVTを上回る結果を記
録 • 最も軽量なDAT-Tにおいても, PVT-Sや Swin-Tを上回っている
Ablation : Deformable Attentionは後半のみの配置が最良 15 • Deformable AttentionはStage3 / Stage4
のみの配置が最良 ⇒ Stage1 / Stage2では, ⽐較的局所的な特徴を学習させた⽅が良い ✔ → Deformable Attention / 空 → Shift-Window Attention
まとめ 16 ü Deformable Attention Transformer (DAT)を提案 ü Deformable Attentionにより物体ごとに受容野を変形して学習
• Deformable Attentionは後半のStageに配置するのが最良 ü 様々な画像処理タスクでSwin Transformerを超える精度を記録
⇒ Swin Transformer / DCNはクエリごとに異なる受容野を持つ Appendix : ⼿法ごとの受容野 17
Appendix : アーキテクチャの詳細 18
Appendix : 物体検出に関する定量的結果 19