Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Vision Transformer with Deformab...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
3.1k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Vision Transformer with Deformable Attention
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
40
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
AIのReact習熟度を測る
uhyo
2
670
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
470
千葉での単身赴任からAWSをやり続け、千葉に戻ってきた話
yama3133
1
100
サイバーエージェントにおけるAI推進戦略と変革への取り組み
shotatsuge
0
410
インシデントレスポンス演習 I / Incident Response Exercise I
ks91
PRO
0
110
データレイクの「見えない問題」を可視化する
sansantech
PRO
1
170
Bucharest Tech Week 2026 - Guardians of the Cloud-Native Galaxy
edeandrea
PRO
0
130
AI-DLCを “そのまま導入しなかった”話 ~組織に合わせてアジャストした 私たちの実践共有~
hiroramos4
PRO
1
380
AIはどのように 組織のアジリティを変えるのか?
junki
4
1.1k
新しいUbuntu/GNOMEが使いたいからXからWaylandへ移行頑張ってるの巻 2026-06-20
nobutomurata
0
160
AIが自律的に回る開発ループを設計してチーム開発に組み込む
nekorush14
0
110
ぼっちではじめた登壇が「51名」「241件」の発信に化けた
subroh0508
1
290
Featured
See All Featured
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
610
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
270
Music & Morning Musume
bryan
47
7.2k
What does AI have to do with Human Rights?
axbom
PRO
1
2.2k
Building Experiences: Design Systems, User Experience, and Full Site Editing
marktimemedia
0
540
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.6k
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.7k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Why Our Code Smells
bkeepers
PRO
340
58k
Transcript
Vision Transformer with Deformable Attention Zhuofan Xia1, Xuran Pan1, Shiji
Song1, Li Erran Li2, Gao Huang1,3 (1Tsinghua University , 2AWS AI, Amazon , 3Beijing Academy of Artificial Intelligence) 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 Xia, Z., Pan, X., Song, S., Li, L. E., & Huang, G. (2022). Vision Transformer with Deformable Attention. CVPR22 CVPR 2022
和田唯我 / Yuiga Wada
概要 2 ü 受容野を変形して学習するDeformable Attentionを提案 ü 画像認識モデルDATを提案し, Deformable Attentionの有⽤性を検証 ü
様々な画像認識タスクでSwin Transformerなどの既存⼿法を超える結果を記録
o 受容野 (receptive field) • 画像内の⼀つのクエリから情報を得る際に, 関係を捉えうる範囲 ⇒ 各モデルごとに受容野は異なる 背景
: 画像認識モデルにはそれぞれ固有の受容野が存在 3 CNN Swin Transformer [Liu+, ICCV21] Vision Transformer [Dosovitskiy+, ICLR20]
背景 : 受容野を変形できるAttentionが望まれる 4 o Vision Transformer [Dosovitskiy+, ICLR20] •
CNNよりも広範囲な受容野を持つが, 計算量が⼤きい o Sparse Transformer • 計算量を落とすため, 受容野を狭める → 広範囲の関係性を捉えられない • 例 : Swin Transformer [Liu+, ICCV21] , PVT [Wang+, ICCV21] 計算量を抑えつつ, 物体ごとに受容野を変形できるAttention機構が望まれる
既存研究 : DeformableなAttentionには改善の余地がある 5 o Deformable Convolution (DCN) [Dai+, ICCV17]
• カーネルに対してoffsetを⽤いることで, 受容野を変形する o Deformable DETR [Zhu+, 2020] • DETRにDeformable モジュールを追加 • 通常のAttentionだと計算量が⼤きい → Keyの次元を"! = 4 として計算量を削減 ⇒ 重要な情報が失われているという指摘 ⇒ 次元を減らすことなく受容野を変形できるAttentionの必要性 DCN [Dai+, CCV17]
提案⼿法 : Deformable Attention Transformer o Deformable Attention Transformer (DAT)
o 4-stageで構成 o (前半) Shift-Window Attention (後半) Deformable Attention o 新規性 o Deformable Attentionの提案 → 物体ごとに受容野を変形して学習 6
提案⼿法 : Deformable Attention 7 o Deformable Attention o ⼊⼒画像
%と参照点 & % でAttentionを計算 o グリッドからoffset分ずらした点を参照点 & % とする ⇒ 変形された受容野を実現
Step1 : 格⼦点からのoffsetを計算 1. ⼊⼒画像 % を線形変換し, クエリ ' を計算
2. サブネットワーク ("##$%& より, 格⼦点 * からのoffset Δ* を計算 * ∈ ℝ'!×)!×* , ' = %. + , Δ* = ("##$%& ' 8 "! ≔ " $ , & ! ≔ & $ ,!""#$% - Δ-
Step2 : bilinear補間により参照点から特徴量を計算 (1/2) 1. % ∈ ℝ'×)×/ の各要素 10
, 11 に対してbilinear補間 & % = 2 %; * + Δ* を計算 9
Step2 : bilinear補間により参照点から特徴量を計算 (2/2) 10 • すなわち 10 , 11
近傍にある参照点から, 距離に応じた加重和を取る ' $" , $# , :
Step3 : 変形された参照点をKey, ValueとしてAttentionを計算 1. bilinear補間された参照点 & % を線形変換して 5
6 , & 7を計算 2. クエリ 'と参照点から得られた 5 6 , & 7 とでAttentionを計算 11 offset情報を⽤いた Positional Embeddingを付与
定性的結果 : 物体ごとに参照点が変形されている 12 Stage3 Stage4 • COCOデータセットで物体検出&セグメンテーションを実施 ⇒ 各Stageにおいて,
対象物体へと集中するように参照点が変形
定量的結果 : 画像分類タスクにおいて既存⼿法を上回る結果を記録 13 • ImageNet-1Kを⽤いた画像分類 • 様々な従来⼿法を上回る結果を記録 • モデルサイズが⼤きくなるにつれて,
精度が向上している
定量的結果 : セグメンテーションにおいても既存⼿法を上回る結果を記録 14 • ADE20Kを⽤いたセグメンテーション • Swin Transformer, PVTを上回る結果を記
録 • 最も軽量なDAT-Tにおいても, PVT-Sや Swin-Tを上回っている
Ablation : Deformable Attentionは後半のみの配置が最良 15 • Deformable AttentionはStage3 / Stage4
のみの配置が最良 ⇒ Stage1 / Stage2では, ⽐較的局所的な特徴を学習させた⽅が良い ✔ → Deformable Attention / 空 → Shift-Window Attention
まとめ 16 ü Deformable Attention Transformer (DAT)を提案 ü Deformable Attentionにより物体ごとに受容野を変形して学習
• Deformable Attentionは後半のStageに配置するのが最良 ü 様々な画像処理タスクでSwin Transformerを超える精度を記録
⇒ Swin Transformer / DCNはクエリごとに異なる受容野を持つ Appendix : ⼿法ごとの受容野 17
Appendix : アーキテクチャの詳細 18
Appendix : 物体検出に関する定量的結果 19