[読み会]Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer @1/10 山

࿦จ৘ใ CVPR 20 22

࿦จ֓ཁ Vision Transformer Attention 手

ݚڀͷཱͪҐஔ ViT 長方行

ݚڀͷཱͪҐஔ ViT 長方行目

ݚڀͷཱͪҐஔ ViT 長方行人

ݚڀͷఏҊ ViT CTM

ݚڀͷఏҊ MTA Head

ఏҊख๏1ɿClustering-based Token Merge(CTM) Block ( ) 人心

ఏҊख๏1ɿCTM Blockʹ͓͚ΔΫϥελϦϯά Density peaks 用 ρi δi ρi = exp
− 1 k ∑ xj ∈KNN(xi ) ||xi − xj ||2 2 xi δi = { minj:ρj >ρi ||xi − xj || 2 if ∃j s.t. ρj > ρi maxj ||xi − xj || 2 otherwise 大 ρi ρj 大 ρi

ఏҊख๏1ɿCTM Blockʹ͓͚ΔΫϥελϦϯά 大心高 ρi × δi ρi ×
δi ρi = exp − 1 k ∑ xj ∈KNN(xi ) ||xi − xj ||2 2 xi δi = { minj:ρj >ρi ||xi − xj || 2 if ∃j s.t. ρj > ρi maxj ||xi − xj || 2 otherwise 大 ρi ρj 大 ρi

ఏҊख๏1ɿCTM Blockʹ͓͚Δಛ௃ྔͷ݁߹ yi = ∑ j∈Ci epjxj ∑ j∈Ci epj
pj Ci yi Query Attention Yongming Rao, Wenliang Zhao, Benlin Liu, Jiwen Lu, Jie Zhou, and Cho-Jui Hsieh. Dynamicvit: E ff i cient vision transformers with dynamic token sparsi fi cation. Adv. Neu- ral Inform. Process. Syst., 2 0 21 .

ఏҊख๏1ɿCTM BlockޙͷAttentionͷܭࢉ CTM 用 (Query) K,V 小 Spatial Reductio Attention(Q,
K, V) = softmax ( QKT dk + P ) V Attention P

ఏҊख๏2ɿMulti-stage Token Aggregation Head ViT 用

ఏҊख๏2ɿMulti-stage Token Aggregation Head Transformer 方 Stage 4 Stage 3
Stage 2 Stage 1

ఏҊख๏2ɿMulti-stage Token Aggregation Head Transformer 方 Upsample 行

ఏҊख๏·ͱΊ 1 2

࣮ݧ 人 3 D 3 D

࣮ݧ݁Ռɿ࢟੎ਪఆλεΫ 手手

࣮ݧ݁Ռɿ࢟੎ਪఆλεΫ CTM,MTA Head 方

ͦΕҎ֎ͷλεΫ 手

࣮ݧɿੜ੒͞ΕͨτʔΫϯͷൺֱ 大人手

࣮ݧɿੜ੒͞ΕͨτʔΫϯͷൺֱ 手

·ͱΊͱײ૝ 文手目 Human-centric

[読み会]Not All Tokens Are Equal: Human-centric Vi...

[読み会]Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer

Kei Moriyama

More Decks by Kei Moriyama

Featured

Transcript

Not All Tokens Are Equal: Human-centric Visual Analysis via Token