Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Shifting More Attention to Visua...

[Journal club] Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for

    End-to-End Visual Grounding Jiabo Ye1, Jumfemg Tian2, Ming Yan2, Xiaoshan Yang3, Xuwu Wang4, Ji Zhang2, Liang He1, Xin Lin1 1East China Normal University, 2Alibaba Group, 3NLPR, 4Fudan University CVPR 2022 杉浊孔明研究宀 神原 元就 Ye, J., Tian, J., Yan, M., Yang, X., Wang, X., Zhang, J., et al. (2022). Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding. In CVPR (pp. 15502-15512).
  2. 背景蚀語ず画像の接地はマルチモヌダル掚論に重芁 3 The Power of PowerPoint - thepopp.com VQA 画像キャプション生成

    「画像には䜕が写っおいるか」 「2぀のリンゎ」 「2぀の赀いリンゎがありたす」 蚀語ず画像を適切に接地するこずで掚論可胜 「画像には䜕が写っおいるか」 「リンゎは党郚で䜕個か」 「緑のリンゎは䜕個あるか」 
 入力されるテキストに基づい た画像特城量を獲埗したい VQA
  3. 課題バックボヌンネットワヌクの出力が画像䟝存 4 The Power of PowerPoint - thepopp.com https://github.com/axinc-ai/ailia- models/tree/master/image_classification/vit

    画像特城量は入力画像にのみ䟝存 「画像に写っおいるのは䜕か」 Multimodal Module Text Encoder 䞀般的なVision and Languageモデル バックボヌンネットワヌクにおける凊理では蚀語情報は利甚されない
  4. 関連研究蚀語情報を条件づけた特城量抜出はただ䞍十分 5 The Power of PowerPoint - thepopp.com 手法 抂芁

    Ref-NMS [Chen+, AAAI21] Non-Maximum Suppressionにおいお蚀語情報ずの類䌌スコアを利甚 Trans VG [Deng+, 21] DETR゚ンコヌダを利甚したtransformer-based画像接地モデル MMTM [Vaezi Joze+, CVPR20] チャネル方向に他モダリティの特城を混ぜる Ref-NMS MMTM
  5. 提案手法Query-modulated Refinement Network (QRNet) 6 The Power of PowerPoint -

    thepopp.com • 自然蚀語文(query)の特城量で条件付ける画像特城量抜出ネットワヌクQuery-modulated Refinement Networkの提案 • テキスト特城量を利甚し぀぀空間・チャネル方向のattentionを蚈算するためのモゞュヌル Query-aware Dynamic Attentionの導入
  6. QRNet自然蚀語文から獲埗した[CLS]トヌクンを利甚 7 The Power of PowerPoint - thepopp.com 画像 𝐌自然蚀語文

    𝑞 𝑻 = 𝑓BERT 𝑞 = {𝒑𝑙 𝑐, 𝒑𝑙 1, 
 , 𝒑 𝑙 𝑁𝑣} Linguistic BackboneBERT Embedder ネットワヌク入力 QRNetの入出力 𝑜 = 𝑓QRNet 𝐌, 𝒑𝑙 𝑐
  7. QRNet2぀のモゞュヌルから構成 8 The Power of PowerPoint - thepopp.com Multiscale Fusion

    Feature Extraction • 異なる解像床で蚈算されたattentionを 混ぜ合わせる • 出力𝑜を生成 • Swin-Transformer[Liu+, ICCV21]を拡匵 • 蚀語情報を利甚し぀぀画像特城を抜出 • 特城量はMultiscale Fusionで利甚
  8. Feature ExtractionKステヌゞから構成 9 The Power of PowerPoint - thepopp.com •

    Patch Partition 画像𝐌から埋め蟌み特城量 𝑭0 ∈ ℝ 𝐻 4 ×𝑊 4 ×𝐶を獲埗 • K個のステヌゞで凊理 各ステヌゞはSwin Transformer Block及びQuery-aware Dynamic Attention(QD-Att)で構成 最終的に{𝑭𝑘 ∗ }𝑘=1 𝐟 を出力
  9. QD-AttDynamic Linear Layer 10 The Power of PowerPoint - thepopp.com

    埓来のバックボヌンネットワヌク 文に関わらず重みが固定の線圢倉換 重みが蚀語特城によっお倉化しおほしい 画像特城は完党に画像䟝存
  10. QD-AttDynamic Linear Layer 11 The Power of PowerPoint - thepopp.com

    𝒉out = 𝑓DyLinear𝑀𝑙 𝒉𝑖𝑛 = 𝑟𝑙 T𝒉𝑖𝑛 + 𝒃𝑙 入力特城量𝒉𝑖𝑛 に察しお出力𝒉out は以䞋 𝑀𝑙 = {𝑟𝑙 , 𝒃𝑙 } 𝑟𝑙 ∈ ℝ𝐷𝑖𝑛×𝐷𝑜𝑢𝑡, 𝒃𝑙 ∈ ℝ𝐷𝑜𝑢𝑡 この重みを蚀語特城䟝存ずする 𝑀′𝑙 = Κ(𝒑𝑙 𝑐) Κ( )線圢倉換, 𝑀′𝑙 ∈ ℝ 𝐷𝑖𝑛+1 ∗𝐷𝑜𝑢𝑡 課題 Κ( ) においお入力ベクトルの倧きさを 𝐷𝑙 ずするず 蚓緎可胜パラメヌタ数は𝐷𝑙 ∗ 𝐷𝑖𝑛 + 1 ∗ 𝐷𝑜𝑢𝑡 蚈算量倧 𝑀𝑙 = reshape(𝑀′𝑙 )
  11. QD-AttDynamic Linear Layer 12 The Power of PowerPoint - thepopp.com

    𝑀𝑙 の導出を以䞋のように倉曎 𝑌 = reshape(𝑟𝑔 T𝒑𝑙 𝑐 + 𝒃𝑔 ) 𝑀𝑙 = 𝑌𝑺 𝑺 ∈ ℝ𝐿×𝐷𝑜𝑢𝑡, 𝑟𝑔 ∈ ℝ𝐷𝑙×(𝐷𝑖𝑛+1)∗𝐿, 𝒃𝑔 ∈ ℝ(𝐷𝑖𝑛+1)∗𝐿 蚓緎可胜パラメヌタに぀いおは各局で独立
  12. Channel & Spatial Attention 13 The Power of PowerPoint -

    thepopp.com 蚀語情報を利甚し぀぀チャネル・空間方向のattentionを蚈算 1段階目Channel Attention • 空間方向に最倧倀平均プヌリング 𝑭max 𝑐 , 𝑭mean 𝑐 ∈ ℝ1×1×𝐷𝑣 • Dynamic Linear Layer 入力画像特城量𝑭 ∈ ℝ𝐻×𝑊×𝐷𝑣蚀語特城量𝒑𝑙 𝑐 𝑭mean 𝑐𝑙 = 𝑓DyLinear1 (ReLU(𝑓DyLinear2 (𝑭mean 𝑐 ))) 𝑭max 𝑐𝑙 = 𝑓DyLinear1 (ReLU(𝑓DyLinear2 (𝑭max 𝑐 ))) • Attentionの蚈算アダマヌル積 𝑚𝑐𝑙 = sigmoid(𝑭mean 𝑐𝑙 + 𝑭m𝑎𝑥 𝑐𝑙 ) 𝑭′ = 𝑚𝑐𝑙⚂𝑭
  13. Channel & Spatial Attention 14 The Power of PowerPoint -

    thepopp.com 蚀語情報を利甚し぀぀チャネル・空間方向のattentionを蚈算 2段階目Spatial Attention 入力画像特城量𝑭 ∈ ℝ𝐻×𝑊×𝐷𝑣蚀語特城量𝒑𝑙 𝑐 • Attentionの蚈算アダマヌル積 𝑚𝑠𝑙 = sigmoid(𝑓DyLinear3 𝑭′ ) 𝑭′′ = 𝑚𝑠𝑙⚂𝑭′ 𝑭′′ ∈ ℝ𝐻×𝑊×𝐷𝑣
  14. Multiscale Fusion 15 The Power of PowerPoint - thepopp.com 入力

    {𝑭𝑘 ∗ }𝑘=1 𝐟 𝑭𝑘 ∗ 及び𝑭𝑘+1 ∗ を順番に加算 𝑭𝑘 ∗ に぀いお2×2平均プヌリングによっおダりンサンプリング 𝑭𝐟 ∗ から出力𝑜を生成
  15. 定量的結果各デヌタセットで既存手法を䞊回る 16 The Power of PowerPoint - thepopp.com 手法 バックボヌン

    ReferItGame デヌタセット Flickr30K デヌタセット DIGN [Mu+, AAAI21] VGG-16 65.15 78.73 Trans VG[Deng+, 21] Swin-S 70.86 78.18 提案手法 w/o QD-Att in Feature Extraction Swin-S 72.09 81.16 提案手法 w/o QD-Att in Multiscale Fusion Swin-S 71.39 80.44 提案手法 w/o Channel Attention Swin-S 72.02 81.35 提案手法 w/o Spatial Attention Swin-S 71.80 81.55 提案手法 Swin-S 74.61 81.95 各デヌタセットにおける物䜓怜出タスクを行った際の粟床 • 既存手法を䞊回る性胜を達成 • Multiscale FusionにおけるQD-Attモゞュヌルの効果が高い • Channel/Spatial Attentionはどちらも効果的でありデヌタセットによる
  16. 定量的結果各デヌタセットで既存手法を䞊回る 17 The Power of PowerPoint - thepopp.com 手法 バックボヌン

    ReferItGame デヌタセット Flickr30K デヌタセット DIGN [Mu+, AAAI21] VGG-16 65.15 78.73 Trans VG[Deng+, 21] Swin-S 70.86 78.18 提案手法 w/o QD-Att in Feature Extraction Swin-S 72.09 81.16 提案手法 w/o QD-Att in Multiscale Fusion Swin-S 71.39 80.44 提案手法 w/o Channel Attention Swin-S 72.02 81.35 提案手法 w/o Spatial Attention Swin-S 71.80 81.55 提案手法 Swin-S 74.61 81.95 各デヌタセットにおける物䜓怜出タスクを行った際の粟床 • 既存手法を䞊回る性胜を達成 • Multiscale FusionにおけるQD-Attモゞュヌルの効果が高い • Channel/Spatial Attentionはどちらも効果的でありデヌタセットによる
  17. 定量的結果各デヌタセットで既存手法を䞊回る 18 The Power of PowerPoint - thepopp.com 手法 バックボヌン

    ReferItGame デヌタセット Flickr30K デヌタセット DIGN [Mu+, AAAI21] VGG-16 65.15 78.73 Trans VG[Deng+, 21] Swin-S 70.86 78.18 提案手法 w/o QD-Att in Feature Extraction Swin-S 72.09 81.16 提案手法 w/o QD-Att in Multiscale Fusion Swin-S 71.39 80.44 提案手法 w/o Channel Attention Swin-S 72.02 81.35 提案手法 w/o Spatial Attention Swin-S 71.80 81.55 提案手法 Swin-S 74.61 81.95 各デヌタセットにおける物䜓怜出タスクを行った際の粟床 • 既存手法を䞊回る性胜を達成 • Multiscale FusionにおけるQD-Attモゞュヌルの効果が高い • Channel/Spatial Attentionはどちらも効果的でありデヌタセットによる
  18. 定量的結果各デヌタセットで既存手法を䞊回る 19 The Power of PowerPoint - thepopp.com 手法 バックボヌン

    ReferItGame デヌタセット Flickr30K デヌタセット DIGN [Mu+, AAAI21] VGG-16 65.15 78.73 Trans VG[Deng+, 21] Swin-S 70.86 78.18 提案手法 w/o QD-Att in Feature Extraction Swin-S 72.09 81.16 提案手法 w/o QD-Att in Multiscale Fusion Swin-S 71.39 80.44 提案手法 w/o Channel Attention Swin-S 72.02 81.35 提案手法 w/o Spatial Attention Swin-S 71.80 81.55 提案手法 Swin-S 74.61 81.95 各デヌタセットにおける物䜓怜出タスクを行った際の粟床 • 既存手法を䞊回る性胜を達成 • Multiscale FusionにおけるQD-Attモゞュヌルの効果が高い • Channel/Spatial Attentionはどちらも効果的でありデヌタセットによる
  19. 定性的結果より自然蚀語文に埓ったattention map 20 The Power of PowerPoint - thepopp.com 提案手法

    Swin-Transformer [Liu+, ICCV21] Swin-Transformer 提案手法 写っおいる物䜓党おに反応しおしたっ おいる 自然蚀語文で指定された物䜓のみに attentionが圓たっおいる 正解又は自然蚀語文が䞍適切なために 予枬が誀っおしたっおいる䟋
  20. A/Bテスト既存手法よりも優れたショッピング䜓隓を提䟛 21 The Power of PowerPoint - thepopp.com Taobao(1日のナニヌクビゞタヌ数1000䞇人以䞊)におけるPailitao(商品撮圱賌入機胜)に統合 A/Bテストを実斜

    https://www.alibabacloud.com/help/ja/image-search/latest/scenarios • Aグルヌプ既存の物䜓怜 出手法を利甚したbbox䜜成 • BグルヌプQRNetを利甚し たbbox䜜成 No click rate-1.47% トランザクション数+2.20% ナヌザの欲しいものをより適 切に怜出可胜
  21. たずめ 22 The Power of PowerPoint - thepopp.com 背景 提案手法

    結果 画像の埋め蟌みにおいお蚀語による条件付けが行われおいないため効果的な特城量が埗ら れおいない可胜性 自然蚀語文(query)の特城量で条件付け぀぀画像特城量の抜出を行うネットワヌクQuery- modulated Refinement Networkの提案 各デヌタセットで既存手法を䞊回る性胜自然蚀語文に沿ったattentionの生成に成功