Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Тихо! Сейчас будет та самая сцена- как автоматичечски находить цепляющие моменты в видео

Тихо! Сейчас будет та самая сцена- как автоматичечски находить цепляющие моменты в видео

Конференция GIGA R&D DAY
Презентации на Google Drive: https://drive.google.com/drive/folders/1t1Y5sH4mGFAIzdcrrfXz8m65QEmghA7U
Выступления: https://www.youtube.com/playlist?list=PLJU_M19giWaHVbfs2ltF1kBxUrjAblCD1

Alexander Gavrilov

April 16, 2024
Tweet

More Decks by Alexander Gavrilov

Other Decks in Technology

Transcript

  1. Тихо! Сейчас будет та самая сцена Марина Бессмертная CV Engineer

    SberDevices Как автоматически находить самые цепляющие моменты в видео —
  2. Одиночное неподвижное изображение, которое при последовательном воспроизведении с другими кадрами

    видеоролика создает движение на поверхности воспроизведения Серия кадров, снятых одной и той же камерой в течение непрерывного периода времени Серия shot-ов, представляющая собой семантически связную часть сюжета
  3. Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor

    Shot Detector Audio Feature Extractor Movie Trailer Highlights
  4. Input Batch Normalization ReLU Concat Conv 1×3×3 Conv 3×1×1 dilation

    1 Conv 3×1×1 dilation 2 Conv 3×1×1 dilation 4 Conv 3×1×1 dilation 8 Conv 1×3×3 Conv 1×3×3 Conv 1×3×3
  5. Video Feature Extractor Highlight Detector Shot Detector Audio Feature Extractor

    Movie Trailer Highlights Scene Detector Scene Feature Extractor
  6. Shot Detector Movie Trailer Highlights Video Feature Extractor Highlight Detector

    Scene Detector Scene Feature Extractor Audio Feature Extractor
  7. {𝑎!}!"# $! Uni-modal Encoder Cross-modal Encoder Uni-modal Encoder Ranking Loss

    Audio Encoder {𝑣!}!"# $! Video Encoder Contrastive Attention Classification Loss Input Shots
  8. Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor

    Shot Detector Audio Feature Extractor Movie Trailer Highlights
  9. Transformer Encoder Transformer Decoder FFN FFN FFN FFN foreground background

    foreground background span span L1 + IoU Loss Cross-Entropy Hinge Loss Saliency scores Saliency scores Linear video Video Tokens Text Tokens N learnable moment queries
  10. Query: “Fluffy cat playing with a toy” Feature Extraction Adaptive

    Cross- Attention Moment Adaptive Saliency Token Generator Moment Detector Moment- Sentence Alignment Dummy Encoder Video:
  11. Query: “Fluffy cat playing with a toy” Video: Frozen Text

    Encoder Frozen Video Encoder 𝑡%& … 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- ( … 𝑡! 𝑡) 𝑡* 𝑡,
  12. 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

    … 𝑡! 𝑡) 𝑡* 𝑡, 𝑡%& … $ 𝐷' $ 𝐷) $ 𝐷* $ 𝐷, $ 𝐷%. … 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- ( 𝑡' 𝑡%& $ 𝐷' $ 𝐷%. Adaptive Cross-Attention Attention Weight W Video Tokens Query Tokens Dummy Tokens Q K V V & 𝑎' & 𝑎) & 𝑎* & 𝑎, & 𝑎%- … Sum Clip-wise query correspondence
  13. Sum Difference – Multiplication Dot Product Transpose T Video Tokens

    𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%! ( … Avg. Video Context 𝑉/01 – … Saliency Candidates Pool 𝑃' 𝑃) 𝑃* 𝑃, … 𝑃%2 Clip-wise Query Correspondence & 𝑎' & 𝑎) & 𝑎* & 𝑎, … & 𝑎%- T T Candidate Weight Vector 𝐶' 𝐶) 𝐶* 𝐶, … 𝐶%- Selection 𝐶(') 𝐶()) … 𝐶(5) Top-K Saliency Candidates Pool 𝑃' 𝑃) 𝑃* 𝑃, … 𝑃%" Moment Descriptive Token 𝑉/01 Video Context T Saliency Token Avg. Softmax 𝐿- 𝐿2
  14. 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

    … 𝑇 Transformer Encoder Transformer Decoder 𝑣' ( 𝑣) ( 𝑣* + 𝑣%- ( … 𝑇 Saliency scores Learnable Anchors (𝑚%, 𝑚&) Hungarian Matching foreground background foreground background video Noised Targets (𝑚$%, 𝑚$&)
  15. 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

    … 𝑡' 𝑡%& … 𝑆 𝑀 $ 𝐷' $ 𝐷%. … 𝑀 𝑀 … 𝑆 𝑆 … Moment Encoder Moment Encoder Sentence Encoder Sentence Encoder … … / 𝑀+ / 𝑀( … " 𝑆" " 𝑆# … … …
  16. [email protected] [email protected] [email protected] [email protected] mAP@avg HL mAP HL HIT@1 Moment

    DETR 59.78 40.33 60.51 35.36 36.14 37.43 60.17 CG DETR 65.4 48.4 64.5 42.8 42.9 40.3 66.2 CG+ DETR (ours) 69.87 55.48 69.51 50.89 49.96 40.70 67.21