Тихо! Сейчас будет та самая сцена- как автоматичечски находить цепляющие моменты в видео

Тихо! Сейчас будет та самая сцена Марина Бессмертная CV Engineer
SberDevices Как автоматически находить самые цепляющие моменты в видео —

Highlights Movie BlackBox Video Highlight Detection

Аудио модальность Видео модальность

Одиночное неподвижное изображение, которое при последовательном воспроизведении с другими кадрами
видеоролика создает движение на поверхности воспроизведения Серия кадров, снятых одной и той же камерой в течение непрерывного периода времени Серия shot-ов, представляющая собой семантически связную часть сюжета

Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor
Shot Detector Audio Feature Extractor Movie Trailer Highlights

Input Batch Normalization ReLU Concat Conv 1×3×3 Conv 3×1×1 dilation
1 Conv 3×1×1 dilation 2 Conv 3×1×1 dilation 4 Conv 3×1×1 dilation 8 Conv 1×3×3 Conv 1×3×3 Conv 1×3×3

Video Feature Extractor Highlight Detector Shot Detector Audio Feature Extractor
Movie Trailer Highlights Scene Detector Scene Feature Extractor

Pseudo-boundary Pseudo Scene A Pseudo Scene B

Input Shots Frozen Encoder Transformer Encoder Scene Boundaries MLP block

Shot Detector Movie Trailer Highlights Video Feature Extractor Highlight Detector
Scene Detector Scene Feature Extractor Audio Feature Extractor

{𝑎!}!"# $! Uni-modal Encoder Cross-modal Encoder Uni-modal Encoder Ranking Loss
Audio Encoder {𝑣!}!"# $! Video Encoder Contrastive Attention Classification Loss Input Shots

Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor
Shot Detector Audio Feature Extractor Movie Trailer Highlights

Интересные моменты Полнометражный фильм Highlight Detection Model Highlight Detection

Moments BlackBox Moment Retrieval Video Text query

Transformer Encoder Transformer Decoder FFN FFN FFN FFN foreground background
foreground background span span L1 + IoU Loss Cross-Entropy Hinge Loss Saliency scores Saliency scores Linear video Video Tokens Text Tokens N learnable moment queries

Query: “Fluffy cat playing with a toy” Feature Extraction Adaptive
Cross- Attention Moment Adaptive Saliency Token Generator Moment Detector Moment- Sentence Alignment Dummy Encoder Video:

Query: “Fluffy cat playing with a toy” Video: Frozen Text
Encoder Frozen Video Encoder 𝑡%& … 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- ( … 𝑡! 𝑡) 𝑡* 𝑡,

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (
… 𝑡! 𝑡) 𝑡* 𝑡, 𝑡%& … $ 𝐷' $ 𝐷) $ 𝐷* $ 𝐷, $ 𝐷%. … 𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- ( 𝑡' 𝑡%& $ 𝐷' $ 𝐷%. Adaptive Cross-Attention Attention Weight W Video Tokens Query Tokens Dummy Tokens Q K V V & 𝑎' & 𝑎) & 𝑎* & 𝑎, & 𝑎%- … Sum Clip-wise query correspondence

Sum Difference – Multiplication Dot Product Transpose T Video Tokens
𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%! ( … Avg. Video Context 𝑉/01 – … Saliency Candidates Pool 𝑃' 𝑃) 𝑃* 𝑃, … 𝑃%2 Clip-wise Query Correspondence & 𝑎' & 𝑎) & 𝑎* & 𝑎, … & 𝑎%- T T Candidate Weight Vector 𝐶' 𝐶) 𝐶* 𝐶, … 𝐶%- Selection 𝐶(') 𝐶()) … 𝐶(5) Top-K Saliency Candidates Pool 𝑃' 𝑃) 𝑃* 𝑃, … 𝑃%" Moment Descriptive Token 𝑉/01 Video Context T Saliency Token Avg. Softmax 𝐿- 𝐿2

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (
… 𝑇 Transformer Encoder Transformer Decoder 𝑣' ( 𝑣) ( 𝑣* + 𝑣%- ( … 𝑇 Saliency scores Learnable Anchors (𝑚%, 𝑚&) Hungarian Matching foreground background foreground background video Noised Targets (𝑚$%, 𝑚$&)

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (
… 𝑡' 𝑡%& … 𝑆 𝑀 $ 𝐷' $ 𝐷%. … 𝑀 𝑀 … 𝑆 𝑆 … Moment Encoder Moment Encoder Sentence Encoder Sentence Encoder … … / 𝑀+ / 𝑀( … " 𝑆" " 𝑆# … … …

[email protected] [email protected] [email protected] [email protected] mAP@avg HL mAP HL HIT@1 Moment
DETR 59.78 40.33 60.51 35.36 36.14 37.43 60.17 CG DETR 65.4 48.4 64.5 42.8 42.9 40.3 66.2 CG+ DETR (ours) 69.87 55.48 69.51 50.89 49.96 40.70 67.21

Тихо! Сейчас будет та самая сцена- как автоматичечски находить цепляющие моменты в видео

Тихо! Сейчас будет та самая сцена- как автоматичечски находить цепляющие моменты в видео

Alexander Gavrilov

More Decks by Alexander Gavrilov

Other Decks in Technology

Featured

Transcript

Тихо! Сейчас будет та самая сцена Марина Бессмертная CV Engineer

Highlights Movie BlackBox Video Highlight Detection

Аудио модальность Видео модальность

Одиночное неподвижное изображение, которое при последовательном воспроизведении с другими кадрами

Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor

Input Batch Normalization ReLU Concat Conv 1×3×3 Conv 3×1×1 dilation

Video Feature Extractor Highlight Detector Shot Detector Audio Feature Extractor

Pseudo-boundary Pseudo Scene A Pseudo Scene B

Input Shots Frozen Encoder Transformer Encoder Scene Boundaries MLP block

Shot Detector Movie Trailer Highlights Video Feature Extractor Highlight Detector

{𝑎!}!"# $! Uni-modal Encoder Cross-modal Encoder Uni-modal Encoder Ranking Loss

Video Feature Extractor Highlight Detector Scene Detector Scene Feature Extractor

Интересные моменты Полнометражный фильм Highlight Detection Model Highlight Detection

Moments BlackBox Moment Retrieval Video Text query

Transformer Encoder Transformer Decoder FFN FFN FFN FFN foreground background

Query: “Fluffy cat playing with a toy” Feature Extraction Adaptive

Query: “Fluffy cat playing with a toy” Video: Frozen Text

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

Sum Difference – Multiplication Dot Product Transpose T Video Tokens

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

𝑣' ( 𝑣) ( 𝑣* + 𝑣, + 𝑣%- (

[email protected] [email protected] [email protected] [email protected] mAP@avg HL mAP HL HIT@1 Moment