видеоролика создает движение на поверхности воспроизведения Серия кадров, снятых одной и той же камерой в течение непрерывного периода времени Серия shot-ов, представляющая собой семантически связную часть сюжета
foreground background span span L1 + IoU Loss Cross-Entropy Hinge Loss Saliency scores Saliency scores Linear video Video Tokens Text Tokens N learnable moment queries