Slide 1

Slide 1 text

Обзор подходов к задаче диаризации Студент: Екатерина Фадеева Руководители: Василий Ершов, Игорь Куралёнок

Slide 2

Slide 2 text

● Постановки задачи ● Метрики ● Датасеты ● Решения ● Diarization + ASR

Slide 3

Slide 3 text

Что такое диаризация? Хотим по аудиозаписи разговора разметить, в какой момент времени кто говорит. 3 / 32

Slide 4

Slide 4 text

Постановки задачи ● С overlap ● C Automatic Speech Recognition ● Online / offline ● С видео ● Single/multi channel ● Мало шума: встречи / телефонные разговоры ● Много шума: новостные репортажи 4 / 32

Slide 5

Slide 5 text

Применения ● Транскрипция встреч -> выделение тем ● Conversational Interaction Analysis, Behavior modelling ● Поиск по аудио данным ● Распознавание голосовых команд 5 / 32

Slide 6

Slide 6 text

Метрики для оценки качества диаризации

Slide 7

Slide 7 text

Метрики для оценки качества диаризации 7 / 32

Slide 8

Slide 8 text

Метрики для оценки качества диаризации DER + 0.25s collar 8 / 32

Slide 9

Slide 9 text

Метрики для оценки качества диаризации ● ● JER + 0.25s collar 9 / 32

Slide 10

Slide 10 text

Метрики для оценки качества диаризации ● Для diarization + ASR: ○ WDER = количество обрезаний слов ○ sa-WER ● Для online: latency 10 / 32

Slide 11

Slide 11 text

Открытые данные для экспериментов

Slide 12

Slide 12 text

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров Объем overlap CALLHOME 2001 Телефонные разговоры ASR + diarization + доп. информация Вручную 2-7 20ч Есть и без и с AMI 2006 Рабочие встречи дизайнеров ASR + diarization + доп. Информация + видео Transcription: вручную Diarization: автоматически 3-5 100ч есть ICSI 2003 Встречи в университете ASR + diarization + доп. информация Aвтоматически + проверка 3-10 72ч есть LibriCSS 2020 Записи из LibriSpeech записываются в комнате ASR + diarization По данным из LibriSpeech 8 10ч 0-40% 12 / 32

Slide 13

Slide 13 text

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров Объем overlap Метрики VoxConverse 2020 Видео youtube, много шума Diarization + видео По видео + проверка 1-21 74ч 0-30% DER, JER + 0.25 collar Rich Transcription 2009 Встречи ASR + diarization + видео Вручную есть DER, JER +0.25 collar, latency CHiME-5 2020 Домашние разговоры ASR + diarization + доп. информация Вручную 4 50ч есть DER, JER DIHARD- 1,2,3 2018-2021 Много доменов: встречи, аудиокниги, youtube, ... Diarization + segmentation Вручную 1-8 24ч 10% DER, JER 13 / 32

Slide 14

Slide 14 text

Подходы к решению задачи

Slide 15

Slide 15 text

Подходы к решению задачи диаризации 15 / 32

Slide 16

Slide 16 text

Подходы к решению задачи диаризации 16 / 32

Slide 17

Slide 17 text

Front-End Processing ● Denoising: LSTM ● Dereverberation: Weighted Prediction Error (WPE) 17 / 32

Slide 18

Slide 18 text

Speech Activity Detection ● Из аудио извлекаются Mel-Frequency Cepstral Coefficients (MFCC) -> классификация ● Gaussian Mixture Models, Hidden Markov Models ● Очень важно для diarization 18 / 32

Slide 19

Slide 19 text

Segmentation ● BIC ● Uniform segmentation 19 / 32

Slide 20

Slide 20 text

Speaker Embedding ● i-vector ● d-vector ● x-vector 20 / 32

Slide 21

Slide 21 text

Clustering ● PLDA ● Agglomerative Hierarchical Clustering 21 / 32

Slide 22

Slide 22 text

Post-Processing ● VB-HMM 22 / 32

Slide 23

Slide 23 text

● DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73 ● VoxConverse: ○ uniform + Res2Net + AHC + DOVER, DER 6.23 JER 21.52 ○ uniform + ResNet152 + AHC + VB-HMM DER 8.12 JER 18.35 Подходы к решению задачи диаризации 24 / 32

Slide 24

Slide 24 text

Совмещение результатов диаризации ● DOVER: без overlap ● DOVER-Lap - с overlap 23 / 32

Slide 25

Slide 25 text

Joint diarization: EEND ● CALLHOME 10.76 DER+collar ● c overlap, offline (но есть модификации) 25 / 32

Slide 26

Slide 26 text

Diarization + ASR

Slide 27

Slide 27 text

Joint diarization + ASR Integration of lexical information and acoustic information 27 / 32

Slide 28

Slide 28 text

● Без overlap, online Joint diarization + ASR 28 / 32

Slide 29

Slide 29 text

● C overlap, offline ● Диалоги двух людей, DER 24.63 (23 для x-vector+AHC) ● sa-WER 40.03 как с oracle embeddings Joint diarization + ASR 29 / 32

Slide 30

Slide 30 text

● C overlap, online ● LibriSpeech: sa-WER 15.6 Joint diarization + ASR: E2E SA-ASR 30 / 32

Slide 31

Slide 31 text

Заключение ● Синтетические данные ● Два decoder 31 / 32

Slide 32

Slide 32 text

Ссылки ● A Review of Speaker Diarization: Recent Advances with Deep Learning 32 / 32