Speaker diarization

Обзор подходов к задаче диаризации Студент: Екатерина Фадеева Руководители: Василий
Ершов, Игорь Куралёнок

• Постановки задачи • Метрики • Датасеты • Решения •
Diarization + ASR

Что такое диаризация? Хотим по аудиозаписи разговора разметить, в какой
момент времени кто говорит. 3 / 32

Постановки задачи • С overlap • C Automatic Speech Recognition
• Online / ofﬂine • С видео • Single/multi channel • Мало шума: встречи / телефонные разговоры • Много шума: новостные репортажи 4 / 32

Применения • Транскрипция встреч -> выделение тем • Conversational Interaction
Analysis, Behavior modelling • Поиск по аудио данным • Распознавание голосовых команд 5 / 32

Метрики для оценки качества диаризации

Метрики для оценки качества диаризации 7 / 32

Метрики для оценки качества диаризации DER + 0.25s collar 8
/ 32

Метрики для оценки качества диаризации • • JER + 0.25s
collar 9 / 32

Метрики для оценки качества диаризации • Для diarization + ASR:
◦ WDER = количество обрезаний слов ◦ sa-WER • Для online: latency 10 / 32

Открытые данные для экспериментов

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров
Объем overlap CALLHOME 2001 Телефонные разговоры ASR + diarization + доп. информация Вручную 2-7 20ч Есть и без и с AMI 2006 Рабочие встречи дизайнеров ASR + diarization + доп. Информация + видео Transcription: вручную Diarization: автоматически 3-5 100ч есть ICSI 2003 Встречи в университете ASR + diarization + доп. информация Aвтоматически + проверка 3-10 72ч есть LibriCSS 2020 Записи из LibriSpeech записываются в комнате ASR + diarization По данным из LibriSpeech 8 10ч 0-40% 12 / 32

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров
Объем overlap Метрики VoxConverse 2020 Видео youtube, много шума Diarization + видео По видео + проверка 1-21 74ч 0-30% DER, JER + 0.25 collar Rich Transcription 2009 Встречи ASR + diarization + видео Вручную есть DER, JER +0.25 collar, latency CHiME-5 2020 Домашние разговоры ASR + diarization + доп. информация Вручную 4 50ч есть DER, JER DIHARD- 1,2,3 2018-2021 Много доменов: встречи, аудиокниги, youtube, ... Diarization + segmentation Вручную 1-8 24ч 10% DER, JER 13 / 32

Подходы к решению задачи

Подходы к решению задачи диаризации 15 / 32

Подходы к решению задачи диаризации 16 / 32

Front-End Processing • Denoising: LSTM • Dereverberation: Weighted Prediction Error
(WPE) 17 / 32

Speech Activity Detection • Из аудио извлекаются Mel-Frequency Cepstral Coefﬁcients
(MFCC) -> классификация • Gaussian Mixture Models, Hidden Markov Models • Очень важно для diarization 18 / 32

Segmentation • BIC • Uniform segmentation 19 / 32

Speaker Embedding • i-vector • d-vector • x-vector 20 /
32

Clustering • PLDA • Agglomerative Hierarchical Clustering 21 / 32

Post-Processing • VB-HMM 22 / 32

• DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73
• VoxConverse: ◦ uniform + Res2Net + AHC + DOVER, DER 6.23 JER 21.52 ◦ uniform + ResNet152 + AHC + VB-HMM DER 8.12 JER 18.35 Подходы к решению задачи диаризации 24 / 32

Совмещение результатов диаризации • DOVER: без overlap • DOVER-Lap -
с overlap 23 / 32

Joint diarization: EEND • CALLHOME 10.76 DER+collar • c overlap,
ofﬂine (но есть модификации) 25 / 32

Diarization + ASR

Joint diarization + ASR Integration of lexical information and acoustic
information 27 / 32

• Без overlap, online Joint diarization + ASR 28 /
32

• C overlap, ofﬂine • Диалоги двух людей, DER 24.63
(23 для x-vector+AHC) • sa-WER 40.03 как с oracle embeddings Joint diarization + ASR 29 / 32

• C overlap, online • LibriSpeech: sa-WER 15.6 Joint diarization
+ ASR: E2E SA-ASR 30 / 32

Заключение • Синтетические данные • Два decoder 31 / 32

Ссылки • A Review of Speaker Diarization: Recent Advances with
Deep Learning 32 / 32

Speaker diarization

Speaker diarization

Machinelearner

More Decks by Machinelearner

Other Decks in Education

Featured

Transcript

Обзор подходов к задаче диаризации Студент: Екатерина Фадеева Руководители: Василий

• Постановки задачи • Метрики • Датасеты • Решения •

Что такое диаризация? Хотим по аудиозаписи разговора разметить, в какой

Постановки задачи • С overlap • C Automatic Speech Recognition

Применения • Транскрипция встреч -> выделение тем • Conversational Interaction

Метрики для оценки качества диаризации

Метрики для оценки качества диаризации 7 / 32

Метрики для оценки качества диаризации DER + 0.25s collar 8

Метрики для оценки качества диаризации • • JER + 0.25s

Метрики для оценки качества диаризации • Для diarization + ASR:

Открытые данные для экспериментов

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

Подходы к решению задачи

Подходы к решению задачи диаризации 15 / 32

Подходы к решению задачи диаризации 16 / 32

Front-End Processing • Denoising: LSTM • Dereverberation: Weighted Prediction Error

Speech Activity Detection • Из аудио извлекаются Mel-Frequency Cepstral Coefﬁcients

Segmentation • BIC • Uniform segmentation 19 / 32

Speaker Embedding • i-vector • d-vector • x-vector 20 /

Clustering • PLDA • Agglomerative Hierarchical Clustering 21 / 32

Post-Processing • VB-HMM 22 / 32

• DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73

Совмещение результатов диаризации • DOVER: без overlap • DOVER-Lap -

Joint diarization: EEND • CALLHOME 10.76 DER+collar • c overlap,

Diarization + ASR

Joint diarization + ASR Integration of lexical information and acoustic

• Без overlap, online Joint diarization + ASR 28 /

• C overlap, ofﬂine • Диалоги двух людей, DER 24.63

• C overlap, online • LibriSpeech: sa-WER 15.6 Joint diarization

Заключение • Синтетические данные • Два decoder 31 / 32

Ссылки • A Review of Speaker Diarization: Recent Advances with