Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Speaker diarization

Speaker diarization

Machinelearner

April 07, 2021
Tweet

More Decks by Machinelearner

Other Decks in Education

Transcript

  1. Постановки задачи • С overlap • C Automatic Speech Recognition

    • Online / offline • С видео • Single/multi channel • Мало шума: встречи / телефонные разговоры • Много шума: новостные репортажи 4 / 32
  2. Применения • Транскрипция встреч -> выделение тем • Conversational Interaction

    Analysis, Behavior modelling • Поиск по аудио данным • Распознавание голосовых команд 5 / 32
  3. Метрики для оценки качества диаризации • Для diarization + ASR:

    ◦ WDER = количество обрезаний слов ◦ sa-WER • Для online: latency 10 / 32
  4. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap CALLHOME 2001 Телефонные разговоры ASR + diarization + доп. информация Вручную 2-7 20ч Есть и без и с AMI 2006 Рабочие встречи дизайнеров ASR + diarization + доп. Информация + видео Transcription: вручную Diarization: автоматически 3-5 100ч есть ICSI 2003 Встречи в университете ASR + diarization + доп. информация Aвтоматически + проверка 3-10 72ч есть LibriCSS 2020 Записи из LibriSpeech записываются в комнате ASR + diarization По данным из LibriSpeech 8 10ч 0-40% 12 / 32
  5. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap Метрики VoxConverse 2020 Видео youtube, много шума Diarization + видео По видео + проверка 1-21 74ч 0-30% DER, JER + 0.25 collar Rich Transcription 2009 Встречи ASR + diarization + видео Вручную есть DER, JER +0.25 collar, latency CHiME-5 2020 Домашние разговоры ASR + diarization + доп. информация Вручную 4 50ч есть DER, JER DIHARD- 1,2,3 2018-2021 Много доменов: встречи, аудиокниги, youtube, ... Diarization + segmentation Вручную 1-8 24ч 10% DER, JER 13 / 32
  6. Speech Activity Detection • Из аудио извлекаются Mel-Frequency Cepstral Coefficients

    (MFCC) -> классификация • Gaussian Mixture Models, Hidden Markov Models • Очень важно для diarization 18 / 32
  7. • DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73

    • VoxConverse: ◦ uniform + Res2Net + AHC + DOVER, DER 6.23 JER 21.52 ◦ uniform + ResNet152 + AHC + VB-HMM DER 8.12 JER 18.35 Подходы к решению задачи диаризации 24 / 32
  8. Joint diarization: EEND • CALLHOME 10.76 DER+collar • c overlap,

    offline (но есть модификации) 25 / 32
  9. • C overlap, offline • Диалоги двух людей, DER 24.63

    (23 для x-vector+AHC) • sa-WER 40.03 как с oracle embeddings Joint diarization + ASR 29 / 32