Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Speaker diarization

Speaker diarization

3a24041415787fd7db8ec8024b4acce4?s=128

Machinelearner

April 07, 2021
Tweet

Transcript

  1. Обзор подходов к задаче диаризации Студент: Екатерина Фадеева Руководители: Василий

    Ершов, Игорь Куралёнок
  2. • Постановки задачи • Метрики • Датасеты • Решения •

    Diarization + ASR
  3. Что такое диаризация? Хотим по аудиозаписи разговора разметить, в какой

    момент времени кто говорит. 3 / 32
  4. Постановки задачи • С overlap • C Automatic Speech Recognition

    • Online / offline • С видео • Single/multi channel • Мало шума: встречи / телефонные разговоры • Много шума: новостные репортажи 4 / 32
  5. Применения • Транскрипция встреч -> выделение тем • Conversational Interaction

    Analysis, Behavior modelling • Поиск по аудио данным • Распознавание голосовых команд 5 / 32
  6. Метрики для оценки качества диаризации

  7. Метрики для оценки качества диаризации 7 / 32

  8. Метрики для оценки качества диаризации DER + 0.25s collar 8

    / 32
  9. Метрики для оценки качества диаризации • • JER + 0.25s

    collar 9 / 32
  10. Метрики для оценки качества диаризации • Для diarization + ASR:

    ◦ WDER = количество обрезаний слов ◦ sa-WER • Для online: latency 10 / 32
  11. Открытые данные для экспериментов

  12. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap CALLHOME 2001 Телефонные разговоры ASR + diarization + доп. информация Вручную 2-7 20ч Есть и без и с AMI 2006 Рабочие встречи дизайнеров ASR + diarization + доп. Информация + видео Transcription: вручную Diarization: автоматически 3-5 100ч есть ICSI 2003 Встречи в университете ASR + diarization + доп. информация Aвтоматически + проверка 3-10 72ч есть LibriCSS 2020 Записи из LibriSpeech записываются в комнате ASR + diarization По данным из LibriSpeech 8 10ч 0-40% 12 / 32
  13. Открытые данные для экспериментов Датасет Содержание Как размечали Кол-во спикеров

    Объем overlap Метрики VoxConverse 2020 Видео youtube, много шума Diarization + видео По видео + проверка 1-21 74ч 0-30% DER, JER + 0.25 collar Rich Transcription 2009 Встречи ASR + diarization + видео Вручную есть DER, JER +0.25 collar, latency CHiME-5 2020 Домашние разговоры ASR + diarization + доп. информация Вручную 4 50ч есть DER, JER DIHARD- 1,2,3 2018-2021 Много доменов: встречи, аудиокниги, youtube, ... Diarization + segmentation Вручную 1-8 24ч 10% DER, JER 13 / 32
  14. Подходы к решению задачи

  15. Подходы к решению задачи диаризации 15 / 32

  16. Подходы к решению задачи диаризации 16 / 32

  17. Front-End Processing • Denoising: LSTM • Dereverberation: Weighted Prediction Error

    (WPE) 17 / 32
  18. Speech Activity Detection • Из аудио извлекаются Mel-Frequency Cepstral Coefficients

    (MFCC) -> классификация • Gaussian Mixture Models, Hidden Markov Models • Очень важно для diarization 18 / 32
  19. Segmentation • BIC • Uniform segmentation 19 / 32

  20. Speaker Embedding • i-vector • d-vector • x-vector 20 /

    32
  21. Clustering • PLDA • Agglomerative Hierarchical Clustering 21 / 32

  22. Post-Processing • VB-HMM 22 / 32

  23. • DIHARD-1: uniform + x-vector + PLDA, AHC: DER 23.73

    • VoxConverse: ◦ uniform + Res2Net + AHC + DOVER, DER 6.23 JER 21.52 ◦ uniform + ResNet152 + AHC + VB-HMM DER 8.12 JER 18.35 Подходы к решению задачи диаризации 24 / 32
  24. Совмещение результатов диаризации • DOVER: без overlap • DOVER-Lap -

    с overlap 23 / 32
  25. Joint diarization: EEND • CALLHOME 10.76 DER+collar • c overlap,

    offline (но есть модификации) 25 / 32
  26. Diarization + ASR

  27. Joint diarization + ASR Integration of lexical information and acoustic

    information 27 / 32
  28. • Без overlap, online Joint diarization + ASR 28 /

    32
  29. • C overlap, offline • Диалоги двух людей, DER 24.63

    (23 для x-vector+AHC) • sa-WER 40.03 как с oracle embeddings Joint diarization + ASR 29 / 32
  30. • C overlap, online • LibriSpeech: sa-WER 15.6 Joint diarization

    + ASR: E2E SA-ASR 30 / 32
  31. Заключение • Синтетические данные • Два decoder 31 / 32

  32. Ссылки • A Review of Speaker Diarization: Recent Advances with

    Deep Learning 32 / 32