Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ASR

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 ASR

Avatar for Machinelearner

Machinelearner

November 05, 2020
Tweet

More Decks by Machinelearner

Other Decks in Education

Transcript

  1. Sound › Возникает в результате вибрации объекта › Вибрация вызывает

    колебания молекул воздуха › Изменения давления воздуха создают волну Как выделить ключевую мысль и сделать списки
  2. Analog to digital conversion › Sampling › Quantization Как выделить

    ключевую мысль и сделать списки
  3. Sampling Как выделить ключевую мысль и сделать списки › Человек

    воспринимает частоты в диапазоне 20Hz — 20kHz › 8 kHz / 16 kHz для телефонии
  4. Audio features Как выделить ключевую мысль и сделать списки ›

    Time-domain features › Frequency domain features › Time-frequency domain features
  5. Time-frequency domain features › Нарезаем сигнал на кусочки с перекрытием

    › Применяем преобразование Фурье к каждому кусочку › Делаем дополнительные преобразования частотной шкалы
  6. Time-frequency domain features › В результате сглаживания теряем информацию на

    концах › Поэтому нарезаем сигнал с перекрытием
  7. Logarithmic scale › Люди воспринимают частоты в логарифмической шкале ›

    Существуют различные преобразования частотной шкалы: Mel scale, Mel filter banks, Mel-frequency cepstrum, etc.
  8. Speech recognition problem Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Принимаем на вход аудио › Отдаем текст, который был произнесен
  9. Word Error Rate Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › S — число замен › D — число удалений › I — число вставок Также встречаются Character Error Rate, Sentence Error Rate
  10. Seq2seq speech recognition Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Принимаем последовательность «фреймов» › Отдаем последовательность символов/ слов/subword’ов
  11. Frame-level predictions Важно: если нужно вернуться на предыдущий способ выделения,

    нужно нажать на клавишу Меньший отступ › Можно делать предсказания для каждого «фрейма», избавившись от авторегрессии
  12. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Добавляем в словарь новый символ — «blank»
  13. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ
  14. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Динамическим программированием считаем вероятность всевозможных выравниваний текста на «фреймы» › Loss — это логарифм вероятности › Динамическим программированием считаем градиент › Ответ выбираем жадно, либо делаем beam search
  15. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ
  16. Language models Важно: если нужно вернуться на предыдущий способ выделения,

    нужно нажать на клавишу Меньший отступ › Можно делать rescoring гипотез на последнем шаге beam search › Можно делать rescoring непосредственно во время декодирования (shallow fusion) › Deep fusion, cold fusion
  17. Why Transformers for ASR? Важно: если нужно вернуться на предыдущий

    способ выделения, нужно нажать на клавишу Меньший отступ › State of the art в различных language-based задачах › Естественная интеграция transformer-based языковых моделей
  18. Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать

    на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки
  19. Future research › Контекст для акустики и языковой модели ›

    Дообучение языковой модели совместно с основной моделью › Онлайн распознавание Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки