Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ASR

 ASR

Machinelearner

November 05, 2020
Tweet

More Decks by Machinelearner

Other Decks in Education

Transcript

  1. Sound › Возникает в результате вибрации объекта › Вибрация вызывает

    колебания молекул воздуха › Изменения давления воздуха создают волну Как выделить ключевую мысль и сделать списки
  2. Analog to digital conversion › Sampling › Quantization Как выделить

    ключевую мысль и сделать списки
  3. Sampling Как выделить ключевую мысль и сделать списки › Человек

    воспринимает частоты в диапазоне 20Hz — 20kHz › 8 kHz / 16 kHz для телефонии
  4. Audio features Как выделить ключевую мысль и сделать списки ›

    Time-domain features › Frequency domain features › Time-frequency domain features
  5. Time-frequency domain features › Нарезаем сигнал на кусочки с перекрытием

    › Применяем преобразование Фурье к каждому кусочку › Делаем дополнительные преобразования частотной шкалы
  6. Time-frequency domain features › В результате сглаживания теряем информацию на

    концах › Поэтому нарезаем сигнал с перекрытием
  7. Logarithmic scale › Люди воспринимают частоты в логарифмической шкале ›

    Существуют различные преобразования частотной шкалы: Mel scale, Mel filter banks, Mel-frequency cepstrum, etc.
  8. Speech recognition problem Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Принимаем на вход аудио › Отдаем текст, который был произнесен
  9. Word Error Rate Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › S — число замен › D — число удалений › I — число вставок Также встречаются Character Error Rate, Sentence Error Rate
  10. Seq2seq speech recognition Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Принимаем последовательность «фреймов» › Отдаем последовательность символов/ слов/subword’ов
  11. Frame-level predictions Важно: если нужно вернуться на предыдущий способ выделения,

    нужно нажать на клавишу Меньший отступ › Можно делать предсказания для каждого «фрейма», избавившись от авторегрессии
  12. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Добавляем в словарь новый символ — «blank»
  13. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ
  14. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ › Динамическим программированием считаем вероятность всевозможных выравниваний текста на «фреймы» › Loss — это логарифм вероятности › Динамическим программированием считаем градиент › Ответ выбираем жадно, либо делаем beam search
  15. Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ

    выделения, нужно нажать на клавишу Меньший отступ
  16. Language models Важно: если нужно вернуться на предыдущий способ выделения,

    нужно нажать на клавишу Меньший отступ › Можно делать rescoring гипотез на последнем шаге beam search › Можно делать rescoring непосредственно во время декодирования (shallow fusion) › Deep fusion, cold fusion
  17. Why Transformers for ASR? Важно: если нужно вернуться на предыдущий

    способ выделения, нужно нажать на клавишу Меньший отступ › State of the art в различных language-based задачах › Естественная интеграция transformer-based языковых моделей
  18. Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать

    на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки
  19. Future research › Контекст для акустики и языковой модели ›

    Дообучение языковой модели совместно с основной моделью › Онлайн распознавание Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки