ASR

Automatic speech recognition

Sound › Возникает в результате вибрации объекта › Вибрация вызывает
колебания молекул воздуха › Изменения давления воздуха создают волну Как выделить ключевую мысль и сделать списки

Analog to digital conversion › Sampling › Quantization Как выделить
ключевую мысль и сделать списки

Sampling Как выделить ключевую мысль и сделать списки › Человек
воспринимает частоты в диапазоне 20Hz — 20kHz › 8 kHz / 16 kHz для телефонии

Quantization Как выделить ключевую мысль и сделать списки › Обычно
используют 16 бит

Audio features Как выделить ключевую мысль и сделать списки ›
Time-domain features › Frequency domain features › Time-frequency domain features

Time-frequency domain features › Нарезаем сигнал на кусочки с перекрытием
› Применяем преобразование Фурье к каждому кусочку › Делаем дополнительные преобразования частотной шкалы

Time-frequency domain features › Разрывы на концах сигнала создают шум

Time-frequency domain features › Используют сглаживание сигнала оконными функциями (Hann
window, например)

Time-frequency domain features › В результате сглаживания теряем информацию на
концах › Поэтому нарезаем сигнал с перекрытием

Spectrogram

Logarithmic scale › Люди воспринимают частоты в логарифмической шкале ›
Существуют различные преобразования частотной шкалы: Mel scale, Mel filter banks, Mel-frequency cepstrum, etc.

Speech recognition problem Важно: если нужно вернуться на предыдущий способ
выделения, нужно нажать на клавишу Меньший отступ › Принимаем на вход аудио › Отдаем текст, который был произнесен

Word Error Rate Важно: если нужно вернуться на предыдущий способ
выделения, нужно нажать на клавишу Меньший отступ › S — число замен › D — число удалений › I — число вставок Также встречаются Character Error Rate, Sentence Error Rate

Seq2seq speech recognition Важно: если нужно вернуться на предыдущий способ
выделения, нужно нажать на клавишу Меньший отступ › Принимаем последовательность «фреймов» › Отдаем последовательность символов/ слов/subword’ов

Frame-level predictions Важно: если нужно вернуться на предыдущий способ выделения,
нужно нажать на клавишу Меньший отступ › Можно делать предсказания для каждого «фрейма», избавившись от авторегрессии

Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ
выделения, нужно нажать на клавишу Меньший отступ › Добавляем в словарь новый символ — «blank»

выделения, нужно нажать на клавишу Меньший отступ

выделения, нужно нажать на клавишу Меньший отступ › Динамическим программированием считаем вероятность всевозможных выравниваний текста на «фреймы» › Loss — это логарифм вероятности › Динамическим программированием считаем градиент › Ответ выбираем жадно, либо делаем beam search

выделения, нужно нажать на клавишу Меньший отступ

Language models Важно: если нужно вернуться на предыдущий способ выделения,
нужно нажать на клавишу Меньший отступ › Можно делать rescoring гипотез на последнем шаге beam search › Можно делать rescoring непосредственно во время декодирования (shallow fusion) › Deep fusion, cold fusion

Transformers

Why Transformers for ASR? Важно: если нужно вернуться на предыдущий
способ выделения, нужно нажать на клавишу Меньший отступ › State of the art в различных language-based задачах › Естественная интеграция transformer-based языковых моделей

Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать
на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки

Baseline

Remove convolutions

Frame stacking

Frame stacking with time signal

Final architecture

LM integration

Future research › Контекст для акустики и языковой модели ›
Дообучение языковой модели совместно с основной моделью › Онлайн распознавание Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки

ASR

ASR

More Decks by Machinelearner

Other Decks in Education

Featured

Transcript