Slide 1

Slide 1 text

Automatic speech recognition

Slide 2

Slide 2 text

Sound › Возникает в результате вибрации объекта › Вибрация вызывает колебания молекул воздуха › Изменения давления воздуха создают волну Как выделить ключевую мысль и сделать списки

Slide 3

Slide 3 text

Analog to digital conversion › Sampling › Quantization Как выделить ключевую мысль и сделать списки

Slide 4

Slide 4 text

Sampling Как выделить ключевую мысль и сделать списки › Человек воспринимает частоты в диапазоне 20Hz — 20kHz › 8 kHz / 16 kHz для телефонии

Slide 5

Slide 5 text

Quantization Как выделить ключевую мысль и сделать списки › Обычно используют 16 бит

Slide 6

Slide 6 text

Audio features Как выделить ключевую мысль и сделать списки › Time-domain features › Frequency domain features › Time-frequency domain features

Slide 7

Slide 7 text

Time-frequency domain features › Нарезаем сигнал на кусочки с перекрытием › Применяем преобразование Фурье к каждому кусочку › Делаем дополнительные преобразования частотной шкалы

Slide 8

Slide 8 text

Time-frequency domain features › Разрывы на концах сигнала создают шум

Slide 9

Slide 9 text

Time-frequency domain features › Используют сглаживание сигнала оконными функциями (Hann window, например)

Slide 10

Slide 10 text

Time-frequency domain features › В результате сглаживания теряем информацию на концах › Поэтому нарезаем сигнал с перекрытием

Slide 11

Slide 11 text

Spectrogram

Slide 12

Slide 12 text

Logarithmic scale › Люди воспринимают частоты в логарифмической шкале › Существуют различные преобразования частотной шкалы: Mel scale, Mel filter banks, Mel-frequency cepstrum, etc.

Slide 13

Slide 13 text

Speech recognition problem Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Принимаем на вход аудио › Отдаем текст, который был произнесен

Slide 14

Slide 14 text

Word Error Rate Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › S — число замен › D — число удалений › I — число вставок Также встречаются Character Error Rate, Sentence Error Rate

Slide 15

Slide 15 text

Seq2seq speech recognition Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Принимаем последовательность «фреймов» › Отдаем последовательность символов/ слов/subword’ов

Slide 16

Slide 16 text

Frame-level predictions Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Можно делать предсказания для каждого «фрейма», избавившись от авторегрессии

Slide 17

Slide 17 text

Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Добавляем в словарь новый символ — «blank»

Slide 18

Slide 18 text

Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ

Slide 19

Slide 19 text

Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Динамическим программированием считаем вероятность всевозможных выравниваний текста на «фреймы» › Loss — это логарифм вероятности › Динамическим программированием считаем градиент › Ответ выбираем жадно, либо делаем beam search

Slide 20

Slide 20 text

Connectionist Temporal Classification Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ

Slide 21

Slide 21 text

Language models Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › Можно делать rescoring гипотез на последнем шаге beam search › Можно делать rescoring непосредственно во время декодирования (shallow fusion) › Deep fusion, cold fusion

Slide 22

Slide 22 text

Transformers

Slide 23

Slide 23 text

Transformers

Slide 24

Slide 24 text

Transformers

Slide 25

Slide 25 text

Why Transformers for ASR? Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ › State of the art в различных language-based задачах › Естественная интеграция transformer-based языковых моделей

Slide 26

Slide 26 text

Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки

Slide 27

Slide 27 text

Baseline

Slide 28

Slide 28 text

Remove convolutions

Slide 29

Slide 29 text

Frame stacking

Slide 30

Slide 30 text

Frame stacking with time signal

Slide 31

Slide 31 text

Final architecture

Slide 32

Slide 32 text

LM integration

Slide 33

Slide 33 text

LM integration

Slide 34

Slide 34 text

Future research › Контекст для акустики и языковой модели › Дообучение языковой модели совместно с основной моделью › Онлайн распознавание Важно: если нужно вернуться на предыдущий способ выделения, нужно нажать на клавишу Меньший отступ Как выделить ключевую мысль и сделать списки