Построение голосового интерфейса мобильного приложения с использованием современных технологий в области распознавания речи, Сергей Карлов, Аурига

Построение голосового интерфейса мобильного приложения Докладчики: Карлов Сергей, «Аурига» Соколов
Дмитрий, «Аурига»

2 Почему голосовой интерфейс  Быстрый ввод данных  Диалог
в режиме беседы  Естественно для мобильных устройств  Альтернатива для людей с ограниченными возможностями

3 Синтез и распознавание  Речь – цифровой сигнал (аудио-поток)
фонемы Этапы: Фильтрация Нормализация Выделение фрагментов (фонемы) Что под «капотом» ?

4 Возможные решения Вариант «открытые грамматики» Распознаватель Аудио- поток Текстовое
предложение (набор слов)

5 Распознанные Ответы Возможные решения Вариант «закрытые грамматики» Распознаватель Ожидаемые
ответы Аудио-поток Вероятности распознавания ДА НЕТ НЕ ЗНАЮ ДА – 90% НЕТ - 10% НЕ ЗНАЮ - 0%

6 Применение голосовых технологий в медицине Анкетирование пациентов Предварительные рекомендации

7 Модель данных для диалога Мед. анкета Сценарий

8 Модель данных для диалога  NoSql  Json 
J2V8

9 Yandex Speech Kit («открытые грамматики»)  Легко встраивается в
мобильные приложения  Online и Offline версии  Поддерживает несколько языков  Стандартные языковые модели  Выбор голоса для синтеза речи  Понятная документация по компонентам библиотеки

10 Yandex Speech Kit Yandex Speech Kit Компоненты

11 Решения по модели «Закрытые грамматики» Протокол VXML (Voice eXtensible
Markup Language) Протокол MRCP Осталось «за кадром»:

Построение голосового интерфейса мобильного при...

Построение голосового интерфейса мобильного приложения с использованием современных технологий в области распознавания речи, Сергей Карлов, Аурига

CEE-SECR

More Decks by CEE-SECR

Other Decks in Technology

Featured

Transcript

Построение голосового интерфейса мобильного приложения Докладчики: Карлов Сергей, «Аурига» Соколов

2 Почему голосовой интерфейс  Быстрый ввод данных  Диалог

3 Синтез и распознавание  Речь – цифровой сигнал (аудио-поток)

4 Возможные решения Вариант «открытые грамматики» Распознаватель Аудио- поток Текстовое

5 Распознанные Ответы Возможные решения Вариант «закрытые грамматики» Распознаватель Ожидаемые

6 Применение голосовых технологий в медицине Анкетирование пациентов Предварительные рекомендации

7 Модель данных для диалога Мед. анкета Сценарий

8 Модель данных для диалога  NoSql  Json 

9 Yandex Speech Kit («открытые грамматики»)  Легко встраивается в

10 Yandex Speech Kit Yandex Speech Kit Компоненты

11 Решения по модели «Закрытые грамматики» Протокол VXML (Voice eXtensible