Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Построение голосового интерфейса мобильного при...

CEE-SECR
October 21, 2017

Построение голосового интерфейса мобильного приложения с использованием современных технологий в области распознавания речи, Сергей Карлов, Аурига

CEE-SECR 2017

В данном докладе будет рассказано о проекте по разработке мобильного приложения с голосовым интерфейсом, разработанным для медицинской отрасли. Данное приложение предназначено для интервьюирования пациентов посредством голосового озвучивания вопросов и распознавания его ответов в реальном времени.

В докладе будут представлены:

Основные принципы и подходы, существующие на рынке готовые компоненты для распознавания и синтеза человеческой речи,
Используемые грамматические модели для формирования диалога с человеком,
Основные принципы и модели данных при постронии сценария будущего диалога с абонентом.

CEE-SECR

October 21, 2017
Tweet

More Decks by CEE-SECR

Other Decks in Technology

Transcript

  1. 2 Почему голосовой интерфейс  Быстрый ввод данных  Диалог

    в режиме беседы  Естественно для мобильных устройств  Альтернатива для людей с ограниченными возможностями
  2. 3 Синтез и распознавание  Речь – цифровой сигнал (аудио-поток)

    фонемы Этапы: Фильтрация Нормализация Выделение фрагментов (фонемы) Что под «капотом» ?
  3. 5 Распознанные Ответы Возможные решения Вариант «закрытые грамматики» Распознаватель Ожидаемые

    ответы Аудио-поток Вероятности распознавания ДА НЕТ НЕ ЗНАЮ ДА – 90% НЕТ - 10% НЕ ЗНАЮ - 0%
  4. 9 Yandex Speech Kit («открытые грамматики»)  Легко встраивается в

    мобильные приложения  Online и Offline версии  Поддерживает несколько языков  Стандартные языковые модели  Выбор голоса для синтеза речи  Понятная документация по компонентам библиотеки
  5. 11 Решения по модели «Закрытые грамматики» Протокол VXML (Voice eXtensible

    Markup Language) Протокол MRCP Осталось «за кадром»: