Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Построение голосового интерфейса мобильного приложения с использованием современных технологий в области распознавания речи, Сергей Карлов, Аурига

F74d4292cc3b7b79920fcca339e02a21?s=47 CEE-SECR
October 21, 2017

Построение голосового интерфейса мобильного приложения с использованием современных технологий в области распознавания речи, Сергей Карлов, Аурига

CEE-SECR 2017

В данном докладе будет рассказано о проекте по разработке мобильного приложения с голосовым интерфейсом, разработанным для медицинской отрасли. Данное приложение предназначено для интервьюирования пациентов посредством голосового озвучивания вопросов и распознавания его ответов в реальном времени.

В докладе будут представлены:

Основные принципы и подходы, существующие на рынке готовые компоненты для распознавания и синтеза человеческой речи,
Используемые грамматические модели для формирования диалога с человеком,
Основные принципы и модели данных при постронии сценария будущего диалога с абонентом.

F74d4292cc3b7b79920fcca339e02a21?s=128

CEE-SECR

October 21, 2017
Tweet

More Decks by CEE-SECR

Other Decks in Technology

Transcript

  1. Построение голосового интерфейса мобильного приложения Докладчики: Карлов Сергей, «Аурига» Соколов

    Дмитрий, «Аурига»
  2. 2 Почему голосовой интерфейс  Быстрый ввод данных  Диалог

    в режиме беседы  Естественно для мобильных устройств  Альтернатива для людей с ограниченными возможностями
  3. 3 Синтез и распознавание  Речь – цифровой сигнал (аудио-поток)

    фонемы Этапы: Фильтрация Нормализация Выделение фрагментов (фонемы) Что под «капотом» ?
  4. 4 Возможные решения Вариант «открытые грамматики» Распознаватель Аудио- поток Текстовое

    предложение (набор слов)
  5. 5 Распознанные Ответы Возможные решения Вариант «закрытые грамматики» Распознаватель Ожидаемые

    ответы Аудио-поток Вероятности распознавания ДА НЕТ НЕ ЗНАЮ ДА – 90% НЕТ - 10% НЕ ЗНАЮ - 0%
  6. 6 Применение голосовых технологий в медицине Анкетирование пациентов Предварительные рекомендации

  7. 7 Модель данных для диалога Мед. анкета Сценарий

  8. 8 Модель данных для диалога  NoSql  Json 

    J2V8
  9. 9 Yandex Speech Kit («открытые грамматики»)  Легко встраивается в

    мобильные приложения  Online и Offline версии  Поддерживает несколько языков  Стандартные языковые модели  Выбор голоса для синтеза речи  Понятная документация по компонентам библиотеки
  10. 10 Yandex Speech Kit Yandex Speech Kit Компоненты

  11. 11 Решения по модели «Закрытые грамматики» Протокол VXML (Voice eXtensible

    Markup Language) Протокол MRCP Осталось «за кадром»: