Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Обзор сервисов по работе с голосом в мире Android и за его пределами

Обзор сервисов по работе с голосом в мире Android и за его пределами

Andrei Dotsenko

August 03, 2019
Tweet

More Decks by Andrei Dotsenko

Other Decks in Programming

Transcript

  1. История развития SpeechR ecognizer TextToSpeech G oogle N ow A

    P I.A I / A lw aysO nH otw ordD etection Voice A ctions / Voice Interaction A P I G oogle A ssistant 2009 2012 2019 2010 2011 2015 TF Lite / N N A P I M L K it Android No API Google © elainedbatista
  2. Speech Recognizer Android • Подходит только для кратких запросов •

    Проблемы на китайских девайсах • Часть настроек не работают • Системный звук до и после распознавания • Нет поддержки Hotword • Простой API • Отсутствие внешних зависимостей • Большой набор языков • Бесплатный • Низкий WER https://developer.android.com/reference/android/speech /SpeechRecognizer
  3. PocketSphinx • Ограниченный словарь • Сложный API • Высокий WER

    • Прибавляет к весу APK • Open source • Множество настроек • Возможность использования своего “словаря” • Поддержка hot word • Скорость работы • 100% Offline • Бесплатный https://cmusphinx.github.io/wiki/tutorialandroid/
  4. Yandex SpeechKit • Только 4 языка • Нет offline •

    Прибавляет к весу APK • Платный • Terms of use • Russian-first • Простой, но богатый API • Hot word • Удобный доступ к биометрии из коробки https://github.com/yandexmobile/yandex-speechkit-android
  5. Speech recognition • Google Speech-to-Text • Microsoft Azure Speech to

    Text • Others (Yandex, Amazon, IBM Watson, Temi … )
  6. Выводы: • У локального распознавания речи много ограничений • При

    выборе инструмента надо смотреть на WER • Для длительного распознавания больше подходят облачные решения • Для нетривиальных задач можно использовать TensorFlow • Можно получать диплинки от Google Assistant