Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CodeFest 2019. Николай Шмырев (АЦ Технологии) — Новое поколение систем распознавания речи

16b6c87229eaf58768d25ed7b2bbbf52?s=47 CodeFest
April 05, 2019

CodeFest 2019. Николай Шмырев (АЦ Технологии) — Новое поколение систем распознавания речи

В последние годы распознавание и синтез речи у всех на слуху. Многие пользуются голосовым вводом в телефоне и часто сталкиваются с некорректными результатами, берущими начало в применённой технологии и алгоритмах. Многие компании заявляют о создании своих движков с самыми замечательными характеристиками. В этой ситуации разработчикам тяжело выбрать правильную технологию, оценить возможность и трудоёмкость реализации распознавания в собственных приложениях.

В докладе я расскажу о том, как легко определить поколение системы распознавания речи, как оценить усилия по самостоятельной разработке речевого модуля и как работает система распознавания нового поколения.

16b6c87229eaf58768d25ed7b2bbbf52?s=128

CodeFest

April 05, 2019
Tweet

Transcript

  1. ÍÎÂÎÅ ÏÎÊÎËÅÍÈÅ ÑÈÑÒÅÌ ÐÀÑÏÎÇÍÀÂÀÍÈß ÐÅ×È Øìûð¼â Í.Â., Ïðèáûëü Ì.À. ÀÖ

    Òåõíîëîãèè 1 / 24
  2. ÀÖ Òåõíîëîãèè ˆ 2003 - ðóññêèé ãîëîñ äëÿ Festival ˆ

    2009 - ðóññêèå ìîäåëè äëÿ CMUSphinx, Voxforge ˆ 2011-2013 - CMUSphinx íà Android ˆ 2015-2019 - Kaldi, ìîäåëè äëÿ ðóññêîãî â Kaldi 2 / 24
  3. Íàì åñòü, êóäà ñòðåìèòüñÿ ˆ Ñïðîñèòå ó Ãóãëà/ßíäåêñà ïðî òðîïèãàáìà

    ˆ Õîäèòå âî âðåìÿ äèêòîâêè ˆ Ïåðåáèâàéòå äðóã äðóãà ˆ Âñòàâëÿéòå êèòàéñêèå ñëîâà â ðàçãîâîð ˆ Êðè÷èòå ˆ Âêëþ÷èòå ìóçûêó íà çàäíåì ôîíå 3 / 24
  4. Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì ˆ Ëó÷øàÿ òî÷íîñòü/ñêîðîñòü òðåíèðîâêè ˆ

    òðåíèðîâêà íà ãðÿçíûõ äàííûõ ˆ Äåêîäèðîâàíèå íà GPU ˆ Õîðîøàÿ ïîääåðæêà ˆ Âîñïðîèçâîäèìûå ïðèìåðû 4 / 24
  5. Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Ðåöåïò äëÿ ¾ñâîåé¿ ñèñòåìû: ˆ

    Ñêà÷àòü Kaldi ˆ Ñêà÷àòü ~ 2000 ÷àñîâ ðå÷è ˆ Íàòðåíèðîâàòü ˆ Çàïóñòèòü íà ñåðâåðå 5 / 24
  6. Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Facebook wav2letter, Mozilla Deep Speech,

    CTC Decode ˆ Õîðîøàÿ òî÷íîñòü íà 10 òûñÿ÷àõ ÷àñîâ äàííûõ ˆ Íà 1000 ÷àñîâ òî÷íîñòü â äâà ðàçà ìåíüøå Kaldi ˆ Âðåìÿ òðåíèðîâêè  íåñêîëüêî íåäåëü íà 4 GPU ˆ Íåò ìåðû óâåðåííîñòè, âàðèàíòîâ äåêîäèðîâàíèÿ ˆ Âðåìåííûå ìåòêè äîáàâèëè 03/2019 ˆ Ìíîãî ðåêëàìû 6 / 24
  7. Ñèíòåç ðå÷è ñ îòêðûòûì èñõîäíûì êîäîì Nvidia Tacotron2 + Waveglow

    https://github.com/NVIDIA/waveglow ˆ Òðåíèðóåòñÿ 2 íåäåëè íà 2 x RTX2080 ˆ Êà÷åñòâî òàê ñåáå ˆ Íååñòåñòâåííàÿ èíòîíàöèÿ ðå÷è 7 / 24
  8. Òåêóùåå ïîëîæåíèå äåë ˆ Îãðîìíûå îáú¼ìû äàííûõ ˆ Ñëîæíûå àðõèòåêòóðû

    ˆ Äîëãèå è èçíóðèòåëüíûå òðåíèðîâêè ˆ Ìåãàêîðïîðàöèè 8 / 24
  9. Ðàñïîçíàâàíèå ðå÷è îò Ãóãëà Âûñòóïëåíèå íà ISCSLP2018 ˆ RNN-T Transducer

    ˆ 27000 ÷àñîâ ðå÷è c ïîâòîðàìè äëÿ èñêàæåíèé è 500000 ôàìèëèé ~ 200000 ÷àñî⠈ 64 TPU ˆ Ñëîâàðü èç êóñêîâ ñëî⠈ Ìîäåëü äëÿ ìîáèëüíèêîâ 100 Ìá 9 / 24
  10. Ìîäåëü BERT îò Ãóãëà BERT: Pre-training of Deep Bidirectional Transformers

    for Language Understanding https://github.com/google-research/bert ˆ 16 TPUs (64 TPU ÷èïîâ) ˆ 4 äíÿ íà îäíó òðåíèðîâêó (íóæíî ~ 50 ïîïûòîê) ˆ ~ 10Gb òåêñòà 10 / 24
  11. Ìîäåëü XLM îò Ôåéñáóêà Cross-lingual Language Model Pretraining https://github.com/facebookresearch/XLM ˆ

    64 Volta GPU ˆ Òðåíèðóåòñÿ íåäåëþ 11 / 24
  12. Ñèíòåç ðå÷è îò Àìàçîíà Robust Universal Neural Vocoding https://arxiv.org/pdf/1811.06292.pdf ˆ

    Îòëè÷íîå êà÷åñòâî ˆ 17 ÿçûêîâ ñðàçó ˆ 74 äèêòîðà ˆ 140 ÷àñîâ çàïèñåé ˆ ~ 20 GPU, ÷òîáû 1 èòåðàöèÿ çàíèìàëà íåäåëþ 12 / 24
  13. Äàííûå äëÿ ðàñïîçíàâàíèÿ ðå÷è ˆ Ñðåäíèé òåëåêîì ñîçäà¼ò 10000 ÷àñîâ

    äàííûõ â äåíü ˆ Ïîëüçîâàòåëè àññèñòåíòîâ  2 ìëí çàïðîñîâ â äåíü (2000 ÷àñîâ) ˆ Òåëåâèäåíèå  100 ÷àñîâ â äåíü, 3000 â ìåñÿö ˆ Youtube  1 ìèëëèîí ÷àñîâ ðå÷è 13 / 24
  14. ×åëîâå÷åñêèå êà÷åñòâà AI ˆ Îáó÷åíèå íà ãðÿçíûõ è íåðàçìå÷åííûõ äàííûõ

    ˆ Îáó÷åíèå íà íåñêîëüêèõ ïðèìåðàõ ˆ Íåïðåðûâíîå îáó÷åíèå ˆ Óñòîé÷èâîå ïðèíÿòèå ðåøåíèé ˆ Ïîíÿòíîå ïðèíÿòèå ðåøåíèé ˆ Ïðèìåíåíèå æèçíåííîãî îïûòû ˆ Ïåðåíîñ çíàíèé ìåæäó ïîõîæèìè ñèòóàöèÿìè (ÿçûêàìè, ñòèëÿìè) 14 / 24
  15. Çíàíèå åñòü çàïîìèíàíèå Understanding deep learning requires rethinking generalization (2017)

    https://arxiv.org/abs/1611.03530 Íåéðîñåòè çàïîìèíàþò ñëó÷àéíûå âõîäû 15 / 24
  16. Ìîäåëü ÿçûêà ñ ïðîñòûì ñãëàæèâàíèåì Large Language Models in Machine

    Translation (2007) https://www.aclweb.org/anthology/D07-1090.pdf ˆ Íå èñïîëüçóåòñÿ ñãëàæèâàíèå äëÿ íåçíàêîìûõ n-ãðàì ˆ 1.8 Òá äàííûõ èç ñåòè ˆ BLEU 0.44 ïðîòèâ 0.43 äëÿ ìîäåëè ñî ñãëàæèâàíèåì ˆ Îãðîìíûé ðàçìåð ìîäåëè 16 / 24
  17. VOSK ˆ Áàçà ðå÷è 100000 ÷àñî⠈ Ìíîãî ÿçûêî⠈

    Áûñòðûé ïîèñê ñ ïîìîùüþ óìíîãî õýøèðîâàíè ˆ Áûñòðîå äîáàâëåíèå íîâûõ ïðèìåðî⠈ Áûñòðàÿ äèàãíîñòèêà ðåçóëüòàòîâ 17 / 24
  18. VOSK 18 / 24

  19. Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 19 / 24

  20. Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 20 / 24

  21. Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 1. Ñïåêòðàëüíîå ïðåäñòàâëåíèå 2. Âåéâëåò-ïðåîáðàçîâàíèå, ãëàâíûå êîìïîíåíòû 3.

    Áèíàðèçàöèÿ 4. Minhash 21 / 24
  22. Óñïåõè http://github.com/alphacep/vosk ˆ Áûñòðûé èíäåêñ áîëåå 1000 ÷àñîâ ðå÷è ˆ

    Äî 50% ñåãìåíòîâ óñïåøíî âåðèôèöèðóþòñÿ ˆ Ìãíîâåííûé ïîèñê è ìîäèôèêàöèÿ áàçû 22 / 24
  23. Äàëüíåéøèå ïëàíû http://github.com/alphacep/vosk ˆ Ñåãìåíòàöèÿ áåç Kaldi ˆ Ðàñïðåäåë¼ííàÿ áàçà

    äàííûõ ˆ Äåêîäèðîâàíèå íà ìîáèëüíûõ ˆ Äåêîäèðîâàíèå íàëîæåííûõ ñèãíàëî⠈ Òåðàáàéòíûå êîìïüþòåðû äëÿ èñêóññòâåííîãî èíòåëëåêòà 23 / 24
  24. Êîíòàêòû Github: https://github.com/alphacep/vosk Telegram: https://t.me/cmusphinx Email: nshmyrev@gmail.com 24 / 24