CodeFest 2019. Николай Шмырев (АЦ Технологии) — Новое поколение систем распознавания речи

ÍÎÂÎÅ ÏÎÊÎËÅÍÈÅ ÑÈÑÒÅÌ ÐÀÑÏÎÇÍÀÂÀÍÈß ÐÅ×È Øìûð¼â Í.Â., Ïðèáûëü Ì.À. ÀÖ
Òåõíîëîãèè 1 / 24

ÀÖ Òåõíîëîãèè 2003 - ðóññêèé ãîëîñ äëÿ Festival
2009 - ðóññêèå ìîäåëè äëÿ CMUSphinx, Voxforge 2011-2013 - CMUSphinx íà Android 2015-2019 - Kaldi, ìîäåëè äëÿ ðóññêîãî â Kaldi 2 / 24

Íàì åñòü, êóäà ñòðåìèòüñÿ Ñïðîñèòå ó Ãóãëà/ßíäåêñà ïðî òðîïèãàáìà
Õîäèòå âî âðåìÿ äèêòîâêè Ïåðåáèâàéòå äðóã äðóãà Âñòàâëÿéòå êèòàéñêèå ñëîâà â ðàçãîâîð Êðè÷èòå Âêëþ÷èòå ìóçûêó íà çàäíåì ôîíå 3 / 24

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Ëó÷øàÿ òî÷íîñòü/ñêîðîñòü òðåíèðîâêè
òðåíèðîâêà íà ãðÿçíûõ äàííûõ Äåêîäèðîâàíèå íà GPU Õîðîøàÿ ïîääåðæêà Âîñïðîèçâîäèìûå ïðèìåðû 4 / 24

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Ðåöåïò äëÿ ¾ñâîåé¿ ñèñòåìû:
Ñêà÷àòü Kaldi Ñêà÷àòü ~ 2000 ÷àñîâ ðå÷è Íàòðåíèðîâàòü Çàïóñòèòü íà ñåðâåðå 5 / 24

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Facebook wav2letter, Mozilla Deep Speech,
CTC Decode Õîðîøàÿ òî÷íîñòü íà 10 òûñÿ÷àõ ÷àñîâ äàííûõ Íà 1000 ÷àñîâ òî÷íîñòü â äâà ðàçà ìåíüøå Kaldi Âðåìÿ òðåíèðîâêè íåñêîëüêî íåäåëü íà 4 GPU Íåò ìåðû óâåðåííîñòè, âàðèàíòîâ äåêîäèðîâàíèÿ Âðåìåííûå ìåòêè äîáàâèëè 03/2019 Ìíîãî ðåêëàìû 6 / 24

Ñèíòåç ðå÷è ñ îòêðûòûì èñõîäíûì êîäîì Nvidia Tacotron2 + Waveglow
https://github.com/NVIDIA/waveglow Òðåíèðóåòñÿ 2 íåäåëè íà 2 x RTX2080 Êà÷åñòâî òàê ñåáå Íååñòåñòâåííàÿ èíòîíàöèÿ ðå÷è 7 / 24

Òåêóùåå ïîëîæåíèå äåë Îãðîìíûå îáú¼ìû äàííûõ Ñëîæíûå àðõèòåêòóðû
Äîëãèå è èçíóðèòåëüíûå òðåíèðîâêè Ìåãàêîðïîðàöèè 8 / 24

Ðàñïîçíàâàíèå ðå÷è îò Ãóãëà Âûñòóïëåíèå íà ISCSLP2018 RNN-T Transducer
27000 ÷àñîâ ðå÷è c ïîâòîðàìè äëÿ èñêàæåíèé è 500000 ôàìèëèé ~ 200000 ÷àñîâ 64 TPU Ñëîâàðü èç êóñêîâ ñëîâ Ìîäåëü äëÿ ìîáèëüíèêîâ 100 Ìá 9 / 24

Ìîäåëü BERT îò Ãóãëà BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding https://github.com/google-research/bert 16 TPUs (64 TPU ÷èïîâ) 4 äíÿ íà îäíó òðåíèðîâêó (íóæíî ~ 50 ïîïûòîê) ~ 10Gb òåêñòà 10 / 24

Ìîäåëü XLM îò Ôåéñáóêà Cross-lingual Language Model Pretraining https://github.com/facebookresearch/XLM
64 Volta GPU Òðåíèðóåòñÿ íåäåëþ 11 / 24

Ñèíòåç ðå÷è îò Àìàçîíà Robust Universal Neural Vocoding https://arxiv.org/pdf/1811.06292.pdf
Îòëè÷íîå êà÷åñòâî 17 ÿçûêîâ ñðàçó 74 äèêòîðà 140 ÷àñîâ çàïèñåé ~ 20 GPU, ÷òîáû 1 èòåðàöèÿ çàíèìàëà íåäåëþ 12 / 24

Äàííûå äëÿ ðàñïîçíàâàíèÿ ðå÷è Ñðåäíèé òåëåêîì ñîçäà¼ò 10000 ÷àñîâ
äàííûõ â äåíü Ïîëüçîâàòåëè àññèñòåíòîâ 2 ìëí çàïðîñîâ â äåíü (2000 ÷àñîâ) Òåëåâèäåíèå 100 ÷àñîâ â äåíü, 3000 â ìåñÿö Youtube 1 ìèëëèîí ÷àñîâ ðå÷è 13 / 24

×åëîâå÷åñêèå êà÷åñòâà AI Îáó÷åíèå íà ãðÿçíûõ è íåðàçìå÷åííûõ äàííûõ
Îáó÷åíèå íà íåñêîëüêèõ ïðèìåðàõ Íåïðåðûâíîå îáó÷åíèå Óñòîé÷èâîå ïðèíÿòèå ðåøåíèé Ïîíÿòíîå ïðèíÿòèå ðåøåíèé Ïðèìåíåíèå æèçíåííîãî îïûòû Ïåðåíîñ çíàíèé ìåæäó ïîõîæèìè ñèòóàöèÿìè (ÿçûêàìè, ñòèëÿìè) 14 / 24

Çíàíèå åñòü çàïîìèíàíèå Understanding deep learning requires rethinking generalization (2017)
https://arxiv.org/abs/1611.03530 Íåéðîñåòè çàïîìèíàþò ñëó÷àéíûå âõîäû 15 / 24

Ìîäåëü ÿçûêà ñ ïðîñòûì ñãëàæèâàíèåì Large Language Models in Machine
Translation (2007) https://www.aclweb.org/anthology/D07-1090.pdf Íå èñïîëüçóåòñÿ ñãëàæèâàíèå äëÿ íåçíàêîìûõ n-ãðàì 1.8 Òá äàííûõ èç ñåòè BLEU 0.44 ïðîòèâ 0.43 äëÿ ìîäåëè ñî ñãëàæèâàíèåì Îãðîìíûé ðàçìåð ìîäåëè 16 / 24

VOSK Áàçà ðå÷è 100000 ÷àñîâ Ìíîãî ÿçûêîâ
Áûñòðûé ïîèñê ñ ïîìîùüþ óìíîãî õýøèðîâàíè Áûñòðîå äîáàâëåíèå íîâûõ ïðèìåðîâ Áûñòðàÿ äèàãíîñòèêà ðåçóëüòàòîâ 17 / 24

VOSK 18 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 19 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 20 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 1. Ñïåêòðàëüíîå ïðåäñòàâëåíèå 2. Âåéâëåò-ïðåîáðàçîâàíèå, ãëàâíûå êîìïîíåíòû 3.
Áèíàðèçàöèÿ 4. Minhash 21 / 24

Óñïåõè http://github.com/alphacep/vosk Áûñòðûé èíäåêñ áîëåå 1000 ÷àñîâ ðå÷è
Äî 50% ñåãìåíòîâ óñïåøíî âåðèôèöèðóþòñÿ Ìãíîâåííûé ïîèñê è ìîäèôèêàöèÿ áàçû 22 / 24

Äàëüíåéøèå ïëàíû http://github.com/alphacep/vosk Ñåãìåíòàöèÿ áåç Kaldi Ðàñïðåäåë¼ííàÿ áàçà
äàííûõ Äåêîäèðîâàíèå íà ìîáèëüíûõ Äåêîäèðîâàíèå íàëîæåííûõ ñèãíàëîâ Òåðàáàéòíûå êîìïüþòåðû äëÿ èñêóññòâåííîãî èíòåëëåêòà 23 / 24

Êîíòàêòû Github: https://github.com/alphacep/vosk Telegram: https://t.me/cmusphinx Email: [email protected] 24 / 24

CodeFest 2019. Николай Шмырев (АЦ Технологии) —...

CodeFest 2019. Николай Шмырев (АЦ Технологии) — Новое поколение систем распознавания речи

CodeFest

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript

ÍÎÂÎÅ ÏÎÊÎËÅÍÈÅ ÑÈÑÒÅÌ ÐÀÑÏÎÇÍÀÂÀÍÈß ÐÅ×È Øìûð¼â Í.Â., Ïðèáûëü Ì.À. ÀÖ

ÀÖ Òåõíîëîãèè 2003 - ðóññêèé ãîëîñ äëÿ Festival

Íàì åñòü, êóäà ñòðåìèòüñÿ Ñïðîñèòå ó Ãóãëà/ßíäåêñà ïðî òðîïèãàáìà

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Ëó÷øàÿ òî÷íîñòü/ñêîðîñòü òðåíèðîâêè

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Ðåöåïò äëÿ ¾ñâîåé¿ ñèñòåìû:

Ðàñïîçíàâàíèå ñ îòêðûòûì èñõîäíûì êîäîì Facebook wav2letter, Mozilla Deep Speech,

Ñèíòåç ðå÷è ñ îòêðûòûì èñõîäíûì êîäîì Nvidia Tacotron2 + Waveglow

Òåêóùåå ïîëîæåíèå äåë Îãðîìíûå îáú¼ìû äàííûõ Ñëîæíûå àðõèòåêòóðû

Ðàñïîçíàâàíèå ðå÷è îò Ãóãëà Âûñòóïëåíèå íà ISCSLP2018 RNN-T Transducer

Ìîäåëü BERT îò Ãóãëà BERT: Pre-training of Deep Bidirectional Transformers

Ìîäåëü XLM îò Ôåéñáóêà Cross-lingual Language Model Pretraining https://github.com/facebookresearch/XLM

Ñèíòåç ðå÷è îò Àìàçîíà Robust Universal Neural Vocoding https://arxiv.org/pdf/1811.06292.pdf

Äàííûå äëÿ ðàñïîçíàâàíèÿ ðå÷è Ñðåäíèé òåëåêîì ñîçäà¼ò 10000 ÷àñîâ

×åëîâå÷åñêèå êà÷åñòâà AI Îáó÷åíèå íà ãðÿçíûõ è íåðàçìå÷åííûõ äàííûõ

Çíàíèå åñòü çàïîìèíàíèå Understanding deep learning requires rethinking generalization (2017)

Ìîäåëü ÿçûêà ñ ïðîñòûì ñãëàæèâàíèåì Large Language Models in Machine

VOSK Áàçà ðå÷è 100000 ÷àñîâ Ìíîãî ÿçûêîâ

VOSK 18 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 19 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 20 / 24

Ëîêàëüíî-÷óâñòâèòåëüíîå õýøèðîâàíèå 1. Ñïåêòðàëüíîå ïðåäñòàâëåíèå 2. Âåéâëåò-ïðåîáðàçîâàíèå, ãëàâíûå êîìïîíåíòû 3.

Óñïåõè http://github.com/alphacep/vosk Áûñòðûé èíäåêñ áîëåå 1000 ÷àñîâ ðå÷è

Äàëüíåéøèå ïëàíû http://github.com/alphacep/vosk Ñåãìåíòàöèÿ áåç Kaldi Ðàñïðåäåë¼ííàÿ áàçà

Êîíòàêòû Github: https://github.com/alphacep/vosk Telegram: https://t.me/cmusphinx Email: [email protected] 24 / 24