Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ML в VoIP

IqTek
October 02, 2019

ML в VoIP

IqTek

October 02, 2019
Tweet

More Decks by IqTek

Other Decks in Programming

Transcript

  1. Постановка задачи ▪ Общие понятия ▪ Алгоритмы: ◦ Классификация ◦

    Градиентный спуск ◦ Нейронные сети ▪ Обработка данных ▪ Видео ▪ Аудио ▪ Текст ▪ В реальном времени ▪ … или нет
  2. Обработка данных в VoIP ▪ Активность пользователей ▪ Обнаружение аномалий

    Области применения: ▪ Антифрод системы Анализ CDR и логов: ▪ Анализ изображения ▪ Определение эмоций ▪ Разделение аудио Области применения: ▪ HR-сервисы ▪ Валидация пользователя Анализ видео:
  3. Текст ▪ NLU ◦ Графематический анализ ◦ Морфологический анализ ◦

    Синтаксический анализ ◦ Анализ тональности Обработка текста ▪ Выделение интента ▪ Выделение сущностей ▪ Машинный перевод ▪ Синтез речи
  4. Аудио ▪ Распознавание речи (в т.ч. в реальном времени) ▪

    Эмоции ▪ Диаризация ▪ Разделение аудио на звуковые дорожки ▪ Шумоподавление ▪ Язык говорящего ▪ Акцент ▪ Интонация ▪ Фоновые шумы ▪ Синтезирован голос или нет? Дополнительные метрики
  5. Как учится и когда применять? ▪ Участие в соревнованиях (Kaggle

    и т.п.) ▪ Разбор примеров и статей ▪ ML должен использоваться тогда, когда остальные способы уже не работают ▪ “Мне нужен КЦ на нейронках”
  6. Синтез ▪ Достаточно 24 часа речи ▪ На входе: спектрограмма

    ▪ Tacotron2 (CNN) ◦ MOS: 4.526 ◦ Слои для наложения стилей ◦ Эмоции, интонации
  7. Распознавание речи ▪ Одна из самых полезных ▪ Вход: сигнал

    ▪ Выход: текст ▪ Человек умеет - значит задача реализуема Одна из самых полезных задач =>
  8. Fast Fourier Transform (FFT) / STFT ▪ Высота тона (60-400Гц)

    ▪ Обертоны ▪ STFT понятнее чем сигнал Как получить?
  9. Теория ▪ Учесть особенности уха и речи ◦ Разное восприятие

    частот ◦ Гармоники при произношении гласных Как получить более пригодные данные?
  10. WER и Word Accuracy WER = (I + S +

    D) / N ▪ I - вставка ▪ S - замена ▪ D - удаление ▪ I+S+D - edit distance ▪ Может быть больше 100%
  11. WER

  12. Прогресс WER = (I + R + D) / N

    ▪ 11 лет прогресс на месте ▪ Мощность CPU растет ▪ В 2011 году - ImageNet (Geoffrey Hinton, MS) ▪ Качество стало выше качества традиционного pipeline
  13. Датасеты ▪ Voxforge - 24 часа (пофонемная разметка) ▪ Open_TTS

    - 3000h+ ▪ Авторазметка (Витерби/FBA) ▪ Нейросетевой - Attention
  14. Датасеты ▪ Voxforge - 24 часа (пофонемная разметка) ▪ Open_TTS

    - 3000h+ (тексты) ▪ Авторазметка (Витерби/FBA) ▪ Нейросетевой - Attention
  15. Нейросеть ▪ Обучения с простых примеров ▪ 1-9 рекурентных слоя

    (RNN, GRU, LSTM) ▪ 1-3 входных слоя ▪ 2 дня на 8 GPU ▪ Не очень зависит от языка ◦ Больше выходов NN ◦ 12.000 часов речи (2года)
  16. Языковая модель ▪ HELLO -> WORLD 0.9 ▪ HELLO ->

    WALL 0.1 ▪ Штрафы ◦ Языковая модель ◦ Количество слов (“защита кур совой”)
  17. Что дальше? ▪ Насколько возможно повысить качество? ▪ Как удалить

    шум? ▪ Можно ли использовать в телефоне? ▪ Как распознать музыку? Возникающие вопросы и ответы ▪ Как распознать говорящего? ▪ Что насчет синтеза? ▪ Что насчет пунктуации?
  18. Исходные данные ▪ Как можно качественнее (16k) ▪ Стерео ▪

    OPUS/g.722 для внутренних ▪ Аугментации для речи ▪ Bidirectional model плохо для REALTIME ▪ “Lombard effect” Для распознавания: Для обучения:
  19. Выводы ▪ OpenSource позволяет получить знания и неплохие результаты ▪

    Датасет - большая ценность ▪ Небольшое улучшение может сделать прорыв ▪ ▪ ▪ ▪