A Practical Application of Machine Learning

5206c19df417b8876825b5561344c1a0?s=47 Exactpro
February 07, 2020

A Practical Application of Machine Learning

A Practical Application of Machine Learning (RU)

Kirill Rudakov,
Research Assistant, Higher School of Economics (HSE)

Dev Meetup
7 February 2020, Kostroma

Video (RU): https://youtu.be/vgcYSHbwGdY

To learn more about Exactpro, visit our website https://exactpro.com/

Follow us on
LinkedIn https://www.linkedin.com/company/exactpro-systems-llc
Twitter https://twitter.com/exactpro
Facebook https://www.facebook.com/exactpro/
Instagram https://www.instagram.com/exactpro/

Subscribe to Exactpro Vimeo channel https://vimeo.com/exactpro
Subscribe to Exactpro YouTube channel https://www.youtube.com/c/exactprosystems

5206c19df417b8876825b5561344c1a0?s=128

Exactpro

February 07, 2020
Tweet

Transcript

  1. Практическое применение машинного обучения Рудаков Кирилл Кострома, 2020

  2. Содержание • Анализ проблемы • Сбор и первое рассмотрение данных

    • Формирование гипотез и их тестирование • Создание прототипа пользовательского приложения • Результаты • Дальнейшее развитие
  3. Анализ и решение проблемы Получение логов Препроцессинг Создание “сигнатур” Группировка

    в кластеры Мониторинг и оповещение Запуск тестов
  4. Общая структура данных

  5. Инструменты Python: https://www.python.org PyCharm: https://www.jetbrains.com/pycharm/ Project Jupyter: https://jupyter.org

  6. Регулярные выражения

  7. От слов к векторному представлению и обучению первой модели Bag-of-words

    VS TF-IDF Понижение размерности (PCA)? Используем n-gram’ы? K-Means VS K-Medoids VS ? Bag-of-words с бинарными признаками Почему нет? усилим ближайшие ослабим далекие Метрика? Jaccard similarity: |A⋂B|/(|A|+|B|-|A⋂B|) Нет. Нам нужно понятное объяснение признаков Видоизмененный K-Medoids
  8. Первые результаты

  9. Создание модели • Используем BoW + Jaccard distance • Храним

    расстояния в разрежённой матрице — выбрасываем далекие сообщения (используем порог) • Добавим возможность создавать одиночные кластеры (lonely rangers) • Дадим возможность дообучаться каждый день
  10. Как проверить качество полученной модели эмпирически? • Размеченные корпусы •

    Синтетические данные • Отдать посмотреть пользователю
  11. Создание инфраструктуры прототипа

  12. Как это выглядит?

  13. Результаты • Анализ данных • Проверка гипотез • Создание модели

    кластеризации • Поддержка разных проектов • Создание прототипа пользовательского приложения для проверка модели в реальных испытаниях
  14. Дальнейшие планы • Проверка модели на синтетических и размеченных данных

    • Расширение функционала пользовательского приложения • Выявление последовательностей, которые ведут к ошибкам • Переход от R&D к конечному продукту