Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Простые решения машинного обучения в задачах поиска

Простые решения машинного обучения в задачах поиска

Сергей Карпович (Mos.ru, руководитель группы поиска) @ Moscow Python Meetup 59
"Поисковая система включает множество самостоятельных сервисов, инструментов анализа и обработки данных. Алгоритмы машинного обучения, используемые для обработки естественного языка, позволяют решить многие задачи, стоящие перед разработчиком поисковой системы. В докладе будет рассказано про способ фильтрации мата, классификации поисковых запросов, метод нахождения дубликатов текстовых документов и решении задачи выделения значимой контентной части из HTML страницы".
Видео: http://www.moscowpython.ru/meetup/59/simple-solutions-for-ml-in-search/

Moscow Python Meetup
PRO

August 23, 2018
Tweet

More Decks by Moscow Python Meetup

Other Decks in Programming

Transcript

  1. Простые решения машинного
    обучения в задачах поиска.
    Карпович С.Н.
    Руководитель развития поиска mos.ru

    View Slide

  2. View Slide

  3. Поиск
    состоит из
    множества
    частей.

    View Slide

  4. Алгоритмы
    машинного
    обучения &
    Python.

    View Slide

  5. Классификатор
    ненормативной
    лексики

    View Slide

  6. View Slide

  7. Что потребуется для классификатора

    View Slide

  8. View Slide

  9. View Slide

  10. Классификатор запросов

    View Slide

  11. Подготовка данных

    View Slide

  12. Вероятностное
    тематическое
    моделирование
    Библиотеки на Python:
    • Gensim
    • BigArtm
    И подходы:
    • ML-PLSI

    View Slide

  13. PEBL-TM

    View Slide

  14. PEBL-TM vs Positive Naive Bayes Classifier

    View Slide

  15. View Slide

  16. View Slide

  17. View Slide

  18. Поиск похожих изображений

    View Slide

  19. View Slide

  20. View Slide

  21. Извлечение
    значимого
    контента из
    HTML страницы

    View Slide

  22. Существующие
    решения
    • «Boilerplate Detection using
    Shallow Text Features» (python-
    boilerpipe
    • «Извлечение значимой
    информации из web-страниц для
    задач информационного
    поиска»

    View Slide

  23. Простое решение на python

    View Slide

  24. View Slide