Простые решения машинного
обучения в задачах поиска.
Карпович С.Н.
Руководитель развития поиска mos.ru
Slide 2
Slide 2 text
No content
Slide 3
Slide 3 text
Поиск
состоит из
множества
частей.
Slide 4
Slide 4 text
Алгоритмы
машинного
обучения &
Python.
Slide 5
Slide 5 text
Классификатор
ненормативной
лексики
Slide 6
Slide 6 text
No content
Slide 7
Slide 7 text
Что потребуется для классификатора
Slide 8
Slide 8 text
No content
Slide 9
Slide 9 text
No content
Slide 10
Slide 10 text
Классификатор запросов
Slide 11
Slide 11 text
Подготовка данных
Slide 12
Slide 12 text
Вероятностное
тематическое
моделирование
Библиотеки на Python:
• Gensim
• BigArtm
И подходы:
• ML-PLSI
Slide 13
Slide 13 text
PEBL-TM
Slide 14
Slide 14 text
PEBL-TM vs Positive Naive Bayes Classifier
Slide 15
Slide 15 text
No content
Slide 16
Slide 16 text
No content
Slide 17
Slide 17 text
No content
Slide 18
Slide 18 text
Поиск похожих изображений
Slide 19
Slide 19 text
No content
Slide 20
Slide 20 text
No content
Slide 21
Slide 21 text
Извлечение
значимого
контента из
HTML страницы
Slide 22
Slide 22 text
Существующие
решения
• «Boilerplate Detection using
Shallow Text Features» (python-
boilerpipe
• «Извлечение значимой
информации из web-страниц для
задач информационного
поиска»