Автоматизация контент-фильтрации на pythondigest.ru

pydigest-classifier

pythondigest.ru • Еженедельный дайджест новостей о Python • Посодействуй проекту
- добавь интересную новость • github.com/pythondigest/pythondig est • github.com/kiselev1189/pydigest- classifier

scikit-learn

• Данные подаются как... Множество примеров, , где x -
вектор из y - значение класса • Задача - найти функцию Такую, что ошибка на новых точках минимальна

scikit-learn ML для всех • Фокус на простоте использования •
Легко установить, мало зависимостей • Отличная документация

Пример

Gradient Boosted Trees

Используется в •ATLAS (поиск бозона Хиггса) • Ранжирование веб-страниц •Spotify
(рекомендательная система) •Трейдинг • Биология и генетика

CART Tree

Ансамбль деревьев

Boosting • Учим слабое дерево на этих данных

Boosting • Сопоставляем больший вес неверно определенным точкам

Boosting

Gradient Boosted Trees •Преимущества Гетерогенные данные, категорные переменные Шумные данные
Нелинейные зависимости координат •Недостатки Медленно учится Требует настройки

GradientBoostingClassifier • n_estimators - число деревьев в ансамбле • ставим
как можно выше • learning_rate - вклад каждого отдельного дерева • понижаем при повышении n_estimators • max_depth - глубина дерева • Чем выше - тем более нелинейные отношения можем смоделировать

Практика

Задача •Входные данные HTML-документ страницы заголовок описание язык • 11000
размеченных страниц для обучения • Вывод - True/False

Данные

Подбор векторизации • Метод научного тыка будем подбирать "фичи" и
строить графики, позволяющие обосновать их релевантность • Синий - хорошие статьи • Зеленый - плохие

Длина документа 66%

Длина текста 71%

Длина HTML-кода 75%

Плотность текста 78%

Длина заголовка 81%

Длина описания 90%

Язык 92% Английский Русский

Текстовая классификация заголовков 96% • Векторизация - Bag-of-Words • Классификатор
- SVC(probability=True) • Добавим вероятностный вывод классификатора заголовков к основным "фичам".

Классификатор

Векторизатор

Тренировка

Оценка классификатора True Real: False Predicted: True False 757 34
37 1326 • Метрики • Accuracy: 0.96% • Precision: 0.95% • Recall: 0.96% • F1-score: 0.95%

• В будущем: • Переход на автоматическую фильтрацию контента •
Автоматическая расстановка тегов

Спасибо за внимание! Андрей Киселев [email protected] github.com/kiselev1189/pydigest-classifier

Автоматизация контент-фильтрации на pythondiges...

Автоматизация контент-фильтрации на pythondigest.ru

More Decks by Moscow Python Meetup

Other Decks in Technology

Featured

Transcript