Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Автоматизация контент-фильтрации на pythondigest.ru

Автоматизация контент-фильтрации на pythondigest.ru

Решим задачу классификации в приложении к материалам о языке Python: научимся отличать пригодный к публикации контент от плохого с помощью методов машинного обучения.

Андрей Киселёв @ Moscow Python Meetup #34

Moscow Python Meetup

April 27, 2016
Tweet

More Decks by Moscow Python Meetup

Other Decks in Technology

Transcript

  1. pythondigest.ru • Еженедельный дайджест новостей о Python • Посодействуй проекту

    - добавь интересную новость • github.com/pythondigest/pythondig est • github.com/kiselev1189/pydigest- classifier
  2. • Данные подаются как... Множество примеров, , где x -

    вектор из y - значение класса • Задача - найти функцию Такую, что ошибка на новых точках минимальна
  3. scikit-learn ML для всех • Фокус на простоте использования •

    Легко установить, мало зависимостей • Отличная документация
  4. Используется в •ATLAS (поиск бозона Хиггса) • Ранжирование веб-страниц •Spotify

    (рекомендательная система) •Трейдинг • Биология и генетика
  5. Gradient Boosted Trees •Преимущества Гетерогенные данные, категорные переменные Шумные данные

    Нелинейные зависимости координат •Недостатки Медленно учится Требует настройки
  6. GradientBoostingClassifier • n_estimators - число деревьев в ансамбле • ставим

    как можно выше • learning_rate - вклад каждого отдельного дерева • понижаем при повышении n_estimators • max_depth - глубина дерева • Чем выше - тем более нелинейные отношения можем смоделировать
  7. Подбор векторизации • Метод научного тыка будем подбирать "фичи" и

    строить графики, позволяющие обосновать их релевантность • Синий - хорошие статьи • Зеленый - плохие
  8. Текстовая классификация заголовков 96% • Векторизация - Bag-of-Words • Классификатор

    - SVC(probability=True) • Добавим вероятностный вывод классификатора заголовков к основным "фичам".
  9. Оценка классификатора True Real: False Predicted: True False 757 34

    37 1326 • Метрики • Accuracy: 0.96% • Precision: 0.95% • Recall: 0.96% • F1-score: 0.95%