Музыка Neural networks 2 minutes 5 minutes 15 minutes Длина песни Blues Rock Jazz Жанр песни Категориальные признаки Длина песни Год выпуска Рейтинг 2 1990 3 3 1950 5 15 1970 4 Жанр Исполнитель Rock Scorpions Jazz Louis Armstrong Blues B.B.King Структурированные данные
Прост в использовании Работает на небольших объемах данных, а также легко масштабируется на «Big data problems» + … + + + Большая ошибка Стало лучше Можно в production
based on category Greedy search for combinations Label based Category-based Genre [Genre=Jazz] [Genre=Rock] [Genre=Blues] Jazz 1 0 0 Rock 0 1 0 Blues 0 0 1 Rock 0 1 0
Ищем разбиение по условному мат. ожиданию Это порядковая фича Доказывается, что это оптимальное разбиение на 2 группы для: • Классификация + Cross-Entropy/Gini Index • Регрессия с L2 Не работает для мультикласса
money More trees => more quality more money Faster learning => more experiments more money Faster apply => more trees to learn + … + + + Большая ошибка Стало лучше Можно в production
Кат. фичи могут расти линейно с размером датасета Число комбинаций линейно с размером ансамбля Boosting: more money => more data Результат: 200GB+ модели на Criteo (26 катфичей, ≈10кк объектов) Решение: инженерные эвристики на перевзвешивание RMSE для новых комбинаций — нужно теоретически обоснованное решение
но тратит много памяти • 32-bit хэширование в стадии препроцессинга, можно bit- compression / другие варианты • Десятки миллионов объектов не влезают в RAM, особенно GPU • Жадный алгоритм подбора плохо шардируется по нескольким машинкам / GPU • В катбусте — feature parallel режим для multiGPU, на CPU так и не реализовано