Лекция курса "Большие данные и машинное обучение" (v2.0-МОТ)
Лекция-5: категории и тексты
- Категориальные признаки: порядковые и номинальные
- Варианты кодирования: Pandas:Series.map
- Варианты кодирования: sklearn:LabelEncoder
- Варианты кодирования: дамми-кодирование, Pandas:get_dummies
- Варианты кодирования: sklearn:OneHotEncoder
- Варианты кодирования: Pandas:DataFrame.pivot_table
- ЕЯ — естественные языки (NLP — Natural language processing)
- Текстовые признаки
- Мешок слов
- Извлечение мешка слов из текстового признака: sklearn:CountVectorizer
- Превращение текстового признака в набор категориальных
- Пример: работа с категориями в датасете ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Таблица данных vs таблица объектов
- Превращение таблицы сырых данных в таблицу объектов группировкой по категориям с преобразованием численных признаков: Pandas:DataFrame.groupby