Лекция курса "Большие данные и машинное обучение" (v2.0-МОТ)
Лекция-6: разведочный анализ, корреляция
Регрессия, регрессионная модель — модель предсказания целевой переменной на непрерывной шкале
Часть 1: разведочный анализ, распределение значений, отношения переменных, корреляция
- Переменная на непрерывной шкале
- Разведочный анализ
- Пример: разведочный анализ в датасете ILO (МОТ - Международная организация труда) ilostat.ilo.org
- Что с чем может коррелировать?
- Объединение множества специализированных таблиц в одну таблицу объектов с целевыми признаками
- Чистка данных
- Библиотека визуализации данных Seaborn
- График распределения значений признака: Distplot
- Нормальное распределение
- Точечный график — отношения между двумя величинами: Relplot
- Групповой график распределений и попарных отношений: Pairplot
- Проблема пропуска данных в датасете ILO
- Корреляция
- Коэффициент корреляци; и Пирсона
- Вычисление корреляции последовательностей значений: Pandas:Series.corr
- Матрица корреляций: numpy.corrcoef
- Матрица корреляций: Pandas:DataFrame.corr
- Тепловая карта корреляций: Heatmap
- Палитра для heatmap:cmap
- Высокая корреляция != причинно-следственная связь
- Задания для самостоятельной работы
лекция с данными ILO: 22.04.2021