МАПЗ – весна 2022 – 4 занятие

Slide 1

Slide 1 text

14 апреля 2022 [email protected] Валерий Дмитриевич Олисеенко Ассистент кафедры информатики Методы предобработки экспериментальных данных

Slide 2

Slide 2 text

2/12 2/12 Основные проблемы в данных 1) Выбросы 2) Ошибки в данных (например, неправильные ответы в анкетах) 3) Пропуски в данных 4) «Разнородность» данных Статистика Data Science

Slide 3

Slide 3 text

3/12 3/12 Выбросы 1/2 DataFrame Quantile(1+) Quantile(99-) Правило трёх сигм Замена на точечные оценки (показатели центра распределения)

Slide 4

Slide 4 text

4/12 4/12 Выбросы 2/2 Группирование данных

Slide 5

Slide 5 text

5/12 5/12 Природа формирования пропусков • MCAR (Missing Completely At Random) — случайное формирование пропусков • MAR (Missing At Random) — пропуски зависят от другой информации, например пола, возраста и т.д., которая есть в наборе данных • MNAR (Missing Not At Random) — пропуски зависят от другой информации, которой нет в наборе данных

Slide 6

Slide 6 text

6/12 6/12 Как обрабатывать пропуски 1/2 • Complete-case Analysis (или Listwise Deletion Method) — удаление пропусков (полностью столбцов или строк) • + Очень простой • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных • Available-case analysis (или Pairwise Deletion) — учёт только не пропущенных значений • + Даёт больше данных чем Listwise Deletion Method • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных, в т.ч. допустим выход для ограниченных статистик, например коэффициентов корреляции x y z 1 2 ? 1 2 3 2 ? 1 x y z 1 2 ? 1 2 3 2 ? 1 Listwise vs Pairwise

Slide 7

Slide 7 text

7/12 7/12 Как обрабатывать пропуски 2/2 • Mean Substitution — заполнение средними значениями (ноль, медиана, среднее, мода и др.) • + Очень простой • – Сильное смещение по заполняемому значению • LOCF (Last observation carried forward) — заполнение по последнему значению • + Хороший вариант для временных рядов • – Не лучший для других данных (например, может дублировать выбросы etc) • Indicator Method — замена пропущенных значений нулями и добавление индикаторной колонки со значениями 0 и 1 • + Репрезентативность выборки не ухудшается • + Явное использование информации о пропусках • – Может привести к искажению результатов

Slide 8

Slide 8 text

8/12 8/12 Преобразование данных Нормализация Стандартизация

Slide 9

Slide 9 text

9/12 9/12 Стандартизация 𝑥 — значение признака ത 𝑋 — среднее значение σ𝑥 — среднее отклонение Когда использовать: данные имеют одинаковый характер (непротиворечивы) Для чего использовать: проверка статистических гипотез, требующих нормальное распределение https://medium.com/analytics-vidhya/the-effect-of-data-normalization-in-your-models-should- we-use-a-pipeline-6b97510f1908 𝑍𝑖 = 𝑥𝑖 − ത 𝑋 σ𝑥

Slide 10

Slide 10 text

10/12 10/12 Нормализация Когда использовать: данные имеют разную размер шкалы + используется метрические алгоритмы Для чего использовать: повышение точности метрических алгоритмов, ускорение градиентных спусков и SVM 𝑧𝑖 = 𝑥𝑖 − min(𝑥) max 𝑥 − min(𝑥) Нормализация мин-макс 𝑧𝑖 = 𝑎 + (𝑥𝑖 −min(𝑥))(𝑏 − 𝑎) max 𝑥 − min(𝑥) , где [a,b] — границы диапазона Нормализация по среднему 𝑧𝑖 = 𝑥𝑖 − average(𝑥) max 𝑥 − min(𝑥) Масштабирование до единичной длины 𝑧𝑖 = 𝑥𝑖 | 𝑥 |

Slide 11

Slide 11 text

11/12 11/12 Полезные источники • https://towardsdatascience.com/understand-data-normalization-in- machine-learning-8ff3062101f0 — примеры использования нормализации и стандартизации данных в машинном обучении • https://social.hse.ru/soc/randan/news/413940344.html — о исследованиях в области работы с пропусками в данных • https://towardsdatascience.com/feature-engineering-for-machine- learning-3a5e293a5114 — о Feature Engineering