МАПЗ – весна 2022 – 4 занятие

14 апреля 2022 [email protected] Валерий Дмитриевич Олисеенко Ассистент кафедры информатики
Методы предобработки экспериментальных данных

2/12 2/12 Основные проблемы в данных 1) Выбросы 2) Ошибки
в данных (например, неправильные ответы в анкетах) 3) Пропуски в данных 4) «Разнородность» данных Статистика Data Science

3/12 3/12 Выбросы 1/2 DataFrame Quantile(1+) Quantile(99-) Правило трёх сигм
Замена на точечные оценки (показатели центра распределения)

4/12 4/12 Выбросы 2/2 Группирование данных

5/12 5/12 Природа формирования пропусков • MCAR (Missing Completely At
Random) — случайное формирование пропусков • MAR (Missing At Random) — пропуски зависят от другой информации, например пола, возраста и т.д., которая есть в наборе данных • MNAR (Missing Not At Random) — пропуски зависят от другой информации, которой нет в наборе данных

6/12 6/12 Как обрабатывать пропуски 1/2 • Complete-case Analysis (или
Listwise Deletion Method) — удаление пропусков (полностью столбцов или строк) • + Очень простой • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных • Available-case analysis (или Pairwise Deletion) — учёт только не пропущенных значений • + Даёт больше данных чем Listwise Deletion Method • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных, в т.ч. допустим выход для ограниченных статистик, например коэффициентов корреляции x y z 1 2 ? 1 2 3 2 ? 1 x y z 1 2 ? 1 2 3 2 ? 1 Listwise vs Pairwise

7/12 7/12 Как обрабатывать пропуски 2/2 • Mean Substitution —
заполнение средними значениями (ноль, медиана, среднее, мода и др.) • + Очень простой • – Сильное смещение по заполняемому значению • LOCF (Last observation carried forward) — заполнение по последнему значению • + Хороший вариант для временных рядов • – Не лучший для других данных (например, может дублировать выбросы etc) • Indicator Method — замена пропущенных значений нулями и добавление индикаторной колонки со значениями 0 и 1 • + Репрезентативность выборки не ухудшается • + Явное использование информации о пропусках • – Может привести к искажению результатов

8/12 8/12 Преобразование данных Нормализация Стандартизация

9/12 9/12 Стандартизация 𝑥 — значение признака ത 𝑋 —
среднее значение σ𝑥 — среднее отклонение Когда использовать: данные имеют одинаковый характер (непротиворечивы) Для чего использовать: проверка статистических гипотез, требующих нормальное распределение https://medium.com/analytics-vidhya/the-effect-of-data-normalization-in-your-models-should- we-use-a-pipeline-6b97510f1908 𝑍𝑖 = 𝑥𝑖 − ത 𝑋 σ𝑥

10/12 10/12 Нормализация Когда использовать: данные имеют разную размер шкалы
+ используется метрические алгоритмы Для чего использовать: повышение точности метрических алгоритмов, ускорение градиентных спусков и SVM 𝑧𝑖 = 𝑥𝑖 − min(𝑥) max 𝑥 − min(𝑥) Нормализация мин-макс 𝑧𝑖 = 𝑎 + (𝑥𝑖 −min(𝑥))(𝑏 − 𝑎) max 𝑥 − min(𝑥) , где [a,b] — границы диапазона Нормализация по среднему 𝑧𝑖 = 𝑥𝑖 − average(𝑥) max 𝑥 − min(𝑥) Масштабирование до единичной длины 𝑧𝑖 = 𝑥𝑖 | 𝑥 |

11/12 11/12 Полезные источники • https://towardsdatascience.com/understand-data-normalization-in- machine-learning-8ff3062101f0 — примеры использования
нормализации и стандартизации данных в машинном обучении • https://social.hse.ru/soc/randan/news/413940344.html — о исследованиях в области работы с пропусками в данных • https://towardsdatascience.com/feature-engineering-for-machine- learning-3a5e293a5114 — о Feature Engineering

14 апреля 2022 [email protected] Валерий Дмитриевич Олисеенко Ассистент кафедры информатики
Методы предобработки экспериментальных данных

МАПЗ – весна 2022 – 4 занятие

МАПЗ – весна 2022 – 4 занятие

ТиМПИ

More Decks by ТиМПИ

Other Decks in Science

Featured

Transcript

14 апреля 2022 [email protected] Валерий Дмитриевич Олисеенко Ассистент кафедры информатики

2/12 2/12 Основные проблемы в данных 1) Выбросы 2) Ошибки

3/12 3/12 Выбросы 1/2 DataFrame Quantile(1+) Quantile(99-) Правило трёх сигм

4/12 4/12 Выбросы 2/2 Группирование данных

5/12 5/12 Природа формирования пропусков • MCAR (Missing Completely At

6/12 6/12 Как обрабатывать пропуски 1/2 • Complete-case Analysis (или

7/12 7/12 Как обрабатывать пропуски 2/2 • Mean Substitution —

8/12 8/12 Преобразование данных Нормализация Стандартизация

9/12 9/12 Стандартизация 𝑥 — значение признака ത 𝑋 —

10/12 10/12 Нормализация Когда использовать: данные имеют разную размер шкалы

11/12 11/12 Полезные источники • https://towardsdatascience.com/understand-data-normalization-in- machine-learning-8ff3062101f0 — примеры использования

14 апреля 2022 [email protected] Валерий Дмитриевич Олисеенко Ассистент кафедры информатики