Upgrade to Pro — share decks privately, control downloads, hide ads and more …

МАПЗ – весна 2022 – 4 занятие

ТиМПИ
April 14, 2022

МАПЗ – весна 2022 – 4 занятие

ТиМПИ

April 14, 2022
Tweet

More Decks by ТиМПИ

Other Decks in Science

Transcript

  1. 2/12 2/12 Основные проблемы в данных 1) Выбросы 2) Ошибки

    в данных (например, неправильные ответы в анкетах) 3) Пропуски в данных 4) «Разнородность» данных Статистика Data Science
  2. 3/12 3/12 Выбросы 1/2 DataFrame Quantile(1+) Quantile(99-) Правило трёх сигм

    Замена на точечные оценки (показатели центра распределения)
  3. 5/12 5/12 Природа формирования пропусков • MCAR (Missing Completely At

    Random) — случайное формирование пропусков • MAR (Missing At Random) — пропуски зависят от другой информации, например пола, возраста и т.д., которая есть в наборе данных • MNAR (Missing Not At Random) — пропуски зависят от другой информации, которой нет в наборе данных
  4. 6/12 6/12 Как обрабатывать пропуски 1/2 • Complete-case Analysis (или

    Listwise Deletion Method) — удаление пропусков (полностью столбцов или строк) • + Очень простой • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных • Available-case analysis (или Pairwise Deletion) — учёт только не пропущенных значений • + Даёт больше данных чем Listwise Deletion Method • + MCAR — не даст «сильных» искажений в данных • – MAR и MNAR — сильные искажения в данных, в т.ч. допустим выход для ограниченных статистик, например коэффициентов корреляции x y z 1 2 ? 1 2 3 2 ? 1 x y z 1 2 ? 1 2 3 2 ? 1 Listwise vs Pairwise
  5. 7/12 7/12 Как обрабатывать пропуски 2/2 • Mean Substitution —

    заполнение средними значениями (ноль, медиана, среднее, мода и др.) • + Очень простой • – Сильное смещение по заполняемому значению • LOCF (Last observation carried forward) — заполнение по последнему значению • + Хороший вариант для временных рядов • – Не лучший для других данных (например, может дублировать выбросы etc) • Indicator Method — замена пропущенных значений нулями и добавление индикаторной колонки со значениями 0 и 1 • + Репрезентативность выборки не ухудшается • + Явное использование информации о пропусках • – Может привести к искажению результатов
  6. 9/12 9/12 Стандартизация 𝑥 — значение признака ത 𝑋 —

    среднее значение σ𝑥 — среднее отклонение Когда использовать: данные имеют одинаковый характер (непротиворечивы) Для чего использовать: проверка статистических гипотез, требующих нормальное распределение https://medium.com/analytics-vidhya/the-effect-of-data-normalization-in-your-models-should- we-use-a-pipeline-6b97510f1908 𝑍𝑖 = 𝑥𝑖 − ത 𝑋 σ𝑥
  7. 10/12 10/12 Нормализация Когда использовать: данные имеют разную размер шкалы

    + используется метрические алгоритмы Для чего использовать: повышение точности метрических алгоритмов, ускорение градиентных спусков и SVM 𝑧𝑖 = 𝑥𝑖 − min(𝑥) max 𝑥 − min(𝑥) Нормализация мин-макс 𝑧𝑖 = 𝑎 + (𝑥𝑖 −min(𝑥))(𝑏 − 𝑎) max 𝑥 − min(𝑥) , где [a,b] — границы диапазона Нормализация по среднему 𝑧𝑖 = 𝑥𝑖 − average(𝑥) max 𝑥 − min(𝑥) Масштабирование до единичной длины 𝑧𝑖 = 𝑥𝑖 | 𝑥 |
  8. 11/12 11/12 Полезные источники • https://towardsdatascience.com/understand-data-normalization-in- machine-learning-8ff3062101f0 — примеры использования

    нормализации и стандартизации данных в машинном обучении • https://social.hse.ru/soc/randan/news/413940344.html — о исследованиях в области работы с пропусками в данных • https://towardsdatascience.com/feature-engineering-for-machine- learning-3a5e293a5114 — о Feature Engineering