Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Евгений Линник. БКС. GIGO — секреты очистки данных

GIL
September 19, 2019

Евгений Линник. БКС. GIGO — секреты очистки данных

Подробно о том, как эффективно очистить собранные данные для анализа любого сектора бизнеса.

GIL

September 19, 2019
Tweet

More Decks by GIL

Other Decks in Technology

Transcript

  1. Евгений Линник Экспертиза: большие данные, машинное обучение, компьютерное зрение, дополненная

    реальность, построение процессов в организации, цифровая трансформация, управление данными MBA: CIO РАНХиГС Опыт: более 6 лет проектной практики BigData Разработка IT-решений для аналитики и работы с цифровыми массивами информации с последующим внедрением результатов в процессы организации – вот чем я занимаюсь каждый день! 2
  2. Промышленность Задача: поиск аномалий Проблема: отсутствие данных о единицах продукции

    Решение: счетчик единиц продукции был добавлен аналитически 4 Система источник: IBA PDA (АСУТП 1-3 уровень)
  3. 5 Банк Задача: поиск фрода Проблема: малое количество целевых событий

    Решение: первым этапом был применен алгоритм «обучения без учителя» для выявления случаев похожих на на целевые. Система источник: Единый фронт и ABS
  4. Задача: предсказание перетоков электроэнергии Проблема: низкое качество предсказания Решение: учли

    сезонность и тренды при формировании прогноза 6 Энергетическая компания Выделение сезонной компоненты Исходный временной ряд Тренд Сезонная компонента Остаток
  5. Задача: определение места нахождения абонентов Проблема: абоненты находятся в реках

    и озерах Решение: применили еще один слой с ГЕО 7 Система источник: Пребиллинг (TDR) Телеком
  6. Задача: маркетинговые коммуникации на основе данных о поведении в цифровых

    каналах Проблема: источник без гарантии доставки Решение: проблема решена на уровне бизнес-логики 8 Система источник: логи приложения Финансовый сервис
  7. Задача: витрина для маркетинговых коммуникаций Проблема: внешние данные в модели

    Решение: регулярное тестирование остаточной значимости переменных 9 Система источник: внешние данные Авиакомпания
  8. Задача: online2offline и indoor проходимость Проблема: ограничения технологии Решение: отказ

    от части бизнес-кейсов 10 Система источник: Wi-Fi сканер Ритейл
  9. • Выделяйте недостающие критерии аналитически, если есть возможность. • Плохая

    разметка данных не приговор, просто нужно будет больше работать. • Попробуйте очистить данные от помех, вызванных прогнозируемыми факторами. • Учитывайте особенности источников данных, особенно для event based кейсов. • Следите за изменением в алгоритмах формирования комплексных измерений, регулярно тестируйте модель. • Разберитесь в технологии, на которой основан источник и в ее ограничениях. 11 Выводы • Используйте внешние данные для уточнения результатов аналитики, если это возможно.