Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Евгений Линник. БКС. GIGO — секреты очистки данных

Avatar for GIL GIL
September 19, 2019

Евгений Линник. БКС. GIGO — секреты очистки данных

Подробно о том, как эффективно очистить собранные данные для анализа любого сектора бизнеса.

Avatar for GIL

GIL

September 19, 2019
Tweet

More Decks by GIL

Other Decks in Technology

Transcript

  1. Евгений Линник Экспертиза: большие данные, машинное обучение, компьютерное зрение, дополненная

    реальность, построение процессов в организации, цифровая трансформация, управление данными MBA: CIO РАНХиГС Опыт: более 6 лет проектной практики BigData Разработка IT-решений для аналитики и работы с цифровыми массивами информации с последующим внедрением результатов в процессы организации – вот чем я занимаюсь каждый день! 2
  2. Промышленность Задача: поиск аномалий Проблема: отсутствие данных о единицах продукции

    Решение: счетчик единиц продукции был добавлен аналитически 4 Система источник: IBA PDA (АСУТП 1-3 уровень)
  3. 5 Банк Задача: поиск фрода Проблема: малое количество целевых событий

    Решение: первым этапом был применен алгоритм «обучения без учителя» для выявления случаев похожих на на целевые. Система источник: Единый фронт и ABS
  4. Задача: предсказание перетоков электроэнергии Проблема: низкое качество предсказания Решение: учли

    сезонность и тренды при формировании прогноза 6 Энергетическая компания Выделение сезонной компоненты Исходный временной ряд Тренд Сезонная компонента Остаток
  5. Задача: определение места нахождения абонентов Проблема: абоненты находятся в реках

    и озерах Решение: применили еще один слой с ГЕО 7 Система источник: Пребиллинг (TDR) Телеком
  6. Задача: маркетинговые коммуникации на основе данных о поведении в цифровых

    каналах Проблема: источник без гарантии доставки Решение: проблема решена на уровне бизнес-логики 8 Система источник: логи приложения Финансовый сервис
  7. Задача: витрина для маркетинговых коммуникаций Проблема: внешние данные в модели

    Решение: регулярное тестирование остаточной значимости переменных 9 Система источник: внешние данные Авиакомпания
  8. Задача: online2offline и indoor проходимость Проблема: ограничения технологии Решение: отказ

    от части бизнес-кейсов 10 Система источник: Wi-Fi сканер Ритейл
  9. • Выделяйте недостающие критерии аналитически, если есть возможность. • Плохая

    разметка данных не приговор, просто нужно будет больше работать. • Попробуйте очистить данные от помех, вызванных прогнозируемыми факторами. • Учитывайте особенности источников данных, особенно для event based кейсов. • Следите за изменением в алгоритмах формирования комплексных измерений, регулярно тестируйте модель. • Разберитесь в технологии, на которой основан источник и в ее ограничениях. 11 Выводы • Используйте внешние данные для уточнения результатов аналитики, если это возможно.