Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Как быстро построить отчетность с помощью DataLake

Как быстро построить отчетность с помощью DataLake

Александр Цеханский, Principal Engineer, Analysts International

Big Data & AI Conference 2020

September 17, 2020
Tweet

More Decks by Big Data & AI Conference 2020

Other Decks in Technology

Transcript

  1. Содержание Отчетность в SaaS системах общего доступа Хранилище в формате

    DataLake Методики быстрой обработки данных Новые разработки и стандартные методики доступа Q & A 1 2 3 4 5
  2. SaaS в бизнесс-приложениях SaaS облако Приложение DataLake ROLAP Data Warehouse

    Аналитика/Отчетность Поставщик SaaS Клиент Основная сеть Региональные оффисы Локальный сервер аналитики cache Главный оффис Координатор сообщений  Использование SaaS систем в бизнесе  SaaS в системах ERP и CRM  Распространенная Конфигурация
  3. Проблема совмещенного доступа  Объём данных  2 Тб у

    одного клиента  40 активных клиентов  100+ клиентов в процессе имплементации  200+ клиентов подписаны на имплементацию (2021-2022)  Общий объём данных оценивается в 4 петабайта после 2022
  4.  Генерация периодических отчетов из петабайтов информации  К чему

    привыкли клиенты  Совмещенный сетевой траффик  Неравномерная временная нагрузка  Key Performance Indicators  Визуальная связь данных отчетности и оригинальных записей Проблема быстрой отчетности
  5. Отчетность в системах SaaS  Локализированные и удаленные данные 

    Необходимость длительного хранения  Data Explosion  4 Pb --> 10-40Pb данных для отчетности Идентификатор Клиента ----------------------------------- Идентификатор пользователя ----------------------------------- Идентификатор операции ----------------------------------- Идентификатор схемы ----------------------------------- Структурированные Данные ..... ----------------------------------- Неструктурированные Даные ..... ----------------------------------- Timestamp ----------------------------------- CRC/PKI подпись -----------------------------------
  6. Форматирование и передача полу-структурированных данных Middleware SaaS облако Приложение DataLake

    ROLAP Data Warehouse Аналитика/Отчетность Координатор сообщений * Source: Infor
  7. Преимyщества архитектуры  Автоматическое индексирование и маркировка данных  Стандартные

    требования к Big Data repositories  Сериализация  Транзакции в режиме близком к реальному времени  Возможность управлять процессом как через REST calls, так и через Database API  Визуальные инструменты доступные клиенту * Source: Google BigQuery White Paper
  8. Архитектура позволяющая делать быструю отчетность  Транзакции на уровне индивидуальных

    полей  Обновление данных  Уменьшение сетевой нагрузки  "Снимок" данных на определенный момент времени SaaS облако DataLake ROLAP Data Warehouse Аналитика/Отчетность Локальный сервер аналитики cache  Решение проблем сериализации  Периферийная система презентации  Уменьшение процессорной нагрузки  Локальное кэширование
  9. Преимущества архитектуры для быстрой отчетности  Новые версии приложения 

    Генерации отчетов на старой версии данных  Один отчет - много пользователей  Report Bursting  High Availability/Disaster Recovery для отчетности
  10. Анализ решения: Превратим проблему в дилемму  Структура или ее

    отсутствие?  Все данные или их часть?  Обновляем часто или редко? * Source: Guru99 * Source: Google BigQuery White Paper
  11. Анализ вопросов нуждающихся в дополнительной оценке  Стандартный доступ к

    DataLake (JDBC, ODBC, OLEDB, REST)?  "Плохие" транзакции могут влиять на других клиентов  Прямое управление приоритетами задач клиентом?  Каждый клиент считает свои задачи важными  Дополнительные средства защиты данных?  Обмен некоторыми типами данных регулируется законом (HIPAA, SOX, Security Clearance) * Source: Oracle
  12. Q&A