organizações limitam o quanto de informações ficam armazenadas; optando por 13 a 25 meses de dados sumarizados versus 15 a 25 anos de detalhes de transações e dados operacionais. Data Warehouse
que permitem as empresas armazenae, processar e analisar grandes quantidades de dados a um custo de 20 a 50 vezes mais barato que as tecnologias tradicionais de data warehouse. Data Lakes A arquitetura Hadoop / HDFS permite a construção de um data lake onde as empresas podem armazenar: • Dados estruturados ◦ Tabelas, arquivos csv • Dados semi-estruturados ◦ Logs de sensores, web pages • Dados não estruturados ◦ Arquivos textos, postagens em redes sociais, fotos, vídeos.
de ter dezenas de coleções independentes de dados (exemplos: data warehouses, data marts), todos os dados podem ser combinados em um único local para indexação, catalogação e análise. A consolidação dos dados resulta em no aumento da utilização dos dados e redução de custos de servidores e licenças. • Fornece um simplicidade, escalabilidade, flexibilidade e eficiência. • Reduz o custo de inFraestrutura em TI • Estima-se que entre 40% e 60% da carga de processamento de um data warehouse são de operações ETL. Executando estas operações no data lake irá liberar recursos do data warehouse. Data Lakes
promise of unsiloed data < http://www.pwc.com/us/en/technology-forecast/2014/cloud-computing/features/data-lakes.html > Data lake Os programadores podem explorar os dados de para análise em tempo real. Cientistas de dados usam o lago para descobertas e idealizações O lago pode servir como uma área de preparo para o data warehouse, local onde os dados são tratados com maior cuidado para a geração de relatórios e análises. O lago aceita dados de várias fontes e pode manter tanto os dados originais e a sua evolução de transformações.
artigo The Data Lake Fallacy: All Water and Little Substance publicado em 2014 a Gartner levanta alguns pontos importantes quanto a um data lake. Segundo a publicação, Se for ignorado como ou porque os dados serão utilizados, governados, definidos e protegidos ou como os metadados de descrição são capturados e mantidos, existe um grande risco do data lake se tornar um pântano. Sem uma estratégia adequada de metadados, qualquer tentativa de utilização dos dados significa que o trabalho terá que ser recomeçado desde o início.
data consiste na habilidade de facilmente e rapidamente: • Identificar os dados certos e corretos; • Definir as análises necessárias para a extração de valor; • Tratar os dados a um ponto onde ele é adequado para as análises; • Executar os modelos nos dados tratados e extrair o desejado; • Colocar em produção o modelo definido; • Entregar os resultados em um formato que possa ser fácil de consumir pelos demais integrantes da empresa. Data Lakes
os dados da empresa não quer dizer que outros sistemas possam possuir suas bases de dados. Os sistemas devem continuar funcionando como sempre funcionaram mas os dados desses sistemas devem eventualmente ser adicionados ao data lake. O data warehouse, data marts, cubos OLAP devem continuar armazenando os dados necessários para os relatórios e análises. No entanto, os dados destes sistemas devem ser fornecidos pelo data lake, e assim, o data lake será o repositório central de todos os dados da empresa. Data Lakes
• Produção • Carga prevista • Restrições de SLA • Alto grau de governança • Ferramentas padrões • Pouca governança • Melhores ferramentas para a tarefa Data Lake