Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Lake

Data Lake

Disciplina Ciência de Dados e Big Data em Negócios da Pós-graduação Lato Sensu: Ciência de Dados e Big Data [PUC Minas]

Eduardo Miranda

October 11, 2016
Tweet

More Decks by Eduardo Miranda

Other Decks in Education

Transcript

  1. DIRETORIA DE EDUCAÇÃO CONTINUADA Pós graduação Lato Sensu Ciência de

    Dados e Big Data Ciência de Dados e Big Data em Negócios
  2. Os data warehouses são soluções extremamente caras. Como resultado, as

    organizações limitam o quanto de informações ficam armazenadas; optando por 13 a 25 meses de dados sumarizados versus 15 a 25 anos de detalhes de transações e dados operacionais. Data Warehouse
  3. Os data lakes surgiram graças as tecnologias de big data

    que permitem as empresas armazenae, processar e analisar grandes quantidades de dados a um custo de 20 a 50 vezes mais barato que as tecnologias tradicionais de data warehouse. Data Lakes A arquitetura Hadoop / HDFS permite a construção de um data lake onde as empresas podem armazenar: • Dados estruturados ◦ Tabelas, arquivos csv • Dados semi-estruturados ◦ Logs de sensores, web pages • Dados não estruturados ◦ Arquivos textos, postagens em redes sociais, fotos, vídeos.
  4. O que os data lakes permitem fazer: • Ao invés

    de ter dezenas de coleções independentes de dados (exemplos: data warehouses, data marts), todos os dados podem ser combinados em um único local para indexação, catalogação e análise. A consolidação dos dados resulta em no aumento da utilização dos dados e redução de custos de servidores e licenças. • Fornece um simplicidade, escalabilidade, flexibilidade e eficiência. • Reduz o custo de inFraestrutura em TI • Estima-se que entre 40% e 60% da carga de processamento de um data warehouse são de operações ETL. Executando estas operações no data lake irá liberar recursos do data warehouse. Data Lakes
  5. Imagem retirada e traduzida da publicação: Data lakes and the

    promise of unsiloed data < http://www.pwc.com/us/en/technology-forecast/2014/cloud-computing/features/data-lakes.html > Data lake Os programadores podem explorar os dados de para análise em tempo real. Cientistas de dados usam o lago para descobertas e idealizações O lago pode servir como uma área de preparo para o data warehouse, local onde os dados são tratados com maior cuidado para a geração de relatórios e análises. O lago aceita dados de várias fontes e pode manter tanto os dados originais e a sua evolução de transformações.
  6. The Data Lake Fallacy: All Water and Little Substance No

    artigo The Data Lake Fallacy: All Water and Little Substance publicado em 2014 a Gartner levanta alguns pontos importantes quanto a um data lake. Segundo a publicação, Se for ignorado como ou porque os dados serão utilizados, governados, definidos e protegidos ou como os metadados de descrição são capturados e mantidos, existe um grande risco do data lake se tornar um pântano. Sem uma estratégia adequada de metadados, qualquer tentativa de utilização dos dados significa que o trabalho terá que ser recomeçado desde o início.
  7. A habilidade de uma empresa em extrair valor do big

    data consiste na habilidade de facilmente e rapidamente: • Identificar os dados certos e corretos; • Definir as análises necessárias para a extração de valor; • Tratar os dados a um ponto onde ele é adequado para as análises; • Executar os modelos nos dados tratados e extrair o desejado; • Colocar em produção o modelo definido; • Entregar os resultados em um formato que possa ser fácil de consumir pelos demais integrantes da empresa. Data Lakes
  8. Dizer que o data lake é único repositório para todos

    os dados da empresa não quer dizer que outros sistemas possam possuir suas bases de dados. Os sistemas devem continuar funcionando como sempre funcionaram mas os dados desses sistemas devem eventualmente ser adicionados ao data lake. O data warehouse, data marts, cubos OLAP devem continuar armazenando os dados necessários para os relatórios e análises. No entanto, os dados destes sistemas devem ser fornecidos pelo data lake, e assim, o data lake será o repositório central de todos os dados da empresa. Data Lakes
  9. Ambiente analítico • Exploração • Experimentação Data Lakes Ambiente BI

    • Produção • Carga prevista • Restrições de SLA • Alto grau de governança • Ferramentas padrões • Pouca governança • Melhores ferramentas para a tarefa Data Lake