Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Ciência de Dados em Governo

Ciência de Dados em Governo

Avatar for Sérgio M. Das

Sérgio M. Das

November 29, 2017
Tweet

More Decks by Sérgio M. Das

Other Decks in Education

Transcript

  1. Agenda Big Data Analytics Ciência de dados • Cientista de

    dados • Processo em ciência de dados Governo e dados • Algumas soluções de TI para governo • Necessidades e tecnologias
  2. Big Data Analytics!!! Big Data – Quando volume, velocidade ou

    variedade de dados excede a capacidade de armazenamento e/ou computação – Big Data é relativo, não absoluto Analytics – Aprendizado de máquinas – Mercado • “Relatórios”, painéis, etc
  3. Big Data A cada segundo1: – 100.000 tweets circulam –

    547 websites são criados – mais de 2 milhões de pesquisas (Google) – 48h de vídeos são baixadas no YouTube – 684.478 itens são compartilhados no Facebook... Em governo (Brasil)2: – Mais de 7 milhões de notas fiscais eletrônicas (NFe) por dia – Mais de 16 bilhões de NFe autorizadas... 1 - Relatório Gartner - 2 - http://www.nfe.fazenda.gov.br/
  4. Como lidar com este “dilúvio” de dados? A palavra mais

    importante no termo “ciência de dados” não é “dados”, mas ciência. Fonte (2010): http://www.economist.com/node/15579717
  5. Ciência de Dados A partir da necessidade de análise desse

    emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/
  6. Ciência de Dados A partir da necessidade de análise desse

    emaranhado de dados surgiu uma “nova” área da ciência, a chamada ciência de dados – O “quarto paradigma” da ciência1 – A profissão mais “sexy” do século 212 – Uma nova buzzy word! As atividades executadas pelo “cientista de dados”, em menor escala em relação ao volume de dados, são bastante antigas3 1 - Tansley, S.; Tolle, K.M (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. 2 - https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century 3 - www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ Ciência de Dados X Mineração de Dados
  7. O que os cientistas de dados fazem? Definem hipóteses e

    perguntas Definem os conjuntos de dados ideais Determinam que dados podem ser acessados Adquirem os dados Preprocessam os dados Realizam análise de dados exploratória Realizam modelagem estatística dos dados Interpretam resultados de análises Escrevem relatórios sobre os resultados Criam modelos/componentes/códigos reusáveis Compartilham modelos e resultados com outras pessoas Considerando: • Processos • Ambientes • Projetos
  8. Processo em ciência de dados CRISP-DM (CRoss Industry Standard Process

    for Data Mining) SEMMA (Sample, Explore, Modify, Model and Assess)
  9. Ciência de Dados em Governo!!!  Governo é um grande

    produtor e consumidor de dados  Existe um movimento global de governos e autoridades para publicar dados – O principal objetivo é aumentar a transparência, democracia e proporcionar a criação de serviços públicos
  10. Governo e Dados  Efeitos dos dados (aberto) governamentais sobre

    as políticas públicas – Inclusão: permite que qualquer cidadão utilize qualquer ferramenta de software para adaptá-los às suas necessidades – Transparência: as partes interessadas podem usá-las da maneira mais adequada ao seu propósito – Responsabilidade: oferecer vários pontos de vista sobre o desempenho do governo no cumprimento de suas metas em políticas públicas
  11. SERPRO e Governo Serviço Federal de Processamento de Dados (SERPRO)

    – Empresa pública de serviços de governo eletrônico – Vinculada ao Ministério da Fazenda – Criada em 1º de dezembro de 1964 – Sede em Brasília, conta com 11 Projeções Regionais – Mais de 10 mil colaboradores Fornece soluções de TI para o governo
  12. Algumas Soluções de TI para Governo Sistema Público de Escrituração

    Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  13. Algumas Soluções de TI para Governo Sistema Público de Escrituração

    Digital (SPED) – NF-e – EFD ICMS IPI – E-Financeira – Esocial – CT-e – ... Receita Federal do Brasil – Imposto de Renda Certificação Digital
  14. Nota Fiscal Eletrônica (NFe) Modelo nacional de documento fiscal eletrônico

    que substitui a sistemática de emissão do documento fiscal em papel Mais de 200 milhões de NFe por mês Potencialidade para: – Acompanhamento em tempo real do cenário econômico nacional – Adoção de medidas estratégicas de impacto imediato
  15. Escrituração Fiscal Digital (EFD) A Escrituração Fiscal Digital - EFD

    é um arquivo digital, que se constitui de um conjunto de escriturações de documentos fiscais e de outras informações de interesse dos fiscos das unidades federadas e da Receita Federal do Brasil, bem como de registros de apuração de impostos referentes às operações e prestações praticadas pelo contribuinte.
  16. Escrituração Fiscal Digital (EFD) Mais de 100 mil escriturações por

    mês Arquivos grandes - Gigas  Arquivo hierárquico – Blocos: 0000, ..., C100, C170, … H010, … Milhões de registros por arquivo Regras de negócio incluídas na estrutura Diferentes versões (estruturas)
  17. Necessidades Integração de grandes volumes de dados Acesso e consulta

    eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  18. Necessidades Integração de grandes volumes de dados Acesso e consulta

    eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Lago de dados (data lake): metáfora para um repositório que contém uma grande quantidade de dados brutos em formato nativo
  19. Necessidades Integração de grandes volumes de dados Acesso e consulta

    eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados … Desenvolvimento massivamente paralelo – Multi thread – Multi máquina
  20. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  21. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados XML em formato AVRO
  22. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados Escriturações – Desnormalizada – Diferentes formatos
  23. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  24. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  25. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  26. Tecnologias: Lago de Dados Integração de grandes volumes de dados

    Acesso e consulta eficiente (sql) Recuperação de informação Relatórios gerenciais Painéis Análise de dados ...
  27. Análise de Dados Aplicar algoritmos para: – Descrição: Os dados

    utilizados em uma análise podem descrever um comportamento ou tendência – Classificação: A tarefa de classificação consiste em determinar a classe de um registro – Regressão: Predizer o valor númerico de um registro a partir de um modelo gerado através de dados conhecidos
  28. Análise de Dados Aplicar algoritmos para: – Agrupamento: Identificação de

    registros similares – Associação: Identificar atributos relacionados – Análise de Redes Sociais: Modelar relações por meio de análise social e teoria dos grafos. – ...
  29. Dúvidas? Perguntas? Grato pela atenção! Sérgio M. Dias | www.sergiomdias.com

    – Pós-doutorando em Ciência de Dados | PUC Minas • http://www.icei.pucminas.br/projetos/dsrgroup/ – Doutor em Ciência da Computação | UFMG • www.dcc.ufmg.br – Analista Sênior – Cientista de dados | SERPRO • www.serpro.gov.br Contato – [email protected][email protected][email protected]