Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Open Data

Big Open Data

Apresentação da Profa. Ticiana Linhares na XII Semana Acadêmica da Computação na Universidade Federal do Ceará

Insight Data Science Lab

August 25, 2017
Tweet

More Decks by Insight Data Science Lab

Other Decks in Research

Transcript

  1. Agenda O que são Dados Abertos? O que é Big

    Open Data? Desafios Tecnologias para Big Open Data Aplicações Conclusão
  2. O que são Dados Abertos? São dados produzidos pelo governo

    e colocados à disposição das pessoas de forma a tornar possível não apenas sua leitura e acompanhamento, mas também sua reutilização em novos projetos, sítios e aplicativos; seu cruzamento com outros dados de diferentes fontes; e sua disposição em visualizações interessantes e esclarecedoras (W3C Brasil) 7
  3. O que são Dados Abertos? São dados abertos aqueles que

    podem ser livremente utilizados, modificados e compartilhados por qualquer pessoa, para qualquer finalidade. (Open Knowledge Foundation 2014) 8
  4. E no Brasil? • Lei de Acesso à Informação (BRASIL,

    2011) • Assegura o acesso à informação mediante processos ágeis, de modo transparente e claro • A publicação a ser obrigação do Estado, regulamentada por lei 9
  5. Volume de Dados no Mundo ❑2000, 800 Terabytes ❑2006, 160

    Exabytes ❑2009, 500 Exabytes(Internet) ❑2012, 2.7 Zettabytes ❑2020, 35 Zettabytes, 2020
  6. 6 V's do Big Data Valor Veracidade Volatilidad e Velocidad

    e Variedade Volume Não-estruturado Semi-estruturado Estruturado Terabytes … Exabytes Batch Tempo Real Janela de tempo onde podemos usar os dados Estado verdadeiro da realidade Analise Estratégica de Dados
  7. Big Data ❑ Facebook: 1B de usuários, 1,13 Trilhões de

    "likes", 219B de fotos e 140.3B de relacionamentos ❑ Youtube: 100 horas de vídeos adicionado a cada minuto ❑ Twitter: 80 TB e 1B de tweets por dia ❑ Boeing: 640 TB gerados em um voo transatlântico ❑ Wal-Mart: 2,5 PB e 1 milhão de transações/hora 13
  8. Desafios • Publicação dos dados em formatos heterogêneos • Formatos

    de visualização inadequados • Dados com pouca descrição ◦ Ou documentação inexistente (HOXHA e BRAHAJ, 2011) 14
  9. Desafios Principais problemas encontrados nas bases de dados do Governo

    Federal: (1) Alta dimensionalidade (2) Grande volume de dados (difícil abrir em uma ferramenta de planilha) (3) Algumas questões não possuem informações (Ex.: o inscrito não sabia respondê-las) (4) Tipos de dados diferentes (nominal, numérico,...) (5) Difícil tomada de decisões (6) O esquema pode modificar, o que fazer? (7) Qual o formato adequado para publicar essas informações? (8) Questões destinadas a um público específico 15
  10. Dengue Surveillance Twitter X Official Data Fonte: Janaína Gomide, Adriano

    Veloso, Wagner Meira Jr., Virgílio Almeida, Fabrício Benevenuto, Fernanda Ferraz, Mauro Teixeira: Dengue Surveillance Based on a Computational .Model of Spatio-temporal Locality of Twitter. WebSci 2011: 1-8 20
  11. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Croácia (1º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  12. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    México (2º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  13. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Camarões (3º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  14. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Chile (4º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  15. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Colômbia (5º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  16. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Alemanha (6º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  17. Copa FIFA 2014 – Análise de Sentimentos – Brasil X

    Holanda (7º jogo) Fonte: José Adail Carvalho Filho, João Lucas Leite, Ticiana L. Coelho da Silva: Desenvolvimento de um modelo de classificação de tweets para analisar as opiniões de usuários do Twitter sobre osjogos da .Seleção Brasileira de Futebol na Copa do Mundo da FIFA Brasil 2014. ENUCOMP 2014
  18. Aná lise de Dados de Irrigac ̧ ão: Uma Proposta

    Sustentá vel Fonte: Hinessa Dantas Caminha, Ticiana Coelho da Silva, Atslands Rego da Rocha, Sílvio Carlos R. Vieira Lima: Estimating Reference Evapotranspiration using Data Mining Prediction Models and Feature Selection. ICEIS (1) 2017
  19. Conclusão ❑ Gerenciar e analisar um grande volume de dados

    é complexo; ❑ Soluções atuais não tratam de forma adequada este volume ➢ Necessidade de paralelizar as soluções; ❑ Muitos desafios para Big Open Data: ➢ Armazenamento, processamento, análise, segurança, escalabilidade; ❑Grande motivação: levar informação e conhecimento às pessoas 40