Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data Science. O que? Por que? Como?

Data Science. O que? Por que? Como?

Palestra técnica apresentada no Women Techmakers Belo Horizonte em Março/2014 e no Meetup BehaveData Setembro/2014.

Carolina Bigonha

September 10, 2014
Tweet

More Decks by Carolina Bigonha

Other Decks in Technology

Transcript

  1. DATA SCIENCE Disciplina que incorpora métodos e habilidades de diferentes

    áreas do conhecimento para preparar, armazenar, processar, analisar e comunicar resultados a partir de grandes bases de dados.
  2. DATA SCIENCE 2008 HBR, Facebook, Linkedin Milhares de 'data scientists'

    já trabalhavam em startups, grandes empresas e centros de pesquisa. antes disso
  3. Visualização de Charles Minard, 1869, que exibe o número de

    homens ao longo da campanha de Napoleão Bonaparte contra a Rússia, em 1812, seus movimentos e a temperatura no caminho de volta.
  4. DATA SCIENTIST É um profissional altamente qualificado com o treinamento

    e curiosidade necessários para realizar descobertas utilizando dados. Harvard Business Review, Outubro 2012. Tradução livre.
  5. DATA SCIENTIST É um profissional altamente qualificado com o treinamento

    e curiosidade necessários para realizar descobertas utilizando dados. Harvard Business Review, Outubro 2012. Tradução livre. UM?
  6. DATA SCIENTIST É um profissional altamente qualificado com o treinamento

    e curiosidade necessários para realizar descobertas utilizando dados. Harvard Business Review, Outubro 2012. Tradução livre. TIME?
  7. O que perguntar? Como interpretar da maneira correta? Como lidar

    com a estrutura variável dos dados? Qual história contar?
  8. Dados públicos Governo Dados empresariais CRM Vendas Logística Ambientes online

    Redes sociais Blogs Notícias Acervos Livros Fotografia qual dado? onde?
  9. a arte de lidar com e ou converter dados faltantes

    ou mal formatados para um formato mais fácil de administrar. data wrangling / data munging
  10. partial deletion impution LISTWISE DELETION apaga todo o registro PAIRWISE

    DELETION apaga só onde faz sentido não há muito dado, então não é interessante eliminar. preencher dados faltantes: média? regressão?
  11. análise estatística Sumarização dos dados Média, variância, desvio padrão, coeficiente

    de variação, quantis Coeficiente de Pearson Correlação Linear, logística Regressão ARIMA Modelos para séries temporais
  12. aprendizado de máquina Descobrir automaticamente padrões implícitos em grandes bases

    de dados; Resolver problemas em que um algoritmo não é claro; Domínios onde o problema deve mudar dinamicamente de acordo com condições.
  13. supervisionado não-supervisionado semi-supervisionado Requer uma base rotulada para treino e

    geração do modelo. ex.: classificação O objetivo é descobrir uma característica inerente aos dados: modelo, distribuição de probabilidade. ex.: clusterização . topic model Normalmente utilizado quando há pouco dado rotulado e muito dado não rotulado. Utiliza o não rotulado também para treino.
  14. 1. pergunte-se 2. faça pergunta aos dados 3. descubra histórias

    quem é seu público qual o contexto/meio de comunicação qual é a técnica empregada qual o objetivo
  15. mostre os dados Front Row to Fashion Week, New York

    Times, 2013. Extraiu faixas das fotos das peças dos desfiles e exibe visão geral dos padrões de cor de dada estilista.
  16. mostre os dados Front Row to Fashion Week, New York

    Times, 2013. Extraiu faixas das fotos das peças dos desfiles e exibe visão geral dos padrões de cor de dada estilista.
  17. 1. pergunte-se 2. faça pergunta aos dados 3. descubra histórias

    dados, onde? o que ele oferece qual a relação com outros dados
  18. 3. descubra histórias 2. faça pergunta aos dados 1. pergunte-se

    fatos interessante mudanças conexões experiências pessoais
  19. mostre os dados John Snow Cholera Map, 1854 - utilizado

    para mostrar como os casos de cólera estavam concentrados perto de bombas de água. Ajudou a mostrar que a cólera era transmitida pela água, não pelo ar, como se pensava.
  20. ÍCONES* SLIDE 2 Mortar Board designed by Monika Ciapala from

    the Noun Project Beaker designed by Shmidt Sergey from the Noun Project SLIDE 4 Computer designed by Erin Standley from the Noun Project Paint Palette designed by Mister Pixel from the Noun Project Math designed by SuperAtic LABS from the Noun Project SLIDE 6 Brightness by Grant Fisher from The Noun Project Satellite by Grant Fisher from The Noun Project Server by Grant Fisher from The Noun Project Projector Screen by Grant Fisher from The Noun Project Report by Grant Fisher from The Noun Project Light Bulb by Grant Fisher from The Noun Project SLIDE 27 Museum designed by Ashley van Dyck from the Noun Project Network designed by TNS from the Noun Project Books designed by Julia Simplicio from the Noun Project SLIDE 33 File designed by Pham Thi Dieu Linh from the Noun Project Database designed by Shmidt Sergey from the Noun Project SLIDE 37 Detach by Nithin Davis Nanthikkara from The Noun Project Page Break by Garrett Knoll from The Noun Project SLIDE 47 Eye by João Marcelo Ribeiro from The Noun Project Glasses by Okan Benn from The Noun Project * Os ícones não mencionados são de domínio público.