Upgrade to Pro — share decks privately, control downloads, hide ads and more …

mineração de dados no governo

mineração de dados no governo

CONIP 2017, 31/05/2017

51535f9347da7e003f77d31c4e0b5cec?s=128

Thiago Marzagão

May 31, 2017
Tweet

Transcript

  1. mineração de dados no governo  o que dá p/

    fazer?  quais os desafios?  como começar? Thiago Marzagão
  2. o que dá p/ fazer?

  3. MARA

  4. APC

  5. E-OUV

  6. CÉREBRO

  7. quais os desafios?

  8. #1 obter os dados

  9. #1 obter os dados  Órgãos não compartilham dados entre

    si.  Nem mesmo quando os dados são públicos (!).  “Ok, mas só se firmarmos um convênio”.  “Ok, mas a extração custa R$ 39.844.095.098.490.802.984.309.582.304”.  “Como assim você queria os dados atualizados?”  “Como assim você queria todos os dados?”
  10. #2 entender os dados

  11. #2 entender os dados  Principal base do governo federal

    – ComprasNet – não tem documentação.  Mito: “ciência de dados é 80% pré-processamento e 20% modelagem”.  Realidade: ciência de dados é 80% entender os dados e 20% pré- processamento e modelagem.  “Quem tinha essa documentação era o Zé das Couves mas ele se aposentou...”
  12. #3 limpar os dados

  13. #3 limpar os dados  Salários como string.  CPF/CNPJ

    como float.  DD/MM/AA, MM/DD/AA, AA/MM/DD na mesma coluna.  -9, -1, -999, etc, como missing data (acaba entrando no cálculo das médias)  ... e assim por diante
  14. #4 esforços duplicados

  15. #4 esforços duplicados  Vários órgãos carregando, entendendo e limpando

    as mesmas bases, over and over...  Falta uma data agency.
  16. #5 open office layout

  17. #5 open office layout  É péssimo p/ a produtividade

    mas é a norma no governo federal.  Especialmente p/ quem escreve código:  leva ~25 minutos p/ retomar a produtividade após uma interrupção  http://thetomorrowlab.com/2015/01/why-developers-hate-being-interrupted/  http://swizec.com/blog/why-programmers-work-at-night/swizec/3198  http://paulgraham.com/head.html  http://tosbourn.com/a-pragmatic-approach-to-dealing-with-interruption-whilst- you-are-developing/  http://blog.ninlabs.com/2013/01/programmer-interrupted/  http://blog.fogcreek.com/protecting-developer-time-with-cases-not-chat/
  18. #6 liberdade p/ experimentar

  19. #6 liberdade p/ experimentar  Às vezes um trabalho de

    semanas não dá em nada.  Muitos falsos positivos, muitos falsos negativos, o problema deixou de ser relevante, etc.  É difícil estimar prazos (finais ou intermediários).  Chefia precisa estar ok com isso.  Mas mais importante: é preciso poder errar perante os colegas.  “psychological safety”  http://www.nytimes.com/2016/02/28/magazine/what-google-learned-from-its- quest-to-build-the-perfect-team.html
  20. #7 ouvir o usuário

  21. #7 ouvir o usuário  Quem é o usuário? Outros

    órgãos? Cidadão?  Usuário não está pagando pelo serviço, então tem menos propensão a dar feedback.  Não dá pra ouvir o usuário só no final, depois que o app levou meses p/ ser desenvolvido e o órgão gastou $$$$$.  Difícil lição: data product bacana != data product útil  “fator uau” não prediz sucesso de funcionalidade  CÉREBRO: grafo gravitacional na visualização de redes societárias  usuário: “pq essas bolinhas ficam dançando na minha frente??”
  22. #8 recrutamento

  23. #8 recrutamento  Difícil achar pessoal c/ a qualificação necessária.

     estatística/mineração & desenvolvimento de software & domínio do negócio  Recrutamento é engessado no serviço público.  salários não são negociáveis  concurso premia quem decora leis  Paliativos:  negociar fringe benefits (horário flexível, trabalho remoto, capacitação)  PNUD  terceirização
  24. como começar?

  25. treinamento  https://www.coursera.org/learn/machine-learning  https://br.udacity.com/course/intro-to-computer-science--cs101/  Mais sugestões em http://thiagomarzagao.com/resources/

     Chefia precisa tratar horas de capacitação como horas de trabalho.  Não tem atalho! Quem não sabe fazer o trabalho não sabe delegar o trabalho.
  26. open source

  27. sobre  Cientista de dados.  Atualmente no Observatório da

    Despesa Pública da CGU.  Professor de estatística e mineração de dados (thiagomarzagao.com/teaching).  Pesquisador (thiagomarzagao.com/papers).  Entusiasta de LEGO Mindstorms (github.com/thiagomarzagao/ev3py).  EPPGG, Ex-Ohio State University.  marzagao.1@osu.edu, @tmarzagao