Upgrade to Pro — share decks privately, control downloads, hide ads and more …

mineração de dados no governo

mineração de dados no governo

CONIP 2017, 31/05/2017

Thiago Marzagão

May 31, 2017
Tweet

More Decks by Thiago Marzagão

Other Decks in Research

Transcript

  1. mineração de dados no governo
     o que dá p/ fazer?
     quais os desafios?
     como começar?
    Thiago Marzagão

    View full-size slide

  2. o que dá p/ fazer?

    View full-size slide

  3. quais os desafios?

    View full-size slide

  4. #1 obter os dados

    View full-size slide

  5. #1 obter os dados
     Órgãos não compartilham dados entre si.
     Nem mesmo quando os dados são públicos (!).
     “Ok, mas só se firmarmos um convênio”.
     “Ok, mas a extração custa R$ 39.844.095.098.490.802.984.309.582.304”.
     “Como assim você queria os dados atualizados?”
     “Como assim você queria todos os dados?”

    View full-size slide

  6. #2 entender os dados

    View full-size slide

  7. #2 entender os dados
     Principal base do governo federal – ComprasNet – não tem documentação.
     Mito: “ciência de dados é 80% pré-processamento e 20% modelagem”.
     Realidade: ciência de dados é 80% entender os dados e 20% pré-
    processamento e modelagem.
     “Quem tinha essa documentação era o Zé das Couves mas ele se
    aposentou...”

    View full-size slide

  8. #3 limpar os dados

    View full-size slide

  9. #3 limpar os dados
     Salários como string.
     CPF/CNPJ como float.
     DD/MM/AA, MM/DD/AA, AA/MM/DD na mesma coluna.
     -9, -1, -999, etc, como missing data (acaba entrando no cálculo das médias)
     ... e assim por diante

    View full-size slide

  10. #4 esforços duplicados

    View full-size slide

  11. #4 esforços duplicados
     Vários órgãos carregando, entendendo e limpando as mesmas bases, over
    and over...
     Falta uma data agency.

    View full-size slide

  12. #5 open office layout

    View full-size slide

  13. #5 open office layout
     É péssimo p/ a produtividade mas é a norma no governo federal.
     Especialmente p/ quem escreve código:
     leva ~25 minutos p/ retomar a produtividade após uma interrupção
     http://thetomorrowlab.com/2015/01/why-developers-hate-being-interrupted/
     http://swizec.com/blog/why-programmers-work-at-night/swizec/3198
     http://paulgraham.com/head.html
     http://tosbourn.com/a-pragmatic-approach-to-dealing-with-interruption-whilst-
    you-are-developing/
     http://blog.ninlabs.com/2013/01/programmer-interrupted/
     http://blog.fogcreek.com/protecting-developer-time-with-cases-not-chat/

    View full-size slide

  14. #6 liberdade p/ experimentar

    View full-size slide

  15. #6 liberdade p/ experimentar
     Às vezes um trabalho de semanas não dá em nada.
     Muitos falsos positivos, muitos falsos negativos, o problema deixou de ser relevante,
    etc.
     É difícil estimar prazos (finais ou intermediários).
     Chefia precisa estar ok com isso.
     Mas mais importante: é preciso poder errar perante os colegas.
     “psychological safety”
     http://www.nytimes.com/2016/02/28/magazine/what-google-learned-from-its-
    quest-to-build-the-perfect-team.html

    View full-size slide

  16. #7 ouvir o usuário

    View full-size slide

  17. #7 ouvir o usuário
     Quem é o usuário? Outros órgãos? Cidadão?
     Usuário não está pagando pelo serviço, então tem menos propensão a dar
    feedback.
     Não dá pra ouvir o usuário só no final, depois que o app levou meses p/ ser
    desenvolvido e o órgão gastou $$$$$.
     Difícil lição: data product bacana != data product útil
     “fator uau” não prediz sucesso de funcionalidade
     CÉREBRO: grafo gravitacional na visualização de redes societárias
     usuário: “pq essas bolinhas ficam dançando na minha frente??”

    View full-size slide

  18. #8 recrutamento

    View full-size slide

  19. #8 recrutamento
     Difícil achar pessoal c/ a qualificação necessária.
     estatística/mineração & desenvolvimento de software & domínio do negócio
     Recrutamento é engessado no serviço público.
     salários não são negociáveis
     concurso premia quem decora leis
     Paliativos:
     negociar fringe benefits (horário flexível, trabalho remoto, capacitação)
     PNUD
     terceirização

    View full-size slide

  20. como começar?

    View full-size slide

  21. treinamento
     https://www.coursera.org/learn/machine-learning
     https://br.udacity.com/course/intro-to-computer-science--cs101/
     Mais sugestões em http://thiagomarzagao.com/resources/
     Chefia precisa tratar horas de capacitação como horas de trabalho.
     Não tem atalho! Quem não sabe fazer o trabalho não sabe delegar o
    trabalho.

    View full-size slide

  22. sobre
     Cientista de dados.
     Atualmente no Observatório da Despesa Pública da CGU.
     Professor de estatística e mineração de dados (thiagomarzagao.com/teaching).
     Pesquisador (thiagomarzagao.com/papers).
     Entusiasta de LEGO Mindstorms (github.com/thiagomarzagao/ev3py).
     EPPGG, Ex-Ohio State University.
    [email protected], @tmarzagao

    View full-size slide