#1 obter os dados Órgãos não compartilham dados entre si. Nem mesmo quando os dados são públicos (!). “Ok, mas só se firmarmos um convênio”. “Ok, mas a extração custa R$ 39.844.095.098.490.802.984.309.582.304”. “Como assim você queria os dados atualizados?” “Como assim você queria todos os dados?”
#2 entender os dados Principal base do governo federal – ComprasNet – não tem documentação. Mito: “ciência de dados é 80% pré-processamento e 20% modelagem”. Realidade: ciência de dados é 80% entender os dados e 20% pré- processamento e modelagem. “Quem tinha essa documentação era o Zé das Couves mas ele se aposentou...”
#3 limpar os dados Salários como string. CPF/CNPJ como float. DD/MM/AA, MM/DD/AA, AA/MM/DD na mesma coluna. -9, -1, -999, etc, como missing data (acaba entrando no cálculo das médias) ... e assim por diante
#5 open office layout É péssimo p/ a produtividade mas é a norma no governo federal. Especialmente p/ quem escreve código: leva ~25 minutos p/ retomar a produtividade após uma interrupção http://thetomorrowlab.com/2015/01/why-developers-hate-being-interrupted/ http://swizec.com/blog/why-programmers-work-at-night/swizec/3198 http://paulgraham.com/head.html http://tosbourn.com/a-pragmatic-approach-to-dealing-with-interruption-whilst- you-are-developing/ http://blog.ninlabs.com/2013/01/programmer-interrupted/ http://blog.fogcreek.com/protecting-developer-time-with-cases-not-chat/
#6 liberdade p/ experimentar Às vezes um trabalho de semanas não dá em nada. Muitos falsos positivos, muitos falsos negativos, o problema deixou de ser relevante, etc. É difícil estimar prazos (finais ou intermediários). Chefia precisa estar ok com isso. Mas mais importante: é preciso poder errar perante os colegas. “psychological safety” http://www.nytimes.com/2016/02/28/magazine/what-google-learned-from-its- quest-to-build-the-perfect-team.html
#7 ouvir o usuário Quem é o usuário? Outros órgãos? Cidadão? Usuário não está pagando pelo serviço, então tem menos propensão a dar feedback. Não dá pra ouvir o usuário só no final, depois que o app levou meses p/ ser desenvolvido e o órgão gastou $$$$$. Difícil lição: data product bacana != data product útil “fator uau” não prediz sucesso de funcionalidade CÉREBRO: grafo gravitacional na visualização de redes societárias usuário: “pq essas bolinhas ficam dançando na minha frente??”
#8 recrutamento Difícil achar pessoal c/ a qualificação necessária. estatística/mineração & desenvolvimento de software & domínio do negócio Recrutamento é engessado no serviço público. salários não são negociáveis concurso premia quem decora leis Paliativos: negociar fringe benefits (horário flexível, trabalho remoto, capacitação) PNUD terceirização
treinamento https://www.coursera.org/learn/machine-learning https://br.udacity.com/course/intro-to-computer-science--cs101/ Mais sugestões em http://thiagomarzagao.com/resources/ Chefia precisa tratar horas de capacitação como horas de trabalho. Não tem atalho! Quem não sabe fazer o trabalho não sabe delegar o trabalho.
sobre Cientista de dados. Atualmente no Observatório da Despesa Pública da CGU. Professor de estatística e mineração de dados (thiagomarzagao.com/teaching). Pesquisador (thiagomarzagao.com/papers). Entusiasta de LEGO Mindstorms (github.com/thiagomarzagao/ev3py). EPPGG, Ex-Ohio State University. [email protected].edu, @tmarzagao