Apresentação p/ o Summer Institutes in Computational Social Science da FGV, em 2021-06-18.
View Slide
mil problemas• n < 100 (a Caixa sozinha tem 70% dos financiamentos!)• amostras dropadas sem explicação• variáveis codificadas incorretamente• avaliadores não têm a menor idéia do que estão fazendo• sabem apenas operar o software• usam approach econométrico p/ problema de machine learning• não estamos interessados nos β, estamos interessados nos ŷ
• anúncios de venda de apartamentos residenciais no DF e GO• n = 15 mil• y = preço• X = features extraídas do anúncio• área útil, localização, vagas, etc
imóveis funcionais• usei o modelo p/ precificar 1626 imóveis da União no Plano Piloto• preço médio de R$ 1.1 milhão• preço total de R$ 1.81 bilhão
desafios de fazer data science no governo• dados são sujos• ComprasNet (preços errados, classificações erradas)• RAIS (salários errados, ocupações erradas)• vacinados (3+ doses)• adoção exige convencimento• governo atrai risco-avessos• desconfiança com resultados não-interpretáveis • mas é divertido :-)
http:/thiagomarzagao.com@tmarzagao