Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Pandas - SciPy #3

Pandas - SciPy #3

Vinicius Mesel (@vmesel)

October 14, 2016
Tweet

More Decks by Vinicius Mesel (@vmesel)

Other Decks in Programming

Transcript

  1. O arquivo possui 22 colunas e mais de 65 mil

    linhas! Sim, pandinha, é demais! Para nos ajudar com a análise é importante uma pergunta: COMO ORGANIZAR OS DADOS?
  2. import pandas as pd #importar Pandas import numpy as np

    #importar numpy t = pd.read_excel('receitascandidatos1.xls',index_col=None, na_values=['NA']) #ler arquivo xls df = t[['UF'] + ['Nome candidato'] + ['Tipo receita'] + ['Valor receita']] #selecionar dados desejados uf = df[(df.UF.isin(['SP', 'RJ']))] #filtrar SP e RJ uf.groupby(['UF','Nome candidato', 'Tipo receita', 'Valor receita']).sum() #agrupar entradas tf = pd.pivot_table(uf,index=['UF','Nome candidato'], columns=['Tipo receita'], values='Valor receita', aggfunc=np.sum,fill_value=0) #reordenar dados tf.to_csv(‘file_name.csv’, encoding='utf-8') #salvar em arquivo CSV
  3. O que estava nas linhas (Tipo da receita) se tornou

    colunas com o uso do “pivot table”
  4. tf.info() <class 'pandas.core.frame.DataFrame'> MultiIndex: 8610 entries, (RJ, ABIEL CARVALHO DE

    AQUINO) to (SP, ÍGOR VINICIUS RAMOS OLIVEIRA) Data columns (total 4 columns): Recursos de outros candidatos 8610 non-null float64 Recursos de partido político 8610 non-null float64 Recursos de pessoas físicas 8610 non-null float64 Recursos próprios 8610 non-null float64 dtypes: float64(4) memory usage: 336.3+ KB tf.head() tf.tail()
  5. tf.describe() Tipo receita Recursos de outros candidatos Recursos de partido

    político \ count 8610.000000 8610.000000 mean 286.581609 313.964129 std 1073.964616 2511.521873 min 0.000000 0.000000 25% 8.827500 0.000000 50% 142.200000 0.000000 75% 292.880000 72.500000 max 61309.500000 107248.760000 Tipo receita Recursos de pessoas físicas Recursos próprios count 8610.000000 8610.000000 mean 2.777294 0.621834 std 61.513543 26.299834 min 0.000000 0.000000 25% 0.000000 0.000000 50% 0.000000 0.000000 75% 0.000000 0.000000 max 3739.000000 2115.000000