Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introdução a Data Science com Python

Introdução a Data Science com Python

Em 2012, o Cientista de Dados foi chamado pela Harvard Business Review de "a profissão mais sexy do século 21". Quais são as habilidade desse profissional tão requisitado pelo mercado? Essa apresentação te ajudará a dar os primeiros passos em Data Science utilizando as principais bibliotecas oferecidas pela linguagem Python para manipulação e visualização de dados e Machine Learning.

Rodolfo Mendes

January 14, 2020
Tweet

Other Decks in Programming

Transcript

  1. Por quanto vender um imóvel? • Preço muito alto afasta

    compradores • Preço abaixo do valor é prejuízo
  2. Preço (R$) Área (m²) y: Preço em milhares de R$

    x: área construída em m² y = 2.59x + 7.8 Regressão Linear para estimar preços
  3. Formando um cientista de dados Estatística Álgebra Linear Machine Learning

    Computação Cálculo Limpeza de Dados Análise Exploratória Engenharia de Atributos Treinamento de Modelos Python R SAS Tableau PowerBI QlikView Marketing Finanças Saúde Bottom-up Top-down
  4. Processo da Ciência de Dados Extração de Dados Limpeza de

    Dados Análise Exploratória Treinamento de Modelos Implantação do Modelo Engenharia de Atributos
  5. • Notebooks Python na nuvem • Documentação e código juntos

    • Principais bibliotecas pré-instaladas • GPUs e TPUs gratuitos • Disponível em https://colab.research.google.com/
  6. • Dados tabulares em DataFrames • Carrega diversas fontes de

    dados • Limpeza de dados • Análise Exploratória • Engenharia de atributos • Disponível em https://pandas.pydata.org/
  7. • Plotagem de gráficos variados • Alto grau de customização

    • Exporta para diferentes formatos • Biblioteca de “baixo nível” • Disponível em https://matplotlib.org/
  8. • Baseado no matplotlib • Orientado para funcionalidade • Biblioteca

    de “alto nível” • Disponível em https://seaborn.pydata.org/ seaborn: statistical data visualization
  9. • Funções de pré-processamento • Treinamento de modelos ◦ separação

    de dados de treinamento e validação ◦ cross-validation ◦ funções para cálculos de score
  10. • Interface simples • 2 métodos ◦ fit(): executa o

    treinamento ◦ predict(): retorna a estimativa • Disponível em https://scikit-learn.org/