Slide 1

Slide 1 text

No content

Slide 2

Slide 2 text

Por quanto vender um imóvel? ● Preço muito alto afasta compradores ● Preço abaixo do valor é prejuízo

Slide 3

Slide 3 text

Preço (R$) Área (m²) y: Preço em milhares de R$ x: área construída em m² y = 2.59x + 7.8 Regressão Linear para estimar preços

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

Formando um cientista de dados Estatística Álgebra Linear Machine Learning Computação Cálculo Limpeza de Dados Análise Exploratória Engenharia de Atributos Treinamento de Modelos Python R SAS Tableau PowerBI QlikView Marketing Finanças Saúde Bottom-up Top-down

Slide 6

Slide 6 text

Processo da Ciência de Dados Extração de Dados Limpeza de Dados Análise Exploratória Treinamento de Modelos Implantação do Modelo Engenharia de Atributos

Slide 7

Slide 7 text

Caixa de Ferramentas

Slide 8

Slide 8 text

● Notebooks Python na nuvem ● Documentação e código juntos ● Principais bibliotecas pré-instaladas ● GPUs e TPUs gratuitos ● Disponível em https://colab.research.google.com/

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

● Dados tabulares em DataFrames ● Carrega diversas fontes de dados ● Limpeza de dados ● Análise Exploratória ● Engenharia de atributos ● Disponível em https://pandas.pydata.org/

Slide 12

Slide 12 text

Leitura de Dados

Slide 13

Slide 13 text

Medidas Resumo

Slide 14

Slide 14 text

Matriz de Correlação

Slide 15

Slide 15 text

Operações Vetorizadas

Slide 16

Slide 16 text

One-hot encoding

Slide 17

Slide 17 text

● Plotagem de gráficos variados ● Alto grau de customização ● Exporta para diferentes formatos ● Biblioteca de “baixo nível” ● Disponível em https://matplotlib.org/

Slide 18

Slide 18 text

● Baseado no matplotlib ● Orientado para funcionalidade ● Biblioteca de “alto nível” ● Disponível em https://seaborn.pydata.org/ seaborn: statistical data visualization

Slide 19

Slide 19 text

seaborn: statistical data visualization

Slide 20

Slide 20 text

seaborn: statistical data visualization

Slide 21

Slide 21 text

seaborn: statistical data visualization

Slide 22

Slide 22 text

● Algoritmos de machine learning ○ Classificação ○ Regressão ○ Clustering ○ Redução de dimensionalidade

Slide 23

Slide 23 text

● Funções de pré-processamento ● Treinamento de modelos ○ separação de dados de treinamento e validação ○ cross-validation ○ funções para cálculos de score

Slide 24

Slide 24 text

● Interface simples ● 2 métodos ○ fit(): executa o treinamento ○ predict(): retorna a estimativa ● Disponível em https://scikit-learn.org/

Slide 25

Slide 25 text

Atributos entrada/saída

Slide 26

Slide 26 text

Dados treinamento/teste

Slide 27

Slide 27 text

Treinamento e predição

Slide 28

Slide 28 text

Avaliação do Modelo

Slide 29

Slide 29 text

Create your first machine learning model in 5 minutes with Google Colab http://bit.ly/mlgc5min