Programador 10 anos+
Python/Web/Cloud/Big Data/Machine Learning
Jusbrasil e Data Bootcamp
[email protected]
databootcamp.com.br
Quem sou eu?
Slide 4
Slide 4 text
DATA DRIVEN COMPANY
O que é ser
data driven?
Slide 5
Slide 5 text
O que aconteceu?
DESCRIÇÃO
Analytics
Por que aconteceu?
DIAGNÓSTICO
O que vai acontecer?
PREDIÇÃO
O que devo fazer?
PROSPECÇÃO
Dados
Decisão Ação
Human Input
Decision Automation
Decision Support
Slide 6
Slide 6 text
#HowGoogleWorks – HowGoogleWorks.net
Slide 7
Slide 7 text
OKR
Objectives and Key Results
Slide 8
Slide 8 text
OKR
Exemplos
0 Successfully launch version 3 of our product
KR Get over 100000 new signups
KR Archieve sign-up to % trial ratio of over 25%
KR Archieve trial do % paid ratio of over 50%
30 %
7838 signups
11 % trial ratio
35 % paid ratio
Slide 9
Slide 9 text
Cases
Slide 10
Slide 10 text
No content
Slide 11
Slide 11 text
GLOBO.COM
• 10 milhões de usuarios únicos por dia
• 2 milhões de conexões simultâneas
• 100 mil conteudos novos por mês
• 4 bilhões de eventos por dia
Overview
Slide 12
Slide 12 text
GLOBO.COM
Pontos de ação
• Recomendação
• Personalização
• Publicidade segmentada
• Análise de consumo e comportamento
• Experimentação (A/B)
• Data Driven (OKR)
Slide 13
Slide 13 text
GLOBO.COM
Recomendação
• 100 algoritmos rodando em AB
• Supervised, unsupervised e reinforcement
• Collaborative Filtering, Content Based, Top
• CTR, diversity, coverage, freshness, serendipity
• MAB
Slide 14
Slide 14 text
Defina
metas
Decida o
que testar
Crie
variações
Teste
Analise os
resultados
Repita
GLOBO.COM
A/B Testing
Slide 15
Slide 15 text
Análise
exploratória
Formulação
de hipóteses
Implementação
Análise do
experimento
Aprendizado
Growth
Team
Slide 16
Slide 16 text
Superset
Um explorador de dados que não
exige domínio de programação.
Open Source criado pelo airbnb,
integra-se facilmente com diversos
bancos de dados. Grande foco em
testes a/b.
DASHBOARDS
Slide 17
Slide 17 text
https://github.com/apache/incubator-superset
Slide 18
Slide 18 text
Jupyter
Principal ferramenta do data
scientist. Usado em todas grandes
empresas do Foco na junção de
documentação e código em um
mesmo lugar, deixando análises
mais transparentes.
DASHBOARDS
Slide 19
Slide 19 text
http://jupyter.org/
Slide 20
Slide 20 text
Jusbrasil
Slide 21
Slide 21 text
Jusbrasil
Overview
• 42 milhões de usuarios únicos por mês
• 1 milhão de documentos por dia
• 100% dos diarios oficiais indexados
Slide 22
Slide 22 text
Jusbrasil
Pontos de ação
• Chatbot
• Categorização de Documentos
• Análise de consumo e comportamento
• Experimentação (A/B)
• Data Driven (OKR)
Slide 23
Slide 23 text
Jusbrasil
Categorização
• 3h por diario
• Python (web, api), Java (crawlers), Spark (jobs)
• NLP: Pos tagger, NER
• LinearSVM
• 500k+ blocos por dia
Slide 24
Slide 24 text
Crawler Conversor
Big table
Xavier
Telepathy
RabbitMQ
Alertas
Slide 25
Slide 25 text
No content
Slide 26
Slide 26 text
No content
Slide 27
Slide 27 text
No content
Slide 28
Slide 28 text
No content
Slide 29
Slide 29 text
Metabase
Projeto open source com alto nível
de integração com diversos banco
de dados e layout padrão
atrativo e intuitivo
DASHBOARDS
Slide 30
Slide 30 text
https://www.metabase.com/
Slide 31
Slide 31 text
No content
Slide 32
Slide 32 text
iFood
Pontos de ação
• Experimentação (A/B)
• Data Driven (OKR)
• KPIs cross times
• Dezenas de cientistas
Slide 33
Slide 33 text
iFood
Overview
• 558k pedidos por dia
• 66k restaurantes cadastrados
• 500 cidades