Slide 1

Slide 1 text

DATA DRIVEN COMPANY

Slide 2

Slide 2 text

Quem sou eu?

Slide 3

Slide 3 text

Programador 10 anos+ Python/Web/Cloud/Big Data/Machine Learning Jusbrasil e Data Bootcamp [email protected] databootcamp.com.br Quem sou eu?

Slide 4

Slide 4 text

DATA DRIVEN COMPANY O que é ser data driven?

Slide 5

Slide 5 text

O que aconteceu? DESCRIÇÃO Analytics Por que aconteceu? DIAGNÓSTICO O que vai acontecer? PREDIÇÃO O que devo fazer? PROSPECÇÃO Dados Decisão Ação Human Input Decision Automation Decision Support

Slide 6

Slide 6 text

#HowGoogleWorks – HowGoogleWorks.net

Slide 7

Slide 7 text

OKR Objectives and Key Results

Slide 8

Slide 8 text

OKR Exemplos 0 Successfully launch version 3 of our product KR Get over 100000 new signups KR Archieve sign-up to % trial ratio of over 25% KR Archieve trial do % paid ratio of over 50% 30 % 7838 signups 11 % trial ratio 35 % paid ratio

Slide 9

Slide 9 text

Cases

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

GLOBO.COM • 10 milhões de usuarios únicos por dia • 2 milhões de conexões simultâneas • 100 mil conteudos novos por mês • 4 bilhões de eventos por dia Overview

Slide 12

Slide 12 text

GLOBO.COM Pontos de ação • Recomendação • Personalização • Publicidade segmentada • Análise de consumo e comportamento • Experimentação (A/B) • Data Driven (OKR)

Slide 13

Slide 13 text

GLOBO.COM Recomendação • 100 algoritmos rodando em AB • Supervised, unsupervised e reinforcement • Collaborative Filtering, Content Based, Top • CTR, diversity, coverage, freshness, serendipity • MAB

Slide 14

Slide 14 text

Defina metas Decida o que testar Crie variações Teste Analise os resultados Repita GLOBO.COM A/B Testing

Slide 15

Slide 15 text

Análise exploratória Formulação de hipóteses Implementação Análise do experimento Aprendizado Growth Team

Slide 16

Slide 16 text

Superset Um explorador de dados que não exige domínio de programação. Open Source criado pelo airbnb, integra-se facilmente com diversos bancos de dados. Grande foco em testes a/b. DASHBOARDS

Slide 17

Slide 17 text

https://github.com/apache/incubator-superset

Slide 18

Slide 18 text

Jupyter Principal ferramenta do data scientist. Usado em todas grandes empresas do Foco na junção de documentação e código em um mesmo lugar, deixando análises mais transparentes. DASHBOARDS

Slide 19

Slide 19 text

http://jupyter.org/

Slide 20

Slide 20 text

Jusbrasil

Slide 21

Slide 21 text

Jusbrasil Overview • 42 milhões de usuarios únicos por mês • 1 milhão de documentos por dia • 100% dos diarios oficiais indexados

Slide 22

Slide 22 text

Jusbrasil Pontos de ação • Chatbot • Categorização de Documentos • Análise de consumo e comportamento • Experimentação (A/B) • Data Driven (OKR)

Slide 23

Slide 23 text

Jusbrasil Categorização • 3h por diario • Python (web, api), Java (crawlers), Spark (jobs) • NLP: Pos tagger, NER • LinearSVM • 500k+ blocos por dia

Slide 24

Slide 24 text

Crawler Conversor Big table Xavier Telepathy RabbitMQ Alertas

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

Metabase Projeto open source com alto nível de integração com diversos banco de dados e layout padrão atrativo e intuitivo DASHBOARDS

Slide 30

Slide 30 text

https://www.metabase.com/

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

iFood Pontos de ação • Experimentação (A/B) • Data Driven (OKR) • KPIs cross times • Dezenas de cientistas

Slide 33

Slide 33 text

iFood Overview • 558k pedidos por dia • 66k restaurantes cadastrados • 500 cidades