Slide 1

Slide 1 text

globalcode.com.br/videos/tdc-2022-innovation

Slide 2

Slide 2 text

No content

Slide 3

Slide 3 text

Como o PicPay automatizou a expansão de catálogo de produtos da Store com Ciência de Dados TDC Innovation (2022) Fernando Felix / Ada França

Slide 4

Slide 4 text

E o que de fato é o PicPay? e a Store?

Slide 5

Slide 5 text

Missão: transformar o jeito de lidar com o dinheiro para tornar a vida das pessoas mais fácil

Slide 6

Slide 6 text

👆 No PicPay temos a Store…

Slide 7

Slide 7 text

Você encontra uma infinidade de produtos para comprar com desconto e direto pelo celular Um E-commerce onde você encontra diversas lojas em um só app

Slide 8

Slide 8 text

De onde vem os produtos?

Slide 9

Slide 9 text

Contexto A Store recebe muitos produtos para triagem. Cada produto precisava ser categorizado e aprovado manualmente em uma plataforma Integradora para ser disponibilizado no App Avaliar um produto Categorizar/Aprovar produto (37 categorias) Exibir na Store

Slide 10

Slide 10 text

Oportunidades OTIMIZAÇÃO DE RECURSOS O tempo de aprovação manual demorava 30 segundos por produto MAIOR CATÁLOGO PARA OS CLIENTES Catálogo com +100 mil produtos pendentes, uma pessoa levaria ˜17 semanas para aprovar tudo PADRONIZAÇÃO DE CLASSIFICAÇÃO Com diversos aprovadores, a classificação pode não manter o mesmo padrão

Slide 11

Slide 11 text

Dá pra resolver com Ciência de Dados/AI?

Slide 12

Slide 12 text

Construir um processo de categorização automática de produtos para ganharmos escala na aprovação. O processo deve consumir os dados e fornecer o resultado em uma Plataforma Integradora de Lojas/Produtos Objetivo

Slide 13

Slide 13 text

INGESTÃO DE DADOS CLASSIFICAÇÃO FONTE DA VERDADE Metodologia PRODUTIZAÇÃO EXTRAÇÃO DE CARACTERÍSTICAS

Slide 14

Slide 14 text

“Dados são o novo petróleo"

Slide 15

Slide 15 text

E para sairmos do outro lado, seguimos na metodologia Fonte da Verdade 2 Classificação 4 Produtização 5 Ingestão de Dados 1 Extração de Características 3 INTEGRADORA ETL DATA LAKE BATCH SCHEDULER D-1 DATABRICKS EXPERIMENTOS Plataforma de ingestão recorrente de dados brutos

Slide 16

Slide 16 text

Precisamos refinar os dados!

Slide 17

Slide 17 text

E para sairmos do outro lado, seguimos na metodologia Fonte da Verdade 2 Ingestão de Dados 1 Definir as macro categorias do E-commerce Picpay usando a similaridade de produtos e categorias das Lojas CLUSTERIZAÇÃO HIERÁRQUICA Limpeza de dados e Normalização do texto Games / Informática Móveis 37 CATEGORIAS… Classificação 4 Produtização 5 Extração de Características 3 Ingestão de +10k categorias das Lojas

Slide 18

Slide 18 text

Produtização E para sairmos do outro lado, seguimos na metodologia Fonte da Verdade 2 Ingestão de Dados 1 Classificação 4 5 Extração de Características 3 Words Embeddings Representação de uma palavra em uma estrutura de vetor com um mapeamento de informações sobre essa palavra. Rei Rainha Word2Vec Palavras em números Usar o contexto para treinamento … Gênero Realeza Fruta Violência … -0.95 0.89 0.015 0.56 0.78 0.96 -0.05 0.8 Hoje é um belo dia para passear. - (Janela deslizante = 2) {palavra} : contexto Skip Gram {contexto} : palavra Cbow Skip Gram Fazendo uma máquina entender textos e contextos!

Slide 19

Slide 19 text

Combustível para impulsionar!

Slide 20

Slide 20 text

E para sairmos do outro lado, seguimos na metodologia FEATURES DE PRODUTO Fonte da Verdade 2 Ingestão de Dados 1 Classificação 4 Produtização 5 Extração de Características 3 Escolha de métrica de desempenho AUC, MCC, F1 Words Embeddings (Nome + Descrição) Peso Altura Largura Loja Catboost (Yandex) https://github.com/MatheusCalil/Model_Opt Seleção automática de algoritmos e hiperparâmetros 70% treino 30% Teste Replicar o conhecimento aprendido

Slide 21

Slide 21 text

Fabricação Automática e Inteligente

Slide 22

Slide 22 text

E para sairmos do outro lado, seguimos na metodologia Fonte da Verdade 2 Ingestão de Dados 1 Classificação 4 Produtização 5 Extração de Características 3 Experimento Baseline/PoC Repositório de Código CI/CD Pacotes de Instalação Pipeline de Treinamento Predição Produtos Categorizados Plataforma Integradora Registro de Artefatos Features, Hiperparâmetros, Modelo e métricas Pipeline de Envio e Aprovação Business Manual Evaluation n iterações Experimento Final (MVP) Acerto >= 90%? PicPay Store Pipeline de Produtos Pendentes Automação da Entrega de Valor

Slide 23

Slide 23 text

Resultados…

Slide 24

Slide 24 text

Resultados Modelagem Com o total de 37 categorias, foi possível ter os seguintes resultados: Acurácia: 94% Recall: 94% F1-score de 94% Precision: 95% Validação manual: 98%

Slide 25

Slide 25 text

HUMANO MÁQUINA Validação Negócio: 98% ~17 produtos a cada 30s 2.000 produtos / hora 80.000 Produtos (Total) E mais analistas e clientes satisfeitos Considerando timebox de 40h para fazer aprovação de produtos Resultados Negócio Validação négocio: 86% 1 produto a cada 30s 120 produtos / hora 4.800 Produtos (Total)

Slide 26

Slide 26 text

Obrigado Store linkedin.com/in/fernandofnjr linkedin.com/in/ada-frança