Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Como o PicPay automatizou a expansão de catálogo de produtos da Store com Ciência de Dados

Como o PicPay automatizou a expansão de catálogo de produtos da Store com Ciência de Dados

O PicPay recebe dados de muitos produtos de diversas lojas para serem vendidos no seu Marketplace (Store). O processo de triagem para expansão do catálogo do marketplace era realizado manualmente pelos analistas de operações. Considerando que cada triagem de produto durava ~30s, o tempo estimado para 16 mil produtos num mês era de ~133h. Esse processo era oneroso e impedia que os analistas focassem em atividades mais complexas (ex triagem de fraudes).

Vamos apresentar como o time de dados da Store criou uma solução baseada em Ciência de Dados para fazer triagem de produtos, que fez reduzir o tempo do processo em 94% e ajudou a expandir o catálogo mais rapidamente para os clientes.

Fernando Felix

June 02, 2022
Tweet

More Decks by Fernando Felix

Other Decks in Technology

Transcript

  1. Como o PicPay automatizou a expansão de catálogo de produtos

    da Store com Ciência de Dados TDC Innovation (2022) Fernando Felix / Ada França
  2. Missão: transformar o jeito de lidar com o dinheiro para

    tornar a vida das pessoas mais fácil
  3. Você encontra uma infinidade de produtos para comprar com desconto

    e direto pelo celular Um E-commerce onde você encontra diversas lojas em um só app
  4. Contexto A Store recebe muitos produtos para triagem. Cada produto

    precisava ser categorizado e aprovado manualmente em uma plataforma Integradora para ser disponibilizado no App Avaliar um produto Categorizar/Aprovar produto (37 categorias) Exibir na Store
  5. Oportunidades OTIMIZAÇÃO DE RECURSOS O tempo de aprovação manual demorava

    30 segundos por produto MAIOR CATÁLOGO PARA OS CLIENTES Catálogo com +100 mil produtos pendentes, uma pessoa levaria ˜17 semanas para aprovar tudo PADRONIZAÇÃO DE CLASSIFICAÇÃO Com diversos aprovadores, a classificação pode não manter o mesmo padrão
  6. Construir um processo de categorização automática de produtos para ganharmos

    escala na aprovação. O processo deve consumir os dados e fornecer o resultado em uma Plataforma Integradora de Lojas/Produtos Objetivo
  7. E para sairmos do outro lado, seguimos na metodologia Fonte

    da Verdade 2 Classificação 4 Produtização 5 Ingestão de Dados 1 Extração de Características 3 INTEGRADORA ETL DATA LAKE BATCH SCHEDULER D-1 DATABRICKS EXPERIMENTOS Plataforma de ingestão recorrente de dados brutos
  8. E para sairmos do outro lado, seguimos na metodologia Fonte

    da Verdade 2 Ingestão de Dados 1 Definir as macro categorias do E-commerce Picpay usando a similaridade de produtos e categorias das Lojas CLUSTERIZAÇÃO HIERÁRQUICA Limpeza de dados e Normalização do texto Games / Informática Móveis 37 CATEGORIAS… Classificação 4 Produtização 5 Extração de Características 3 Ingestão de +10k categorias das Lojas
  9. Produtização E para sairmos do outro lado, seguimos na metodologia

    Fonte da Verdade 2 Ingestão de Dados 1 Classificação 4 5 Extração de Características 3 Words Embeddings Representação de uma palavra em uma estrutura de vetor com um mapeamento de informações sobre essa palavra. Rei Rainha Word2Vec Palavras em números Usar o contexto para treinamento … Gênero Realeza Fruta Violência … -0.95 0.89 0.015 0.56 0.78 0.96 -0.05 0.8 Hoje é um belo dia para passear. - (Janela deslizante = 2) {palavra} : contexto Skip Gram {contexto} : palavra Cbow Skip Gram Fazendo uma máquina entender textos e contextos!
  10. E para sairmos do outro lado, seguimos na metodologia FEATURES

    DE PRODUTO Fonte da Verdade 2 Ingestão de Dados 1 Classificação 4 Produtização 5 Extração de Características 3 Escolha de métrica de desempenho AUC, MCC, F1 Words Embeddings (Nome + Descrição) Peso Altura Largura Loja Catboost (Yandex) https://github.com/MatheusCalil/Model_Opt Seleção automática de algoritmos e hiperparâmetros 70% treino 30% Teste Replicar o conhecimento aprendido
  11. E para sairmos do outro lado, seguimos na metodologia Fonte

    da Verdade 2 Ingestão de Dados 1 Classificação 4 Produtização 5 Extração de Características 3 Experimento Baseline/PoC Repositório de Código CI/CD Pacotes de Instalação Pipeline de Treinamento Predição Produtos Categorizados Plataforma Integradora Registro de Artefatos Features, Hiperparâmetros, Modelo e métricas Pipeline de Envio e Aprovação Business Manual Evaluation n iterações Experimento Final (MVP) Acerto >= 90%? PicPay Store Pipeline de Produtos Pendentes Automação da Entrega de Valor
  12. Resultados Modelagem Com o total de 37 categorias, foi possível

    ter os seguintes resultados: Acurácia: 94% Recall: 94% F1-score de 94% Precision: 95% Validação manual: 98%
  13. HUMANO MÁQUINA Validação Negócio: 98% ~17 produtos a cada 30s

    2.000 produtos / hora 80.000 Produtos (Total) E mais analistas e clientes satisfeitos Considerando timebox de 40h para fazer aprovação de produtos Resultados Negócio Validação négocio: 86% 1 produto a cada 30s 120 produtos / hora 4.800 Produtos (Total)