AM centrado em modelo ou dados? Um estudo de caso com Shopify Payments

AM centrado em modelo ou dados? Um estudo de caso
com Shopify Payments

Olá, meu nome é Breno! ❏ Staff Data Scientist ❏
M.Sc. em AM ❏ BCC UFSCar 011 ❏ XP em Web Dev ❏ @brenolf (GitHub) ❏ //breno.io

175 MM+ Shopify em números países lojas $6.3B na BFCM
de 2021 $590B Em total de vendas

Buscas por AM nos últimos anos

“Um programa aprende de uma experiência E sob um conjunto
de tarefas T e performance P, se sua performance em tarefas de T, medido por P, melhora com experiência em E.” Tom Mitchell - Carnegie Mellon University

Shopify declara "código amarelo" em fraude e gerência de risco
• Risco nunca foi centralizado como uma organização • Vários times criados/unidos • Incentivo a utilizar dados para automação do trabalho de agentes de risco • Perdas no Shopify Payments poderiam ser mitigadas?

Shopify Payments é uma maneira fácil de aceitar pagamentos online,
tirando a chatice de alocar 3P nas lojas.

Shopify Payments é uma maneira fácil de aceitar pagamentos online,
tirando a chatice de alocar 3P nas lojas. Stripe provê APIs para processamento de pagamento para sites. É um parceiro do Shopify que também divide a responsabilidade de lucros e perdas.

Mas qual é o problema, mesmo?

Conta de uma loja Payments

Por onde começar?

Entrevistas • Novo contexto • Entrevistas com stakeholders e times
para entender os processos • Escrita de um projeto, explorando o contexto e histórico • Proposta de alvo: saldo nos próximos 90 dias

Exploração • Explorando em SQL os atributos vindos dos stakeholders
• Validação da hierarquia ◦ Extremamente desbalanceado • Validação de queries com times especializados

Modelagem • Transformação de SQL em PySpark • Modelagem dos
dados em tabelas separadas para features (7+ jobs) • Criação de pipeline para separação de teste e treino • Criação de métricas para validação

AM • Testando hipóteses ◦ Diferente em um projeto como
esse! • Diferentes arquiteturas consideradas • Modelagem inicial em Jupyter ◦ Após validação, trazer modelo para produção

5% dos dados / 15 atributos Classiﬁcação se haverá 30+
dias perdas nos próximos 90 dias Detecção de anomalia se haverá 30+ dias perdas nos próximos 90 dias Regressão para prever os próximos 90 dias de saldo

5% dos dados / 15 atributos Classiﬁcação se haverá 30+
dias perdas nos próximos 90 dias Detecção de anomalia se haverá 30+ dias perdas nos próximos 90 dias Regressão para prever os próximos 90 dias de saldo Desempenho promissor para revocação (TP/P): ~60% Árvores de isolamento só focaram nos casos mais agressivos de perda Primeiros 30 dias tinham Erro Absoluto Médio baixo, mas cresceu muito nos outros 60

20% dos dados / 15 atributos Desempenho mais perto do
alvo de revocação (TP/P): ~70%

20% dos dados / 15 atributos Desempenho mais perto do
alvo de revocação (TP/P): ~75% Peso especial para amostras com maiores perdas no ﬁm dos 90 dias

5 MM+ Alguns resultados ﬁnais* meses que a maior perda
do Payments seria capturada potencial em perdas salvas ~70% revocação em dólar atingida para aviso em curto período

? shorturl.at/pAL06

Exemplo

Principais aprendizados • Nem sempre um modelo mais complexo dará
métricas melhores • Entender o domínio permite que utilizemos melhores atributos • A qualidade e volume dos dados dita a qualidade de um preditor: dados ruins = predições ruins • Entender o contexto ajuda na seleção de um algoritmo de predição

Obrigado! @brenolf //breno.io

AM centrado em modelo ou dados? Um estudo de ca...

AM centrado em modelo ou dados? Um estudo de caso com Shopify Payments

Breno Freitas

More Decks by Breno Freitas

Other Decks in Technology

Featured

Transcript