Failure Friday: Como projetos de Machine Learning falham

Flávio Clésio, M.e - Data Meetup Brasil #11 ﬂavioclesio at
gmail dot com - fclesio - @ﬂavioclesio Failure Friday: Como projetos de Machine Learning falham

Sobre • Staff Data/Machine Learning Engineer na Artsy Inc. •
M.e. Engenharia de Produção (Inteligência Computacional) • Blogger em ﬂavioclesio.com • Talks em algumas conferências (Strata Hadoop World, Spark Summit, PAPIS.io, The Developers Conference, e outros) 2 ﬂavioclesio Flávio Clésio

Disclaimer #1 Todas as visões discutidas aqui são baseadas na
minha experiência e visão em relação ao que eu tenho trabalhado e acompanhado nos últimos anos, bem como via observação direta, consultoria e participação em comunidades. Em outras palavras isso não é ciência, playbook de melhores práticas, BroScience, ou qualquer tipo de ciência. A ideia principal aqui é a troca de experiências dentro da perspectiva de um praticante de ML.

Disclaimer #2 Todas as informações e visões expressas nesta apresentação
são minhas. Elas não fora revisadas ou mesmo aprovadas pelos meus empregadores sejam eles atuais, passados e futuros. Eu não falo em nome de nenhuma empresa. All views expressed in this presentation are my own. They have not been reviewed or approved by my current, past, or either future employers. I do not speak on behalf of any company.

• Porque falhas e indisponibilidades em sistemas de ML importam?
• Tipos de falhas em projetos de Machine Learning • Ferramentas para auxiliar o gerenciamento de incidentes Agenda

Porque falhas e indisponibilidades em sistemas de ML importam?

ML está cada vez mais comum e ocupando espaço crítico
em inúmeras indústrias, e com mais negócios e organizações dependendo desse tipo de tecnologia, os impactos são muito mais ampliﬁcados. Nessa talk vamos falar da indisponibilidade de sistemas de ML dentro da perspectiva técnica, de alguns tipos de falhas em projetos propriamente dito (com um pouco de parte técnica também), e algumas ferramentas que podem ser usadas na detecção e gerenciamento de incidentes. Machine Learning em produção

Indisponibilidades e falhas não são um tópico romântico • Não
é sexy... • Infelizmente ainda existem culturas corporativas que não dão segurança psicológica suﬁciente para a admissão de erros (geralmente se tem uma cultura de apuração de responsabilidades e culpa) • Mentalidade atrasada de que falar sobre uma indisponibilidade pode ser ruim para “branding” corporativo • Muita gente que “morreu” no meio do processo não está mais presente para compartilhar (e.g. empresas que faliram, pessoas demitidas, sistema de regras que entrou no lugar do algoritmo de ML hypado) • Resquícios de mentalidade “macho man” em culturas de engenharia que não querem parecer ou mostrar vulnerabilidade em meio a indisponibilidades

Indisponibilidades = Aprendizado = Melhoria • Sempre tem uma lição
a ser aprendida em qualquer processo de indisponibilidade, mesmo que não seja algo acionável • Para cada lição aprendida, o sistema como um todo ﬁca mais conﬁável

Mas por que resolver o problema não é o bastante?
• Ajustes rápidos, localizados e sem muito processo de reﬂexão a primeira vista soa produtivo (e.g. “Olha como a pessoa/time X resolveu o problema”) • Entretanto isso pode levar a uma cultura de cultivo de inúmeros problemas dormentes e riscos silenciosos que poderiam ser eliminados com simples postmortem/reporte de incidente • Somente resolver o problema promove uma estagnação de cultura de engenharia ao invés de ter uma reforma continua • Focar apenas em ajustes locais é como ter um problema com mosquitos e ﬁcar batendo neles todos os dias, ao invés de resolver o problema simplesmente drenando o brejo no qual eles se reproduzem.

Indisponibilidade em sistemas de M Source: Understanding models of error
and how they apply in clinical practice

Tipos de falhas em projetos de Machine Learning

Projetos “Vôo à Lua” (Moonshot) Características: - Top-Down - Geralmente
a empresa tenta resolver um problema de escopo muito amplo com sem uma análise de viabilidade como uma FAANG mesmo tendo menos empregados do que essas empresas têm de engenheiros (Fonte) - Começa como um super projeto e acaba como uma “marcha da morte”. No ﬁnal geralmente as pessoas são realocadas, ou se demitem ou são demitidas - É apenas meta técnica para RP ou pescar investidores/talentos (ex: Usar ML em <<$NOME_PRODUTO>>) O que pode ajudar: - Deﬁnir as expectativas e viabilidade o mais rápido possível - Usar esse tipo de projeto com uma mentalidade muito mais de “aprendizado e potencial inovação” do que de entrega - Na dúvida considere um local de trabalho no qual você possa trazer mais valor para a sua carreira e/ou sociedade

Experimentos, implementação e avaliação errados Características: - Padrão “Deploy and
forget“ - Ausência completa de métricas de sucesso dos modelos - Decisões sobre projetos de dados que levam em consideração… “intuição”(?) - “Vanity metrics”, métricas acadêmicas, ou métricas proxy ruins para a indicação de sucesso (nDCG =! $$, Precision/Recall <> $$) O que pode ajudar: - Experimentos com usuários é o padrão ouro (e.g. Bandit, A/B, Concierge Tests, Alpha, Shadow Mode, Early Adopters, etc.) - Trabalho fundacional de educação para mudança de cultura - Entendimento mútuo entre negócios e engenharia

Falta (ausência) de aderência em práticas de SWE Características: -
eXtreme Go Horse Methodology (XGH) - Fabuloso mundo do “Sem”: Sem testes, sem logs, sem CI, sem CI, sem Git, sem tracking de experimentos, sem versionamento de dados - Todo trabalho apenas salvo em uma máquina local em um arquivo com o nome “Untitled38.ipynb” O que pode ajudar: - Notebooks são sensacionais para experimentação, mas a não ser que o seu time seja o Netﬂix colocar em produção é difícil e a manutenção vai cobrar o seu preço depois via débito técnico - Programação em Par e/ou Ensemble/Mobbing entre cientistas de dados e Eng. Software com transferência de conhecimento - Fundamentar para os tomadores de decisão o custo de overhead (ou os riscos) de não ter isso implementado

Ferramentas > Ecossistemas Características: - O pipeline de ML inteiro
em um único “canônico-data-cloud-vendor-faz-tudo”... - ou linguagem... - ou ferramenta (e.g. passagem somente de ida para a eternidade em que as pessoas que implementaram esperam estar em um novo emprego antes que alguém decida migrar) O que pode ajudar: - A melhor ferramenta não é aquela que apenas resolve o problema, mas que também faz isso da forma mais eﬁciente possível - Se uma escolha for inevitável, escolha ecossistemas ao invés preferências pessoais ou familiaridade (ex: RDD) - Diversidade de ferramentas é preferível a “zoológico de tecnologias” - A não ser que o projeto seja em uma FAANG (ou Tesla) ou requerimentos muito especíﬁcos (e.g. baixa latência na fase de inferência, modelo embarcado, inferência em mobile, etc) pegue o ecossistema com o melhor conjunto de ferramentas e linguagens que ofereça soluções (ou o caminho delas) para o problema que deve ser resolvido

Mentalidade de Laboratório Características: - Julgamento do sucesso de um
projeto ou sistema de ML por conta de rigor técnico-acadêmico ao invés de combinar essa visão com uma melhoria de uma experiência de usuário e/ou melhoria de um processo ou de uma perspectiva de negócios - Projetos que moram no “fantástico mundo da avaliação Offline” - Apelo em demasia a implementações que reflitam apenas o estado da arte em detrimento de performance e aspectos práticos - Um apelo a falso senso de rigor que inunda stakeholders com tecnicalidades desnecessárias O que pode ajudar: - O ideal sempre é uma mistura entre o pragmatismo do mundo corporativo com a mentalidade de inovação e descoberta da academia - Expectativas bem definidas entre os stakeholders do projeto e agenda clara de entregáveis/resultados - Experimentação offline é extremamente útil e tem um grande valor, mas não é uma panaceia

Projeto não ligado em qualquer resultado de negócio Características: -
Não gera receita/lucro/benefício para o usuário ﬁnal - Sem relação a qualquer processo de otimização - Sem relação a qualquer tipo de KPI ou OKR - Sem prazo de entrega - Não apresenta qualquer melhoria prática para algum produto ou mesmo remove fricção da experiência de usuário O que pode ajudar: - Ao menos que você esteja trabalhando em algum laboratório de pesquisa ou como “Research Engineer”, ﬁque longe desses projetos - O ideal que as iniciativas de produtos de dados que usam ML sejam o mais próximo possível do negócio (i.e. negócio =$$$) - Em casos extremos considere mudar de projeto. O fato é que projetos não ligados a objetivos de negócios (i.e. negócios =$$$) são fontes de destruição de valor e são redundantes (i.e. redundantes = dispensáveis)

Algoritmos > Regras + Heurísticas + Regex + Humanos no
Loop Características: - Viés voltado para o treinamento de modelos ao invés de um viés “pró-produção” - Uma impressão inocente de que treinando um modelo com apenas usando código “forkado” da internet vai encapsular todas as dinâmicas dos dados e do negócio e as suas complexidades inerentes - Uma visão que subestima o contexto de negócio e capacidades do sistema como um todo O que pode ajudar: - Começar um projeto sempre que possível com conjunto de heurísticas, regras e até mesmo com partes com seres humanos no loop e com deployment não apenas tem um feedback mais veloz como também gera momentum - É mais fácil convencer chefes e demais stakeholders com resultados concretos de código em produção do que slides de powerpoint.

Product Management clueless about ML projects Características: - Cerimônias ao
invés de código rodando - Muitas PoC e MVPs mas sem nenhum sistema - Muitas incertezas em relação a esse tipo de projeto - Projetos que começam sem proposta de valor ou mesmo análise de viabilidade - Iniciativas que miram previsibilidade e repetição ao invés de exploração, descoberta e oportunismo O que pode ajudar: - Seja paciente e explique as especiﬁcidades do campo de ML e IA. A disciplina de gerenciamento de produtos está no mínimo 10 anos atrás de tudo o que conhecemos como produtos modernos de ML/IA. - Se possível, comece com muitas pequenas abordagens (metralhadora) ao invés de um projeto grande (sniper) e escale de acordo com os resultados. Produtos de dados que usam ML não precisam estarem certos o tempo todo, é sobre estar certo uma única vez e escalar. - Tem muita “bola na caçapa” em relação ao universo de problemas que podem ser resolvidos com a tecnologia atual.

Ferramentas para auxiliar o gerenciamento de incidentes

Ferramentas para auxiliar o gerenciamento de incidentes - Observabilidade -
Instrumentalização - Logs / Tracing / APM - Monitoramento - Alarmística - Revisão e melhoria permanente nas “barreiras de defesa” - Pessoas… - Pessoas… - Pessoas… - Cultura de engenharia - Stack de tecnologia - Métodos - Postmortem/Revisão de Incidentes (Incident Reviews) - Importante salientar a cultura de não trabalhar com apuração de culpa e transparência - Revisão permanente nas barreiras de defesa

Considerações ﬁnais

Considerações Finais • Projetos e sistemas de ML podem falhar
por diversos motivos dado a inerente complexidade e aspecto multidisciplinar; • Ainda existe um grande desaﬁo de transformação de mentalidade para sair de um modelo em que os erros são ocultados e que se tem apuração de responsabilidade, para um modelo voltado para a discussão de problemas com segurança psicológica e promoção de reformas constantes; • ML/DS em produção é uma disciplina nova (2012) para todas as pessoas: Gerentes de Projeto, Gerentes de Engenharia, Product Owners, Cientistas de Dados, Engenheiros de Software; e • Observabilidade e revisão de processos podem ajudar na prevenção de incidentes mas ferramentas como Postmortems ou revisão de incidentes sem atribuição de culpa são os melhores instrumentos para a criação de uma agenda construtiva que permite uma agenda de melhoria.

Flávio Clésio, M.e - Data Meetup Brasil #11 ﬂavioclesio at
gmail dot com - fclesio - @ﬂavioclesio Failure Friday: Como projetos de Machine Learning falham

• Perneger, Thomas V. “The Swiss cheese model of safety
incidents: are there holes in the metaphor?.” BMC health services research vol. 5 71. 9 Nov. 2005, doi:10.1186/1472-6963-5-71 • “Hot cheese: a processed Swiss cheese model.” JR Coll Physicians Edinb 44 (2014): 116-21. • Breck, Eric, et al. “What’s your ML Teﬆ Score? A rubric for ML production syﬆems.” (2016). • SEC Charges Knight Capital With Violations of Market Access Rule • Machine Learning Goes Production! Engineering, Maintenance Cost, Technical Debt, Applied Data Analysis Lab Seminar Referências

• Reason, James. “The contribution of latent human failures to
the breakdown of complex syﬆems.” Philosophical Transactions of the Royal Society of London. B, Biological Sciences 327.1241 (1990): 475-484. • Reason, J. “Human error: models and management.” BMJ (Clinical research ed.) vol. 320,7237 (2000): 768-70. doi:10.1136/bmj.320.7237.768 • Morgenthaler, J. David, et al. “Searching for build debt: Experiences managing technical debt at Google.” 2012 Third International Workshop on Managing Technical Debt (MTD). IEEE, 2012. • Alahdab, Mohannad, and Gül Çalıklı. “Empirical Analysis of Hidden Technical Debt Patterns in Machine Learning Soﬅware.” International Conference on Product-Focused Software Process Improvement. Springer, Cham, 2019. Referências

• Nassim Taleb – Lectures on Fat Tails, (Anti)Fragility, Precaution,
and Asymmetric Exposures • Skybrary – Human Factors Analysis and Classiﬁcation System (HFACS) • CEFA Aviation – Swiss Cheese Model • A List of Post-mortems • Richard Cook – How Complex Systems Fail • Airbus – Hull Losses • Number of ﬂights performed by the global airline industry from 2004 to 2020 Referências

Failure Friday: Como projetos de Machine Learni...

Failure Friday: Como projetos de Machine Learning falham

Flavio Clesio

More Decks by Flavio Clesio

Other Decks in Technology

Featured

Transcript

Flávio Clésio, M.e - Data Meetup Brasil #11 ﬂavioclesio at

Sobre • Staff Data/Machine Learning Engineer na Artsy Inc. •

Disclaimer #1 Todas as visões discutidas aqui são baseadas na

Disclaimer #2 Todas as informações e visões expressas nesta apresentação

• Porque falhas e indisponibilidades em sistemas de ML importam?

Porque falhas e indisponibilidades em sistemas de ML importam?

ML está cada vez mais comum e ocupando espaço crítico

Indisponibilidades e falhas não são um tópico romântico • Não

Indisponibilidades = Aprendizado = Melhoria • Sempre tem uma lição

Mas por que resolver o problema não é o bastante?

Indisponibilidade em sistemas de M Source: Understanding models of error

Tipos de falhas em projetos de Machine Learning

Projetos “Vôo à Lua” (Moonshot) Características: - Top-Down - Geralmente

Experimentos, implementação e avaliação errados Características: - Padrão “Deploy and

Falta (ausência) de aderência em práticas de SWE Características: -

Ferramentas > Ecossistemas Características: - O pipeline de ML inteiro

Mentalidade de Laboratório Características: - Julgamento do sucesso de um

Projeto não ligado em qualquer resultado de negócio Características: -

Algoritmos > Regras + Heurísticas + Regex + Humanos no

Product Management clueless about ML projects Características: - Cerimônias ao

Ferramentas para auxiliar o gerenciamento de incidentes

Ferramentas para auxiliar o gerenciamento de incidentes - Observabilidade -

Considerações ﬁnais

Considerações Finais • Projetos e sistemas de ML podem falhar

Flávio Clésio, M.e - Data Meetup Brasil #11 ﬂavioclesio at

• Perneger, Thomas V. “The Swiss cheese model of safety

• Reason, James. “The contribution of latent human failures to

• Nassim Taleb – Lectures on Fat Tails, (Anti)Fragility, Precaution,