Novità di MLOps su AWS re:Invent 2020

re:Invent 2020 Novità di MLOps

Ciclo di sviluppo dei modelli ML

Differenza del ciclo di sviluppo software • Rispetto a ciclo
di sviluppo software, è una disciplina nuova ◦ “best practices” stanno ancora formulando ◦ tool di sviluppo sono molto “freschi” • Oltre la codice che definisce il modello, bisogna gestire tanti dati ◦ artefatti dei modelli (100 Mbyte ... 700 Gbyte) ◦ dataset (fino all’ordine di grandezza di 50 Tbyte) ◦ non ci stanno in git… • Tanti esperimenti affidandosi all’intuizione

Tipico modo di sviluppare modelli ML (1) • Partiamo dal
passo di avere tutto il dataset a disposizione • Subsampling del dataset ◦ Prendiamo una quantità di dati che è gestibile con un singolo workstation ◦ Subset preferibilmente rappresentativo ◦ Strumenti: Athena, SQL, preﬁssi S3, etc. • Exploratory Data Analysis (EDA) ◦ Acquisiamo una “conoscenza” dei dati ◦ Distribuzione, statistica, correlazioni, istogrammi ◦ Dati mancanti o errati e come gestirli ◦ Intuizione di quali coloni di input possono essere di maggior aiuto

Tipico modo di sviluppare modelli ML (2) • Pulizia dei
dati e feature extraction ◦ Gestione dei dati mancanti e errati ◦ Conversione dei dati categorici ◦ Conversione dei dati testuali ◦ Normalizzazione • Selezione del modello ◦ A base della tipologia dell’input (tabulare, immagini, testo naturale, altro tipo “esotico” o la combinazione di questi) ◦ Addestramento del primo modello “baseline” sul subset dell’input • Addestramento sul dataset intero ◦ Aggiustamento dei parametri del modello ◦ Valutazione delle metriche ◦ Repeat

Tipico modo di sviluppare modelli ML (3) • Deploy del
modello ◦ Tipicamente nella forma di un web service ◦ Serverless? Il modello ha bisogno del GPU? ◦ In produzione bisogna eseguire i stessi trasformazione dell’input che sono stati deﬁnite prima dell’addestramento! • Monitoring ◦ Model drifting: la distribuzione dei dati di input possono cambiare con il tempo ◦ Possibilmente arrivano nuovi dati di addestramento

SageMaker Pipelines • È possibile deﬁnire i passi: ◦ recupero
dell’input ◦ preprocessing dei dati ◦ addestramento del modello ◦ salvataggio e versionamento degli artefatti del modello ◦ deploy in produzione in un singolo script python, che può essere eseguito manualmente o automaticamente quando il codice o i dati di input cambiano. • L’idea è simile a Step Functions, soprattutto al Data Science SDK di SF

SageMaker Data Wrangler e Glue Data Brew • Sono fatti
entrambi per fare EDA e preprocessing • Glue Data Brew ◦ Solo trasformazioni predeﬁniti ◦ Utile anche per ﬁnalità non machine-learning (ETL) ◦ UI sul console AWS ◦ Deploy: Glue job • SageMaker Data Wrangler ◦ Trasformazioni custom (pyspark / pandas) ◦ Per preprocessing dei dataset ◦ Addestramento piccolo modello di baseline in situ ◦ UI in JupyterLab ◦ Deploy: SageMaker pipelines, nel Feature Store o codice

Novità di MLOps su AWS re:Invent 2020

Novità di MLOps su AWS re:Invent 2020

Janos Tolgyesi

More Decks by Janos Tolgyesi

Other Decks in Programming

Featured

Transcript

re:Invent 2020 Novità di MLOps

Ciclo di sviluppo dei modelli ML

Diﬀerenza del ciclo di sviluppo software • Rispetto a ciclo

Tipico modo di sviluppare modelli ML (1) • Partiamo dal

Tipico modo di sviluppare modelli ML (2) • Pulizia dei

Tipico modo di sviluppare modelli ML (3) • Deploy del

SageMaker Pipelines • È possibile deﬁnire i passi: ◦ recupero

SageMaker Data Wrangler e Glue Data Brew • Sono fatti