Lean data science

(Lean) Data Science

(Too) Big Data? En 2017 • 70% des entreprises confessent
ne pas en tirer parti • 85% of des projets ne ﬁnissent jamais en production • Gartner estimait que 60% des projets seraient un échec

Lean startup? • Trouver son marché en itérant rapidement sur
son produit • Viser le succès maximum avec un produit minimum • Mesurer le succès avec de la data • Limiter le risque

Big is not Lean En data, l’effet tunnel se maximise
avec : • Des infrastructures de pointe (calcul distribué, noSql…) • Des enjeux scientiﬁques complexes (machine learning)

Expensive is not lean Le risque d’un échec est maximal
car : • L’infrastructure est chère (tout stocker, big data) • Les solutions sont chères • Les proﬁls sont chers (moi)

Data Idea Code Learn Build Measure La méthode

Enjeux Idea : avoir beaucoup de bonnes idées (use cases)
Code : faire des modèles et les tester très rapidement Measure : mesurer leur performance et les améliorer

La littérature aujourd’hui

Not so Big Data Un échantillon peut suffire pour trouver
son modèle

Not so Big Data Moins de data = • Moins
de temps de calcul • Des technos agiles “in-memory” comme python ou R • Pas de technos distribuées comme Spark, Beam, Hadoop… • Pas d’infrastructures (à pars un macbook ou datalab)

Quelles technos? • Lean : in-memory, batch, sql like •
Complexe : calcul distribué, temps réel, streaming, functional programming, new languages

Quels modèles?

Quels modèles? Modèle simple (Peu de features avec LR, Trees,
Forests) = • Plus facile à interpréter • Plus facile à debugger • Moins sensible à l’overﬁtting

SQL learning Parfois une bonne requête SQL donne un benchmark
qui peut prendre des semaines voire des mois à battre Exemple : prédire la moyenne de la veille...

Le pareto du machine learning • Pour 20% de temps
de projet, chercher 80% de la performance • Chaque problème de machine learning a son équilibre : pour 1% de précision en plus, combien de temps projet, et combien d’euros à la clef?

Overﬁtting Produire un modèle qu’on pensait fort en phase d’expérimentation
et qui se révèle médiocre en conditions réelles

Cross-validation et overﬁtting • Chercher les leaks • Vériﬁer le
sampling • Il vaut mieux passer du temps sur la cross-val que sur une modélisation compliquée

Prédire la prédiction Pour itérer encore plus rapidement, il faut
obtenir une relation prévisible entre la cross-validation et la production : +5% cross-val accuracy = +1% prod accuracy = + X €

Protocoles d’expérimentation • A/B testing et signiﬁcativité • Differences in
differences • Causal inference... • Analyse de résidus : quels types d’erreur fait le modèle et pourquoi • Feeback loops (serendipity, discounting, armed bandits…)

Dataops • Réentrainement de modèles • Continuous integration & delivery
(tests) • Reproducibilité (model + code + data)

Parce que c’est notre projet 1. Tester le signal avec
un modèle simple sur un échantillon et avec cross-val solide 2. Mettre en place la stack d'entraînement et de prédiction avec intégration continue et des technos simples (SQL, batch, in-mem, cloud) 3. Mettre en place la méthode d’analyse des résultats (dashboards…) 4. Pusher un modèles simple (python ou la moyenne en SQL) 5. Essayer de le battre avec des itérations courtes 6. S'arrêter quand on a assez gagné (pareto)

Je recherche un (lean) data engineer! [email protected] linkedin.com/in/simonmaby/

Lean data science

Lean data science

Simon Maby

More Decks by Simon Maby

Other Decks in Technology

Featured

Transcript