Interprétabilité des algorithmes

Interprétabilité & Machine Learning. Nicolas Berkouk Quentin Loridant

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Un
changement de paradigme de l’utilisation des moyens informatiques ~mi-2000 • Ex : SI des polices américaines. Quand prédire c’est gérer, Benbouzid 2018 Outils descriptifs (mise à dispo de bases de données) Outils prédictifs (algorithmes de prédictions)

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Un
renversement des rôles homme/machine dans le processus de décision • Qui aﬀecte tous les champs de la société : ◦ Business “data driven” ◦ Orientation des politiques publiques ◦ Décisions Judiciaires (ex : US)

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Loi
européenne RGPD (2018) : “toute personne ayant fait l’objet d’une telle décision [décision entièrement automatique] peut demander qu’une personne humaine intervienne, notamment aﬁn d’obtenir un réexamen de sa situation, d’exprimer son propre point de vue, d'obtenir une explication sur la décision prise ou de contester la décision” • Au-délà d’un impératif éthique, l'interprétabilité devient une obligation légale

L’interprétabilité des algorithmes, une impossible déﬁnition? • Interpretable Machine Learning,
A Guide for Making Black Box Models Explainable, Christoph Molnar, 2019 “Interpretability is the degree to which a human can understand the cause of a decision.”

Pourquoi cette difficulté? • L’éternelle impossibilité d’exprimer la complexité du
monde réel en langue mathématique, et encore moins en problème d’optimisation “Often, our machine learning problem formulations are imperfect matches for the real-life tasks they are meant to solve. This can happen when simpliﬁed optimization objectives fail to capture our more complex real-life goals. Consider medical research with longitudinal data. Our real goal may be to discover potentially causal associations, as with smoking and cancer (Wang et al., 1999). But the optimization objective for most supervised learning models is simply to minimize error, a feat that might be achieved in a purely correlative fashion.” The Mythos of Model Interpretability, Zachary Lipton, 2016

Pourquoi cette difficulté? Retour à Benzoubid : comment classer les
pics anticipés de criminalité? • Chaque type de classement relève d’une vision politique, l’ignorer revient à rendre naturel • Expliquer la conception d’un algorithme, c’est donc aussi mettre à jour les logiques managériales/politiques implicitement détenues par son conepteur

Propriétés des algorithmes “interprétables” The mythos of interpretability, Zachary Lipton,
2016 : • Décomposabilité • Transparence algorithmique • Interpretabilité post-hoc : text explanations, visualizations, local explanations

Exemple avec le projet CibNav

Contexte. Remplacer un ciblage manuel par un ciblage automatique en
impliquant les agents Pour ce faire : 1. Déﬁnition d’une note de risque pour chaque navire 2. Prévision de cette note de risque (régression) 3. Interpréter cette note de risque 4. Déﬁnir les paramètres impactants

Données. Longueur Puissance Année Construction Anomalies majeurs derniers contrôle Anomalies
derniers contrôle Prévision : Score de risque

1er modèle : Arbre de décision avec scikit-learn. Erreur (RMSE)
: 1.89 Profondeur : 2

Vite difficile à appréhender... PRO CON • La profondeur permet
d’identiﬁer facilement les paramètres importants • …. vintage • Analyse des impacts compliquée • Faible performance • Diﬃcile de relativiser l’importance des paramètres

Shap. Librairie pour améliorer l’interprétabilité de modèles simples (comme les
arbres de décision) Permet de supprimer quelques limitations sur ce type de modèle

+ 2ème modèle : Generalized Additive Model (GAM) avec PyGAM.
Pour chaque paramètre, nous pouvons connaître son inﬂuence sur la prévision Longueur du navire (en m) Erreur (RMSE) : 1.78 Score de risque + Nombre de prescriptions majeurs … => Prédiction Score de risque

2ème modèle : Generalized Additive Model (GAM). PRO CON •
Visualisation graphique • Performant • Possibilité de supprimer certains biais • Pas très user-friendly • Manque de représentation sur la distribution des variables

Erreur (RMSE) : 1.78 3ème modèle : Explainable Boosting Model
(Boosted GA²M). Modèle plus complet que le GAM, mais moins documenté :( Le fonctionnement est donc globalement le même. Vision globale

3ème modèle : Explainable Boosting Model (Boosted GA²M). Vision locale

3ème modèle : Explainable Boosting Model (Boosted GA²M). PRO CON
• Visualisation graphique (notamment la densité) • Performant • Possibilité de supprimer certains biais • Pas la possibilité de visualiser le lissage des fonctions • Pas documenté et pas vraiment modulable

Interprétabilité des algorithmes

Interprétabilité des algorithmes

Entrepreneurs d'intérêt général

More Decks by Entrepreneurs d'intérêt général

Featured

Transcript

Interprétabilité & Machine Learning. Nicolas Berkouk Quentin Loridant

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Un

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Un

Une déﬁnition de l’interprétabilité des algorithmes : pourquoi? • Loi

L’interprétabilité des algorithmes, une impossible déﬁnition? • Interpretable Machine Learning,

Pourquoi cette difficulté? • L’éternelle impossibilité d’exprimer la complexité du

Pourquoi cette difficulté? Retour à Benzoubid : comment classer les

Propriétés des algorithmes “interprétables” The mythos of interpretability, Zachary Lipton,

Exemple avec le projet CibNav

Contexte. Remplacer un ciblage manuel par un ciblage automatique en

Données. Longueur Puissance Année Construction Anomalies majeurs derniers contrôle Anomalies

1er modèle : Arbre de décision avec scikit-learn. Erreur (RMSE)

Vite difficile à appréhender... PRO CON • La profondeur permet

Shap. Librairie pour améliorer l’interprétabilité de modèles simples (comme les

+ 2ème modèle : Generalized Additive Model (GAM) avec PyGAM.

2ème modèle : Generalized Additive Model (GAM). PRO CON •

Erreur (RMSE) : 1.78 3ème modèle : Explainable Boosting Model

3ème modèle : Explainable Boosting Model (Boosted GA²M). Vision locale

3ème modèle : Explainable Boosting Model (Boosted GA²M). PRO CON