Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20210428-datadrink-signaux-faibles

etalab-ia
April 28, 2021
94

 20210428-datadrink-signaux-faibles

etalab-ia

April 28, 2021
Tweet

Transcript

  1. Avec vous aujourd’hui Simon Lebastard Data Scientist à la DGE

    simon.lebastard@finances.gouv.fr Vincent Viers Data Scientist transverse à beta.gouv.fr [email protected]
  2. Prévenir pour mieux guérir: un algorithme pour lutter contre la

    faillite d’entreprise. Ministère de l’Economie, des Finances et de la Relance DGE, DGFiP Banque de France Ministère du Travail
  3. Identifier de nouvelles entreprises en situation de fragilité Anticiper et

    qualifier les risques de défaillances Un algorithme produisant des listes de détection Un algorithme explicable, auditable et adaptable. Métier Technique
  4. Notre périmètre de prédiction Pour des détails: https://github.com/signaux-faibles/documentation/blob/master/description-donnees.md 330k établissements

    10+ Etablissements de salariés Tous secteurs d’activité sauf secteur public 5.5% Taux de défaillance moyen
  5. Procédures collectives (sauvegarde, redressements, liquidation) Dettes sur cotisations sociales ACOSS

    Ratios comptables et financiers (~100) MEFR & Banque de France Retards de paiement aux fournisseurs Indice Paydex (Altares) Demande et consommation d’activité partielle Ministère du Travail Pour des détails: https://github.com/signaux-faibles/documentation/blob/master/description-donnees.md Nos données
  6. Défaillance à moins de 18 mois Entrée en procédure collective

    Dette sociale URSAFF de la cotisation sur 3+ mois Notre cible d’apprentissage
  7. Un nouveau modèle “à deux étages” Face à la crise,

    remettre l’humain dans l’interface humain-algorithme
  8. Modèle commun DGFiP & migration sur Spark Mettre en place

    un modèle en distribué Tirer profit de données financières et fiscales trimestrielles de la DGFiP Credits: Nav Photography Produire une liste commune Signaux Faibles & DGFiP
  9. Explorer d’autres sources de données interministérielles Données douanières: intégrer les

    imports/exports extra-communautaires Ministère du Travail: mouvements de main d’oeuvre, données de rupture conventionnelles Credits: Oliver Sjöström Données de dépôt de dossier aux Prudhommes? Données d’accidents du travail?
  10. Vers un algorithme post-Covid Une situation inédite: quelle portabilité des

    modèles pré-crise? Vers l’intégration de modèles micro- économiques? Une dette sociale peu informative, rôle grandissant de la valeur ajoutée? Credits: Yaroslav Danylchenko
  11. De meilleurs modèles Tester des modèles neuraux (LSTMs, CNNs) Une

    modélisation hiérarchique adaptée aux disparités sectorielles et territoriales Credits: Vera Maida Tester des approches bayésiennes, notamment de la modélisation graphique pour prédire des distributions
  12. Apprendre des trajectoires Des approches séries temporelles adaptées à nos

    données mensuelles et trimestrielles Prédire des distributions sur l’ évolution de nos variables Credits: Eberhard Grossgasteiger Superposer une prédiction de série et une classification explicable sur l’actuel et le prévisionnel
  13. Des détections explicables Nos prédictions aident les commissaires au redressement

    productif à prioriser leur action Credits: Eberhard Grossgasteiger Notre algorithme n’est crédible que si il est compris Credits: Edwin Jaulani Modèle transparent ou black-box? Différentes méthodes d’explicabilité à explorer, comme Shap ou Anchors
  14. Enrichir notre cible Rigoureusement évaluer l’information dans nos données: à

    quel horizon temporel pouvons-nous prédire une défaillance avec assurance? Compléter notre cible actuelle: licenciement collectifs, mouvements de main d’œuvre, variations d’embauches? Credits: Pavel Danilyuk