Upgrade to Pro — share decks privately, control downloads, hide ads and more …

datadrink-30072020-dggn

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
July 30, 2020
38

 datadrink-30072020-dggn

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

July 30, 2020
Tweet

Transcript

  1. 30 juillet 2020 Priorisation des interventions Direction Générale de la

    Gendarmerie Nationale Services Techniques des Systèmes d’Information de la Sécurité Intérieure Sous-Direction des Systèmes d’Information Datalab MINISTÈRE DE L’INTÉRIEUR Daphné Pertsekos - Jean-Baptiste Delfau
  2. Le Datalab du ST(SI)² Périmètre : Sujets faisant appel à

    de l’IA ou à des traitements de big data  Une équipe pluridisciplinaire au sein du ST(SI)² 4 data scientist 2 développeurs full stack  Mission : construire des solutions au proft des métiers à partir des données internes et externes  Principes d'action : 2 chefs de projet +  stagiaires  EIG  prestataires Implication forte du métier Expérimentation pour étudier la faisabilité Cycles courts : 3 à 6 mois But = industrialisation
  3. Le projet Proposer aux opérateurs des centres opérationnels un score

    de « priorité » lors d’un nouvel appel Appel 17 Score de priorité Score de dangerosité Catégorie d’intervention Catégorie Modèle IA Récurrence de l’appel Lieu de l’intervention Premiers éléments Objectif : Période – Date / Heure ...
  4. Le projet  1 expert métier + Groupe utilisateurs référents

     2 data scientists / 1 développeur (pour l’outil d’annotation)  Début : mai 2020  6 mois d’expérimentation prévus
  5. Données d’entrée  Volume - 1er semestre 2020 • 7.5

    millions d’appels • 850 000 interventions 60 catégories ~ 90 % des inters
  6. Étapes Ratio anomalie > TH OUI NON Extraction d’un échantillon

    Annotation Manuelle Classification Génération d’exemples Métriques ?
  7. Échantillon d’annotation  Construction d’un échantillon stratifé par type d’inter

    afn de couvrir un maximum de situations rencontrées.  Certaines catégories regroupent des interventions de nature relativement diférente. → clustering intra-catégorie afn de déterminer des sous-groupes.  Proximité sémantique pour évaluer l’homogénéité d’un échantillon
  8. Étude de la proximité sémantique

  9. Le clustering peut améliorer la cohérence

  10. Évaluation Faire annoter un dataset de fches d’interventions passées sans

    fournir les labels prédits par l’algo.  Taux de dissension : % d’interventions pour lesquels les labels difèrent quand les corgistes ne sont pas infuencés par les propositions de l’algorithme.  Taux d’erreurs induites : % d’interventions où le corgiste a suivi la proposition à tort  Taux de méfance injustifée : % d’interventions où le corgiste n’a pas suivi l’algorithme à tort CORG POST : 0 POST : 1 LIVE LIVE 0 1 0 1 ALGO 0 TN1 FP2 FN1 TP2 1 TN2 FP1 FN2 TP1 Taux de dissension Taux d’erreurs induites Taux de méfance injustifée TN 2+FP1+FN 1+TP2 ∑interventions FN 1+FP1 ∑interventions FN 2+FP2 ∑interventions
  11. Questions

  12. Choix de la taille de l’échantillon

  13. Génération d’exemples positifs 1) Étapes préliminaires • Augmenter la part

    des interventions des catégories à priori risquées ou urgentes. • Établir une liste de mots clés susceptibles d’être sur-représentés dans les documents de classe positive. 2)Si insuffisant Génération d’exemples : • Repérage de certaines entités (dates, heures, lieux, noms, etc). →utilisation de réseaux de neurones (camemBERT) ou d’expressions régulières. • Remplacement par une entité du même type générée aléatoirement. 1 2