Upgrade to Pro — share decks privately, control downloads, hide ads and more …

datadrink-30072020-dggn

etalab-ia
July 30, 2020
160

 datadrink-30072020-dggn

etalab-ia

July 30, 2020
Tweet

Transcript

  1. 30 juillet 2020 Priorisation des interventions Direction Générale de la

    Gendarmerie Nationale Services Techniques des Systèmes d’Information de la Sécurité Intérieure Sous-Direction des Systèmes d’Information Datalab MINISTÈRE DE L’INTÉRIEUR Daphné Pertsekos - Jean-Baptiste Delfau
  2. Le Datalab du ST(SI)² Périmètre : Sujets faisant appel à

    de l’IA ou à des traitements de big data  Une équipe pluridisciplinaire au sein du ST(SI)² 4 data scientist 2 développeurs full stack  Mission : construire des solutions au proft des métiers à partir des données internes et externes  Principes d'action : 2 chefs de projet +  stagiaires  EIG  prestataires Implication forte du métier Expérimentation pour étudier la faisabilité Cycles courts : 3 à 6 mois But = industrialisation
  3. Le projet Proposer aux opérateurs des centres opérationnels un score

    de « priorité » lors d’un nouvel appel Appel 17 Score de priorité Score de dangerosité Catégorie d’intervention Catégorie Modèle IA Récurrence de l’appel Lieu de l’intervention Premiers éléments Objectif : Période – Date / Heure ...
  4. Le projet  1 expert métier + Groupe utilisateurs référents

     2 data scientists / 1 développeur (pour l’outil d’annotation)  Début : mai 2020  6 mois d’expérimentation prévus
  5. Données d’entrée  Volume - 1er semestre 2020 • 7.5

    millions d’appels • 850 000 interventions 60 catégories ~ 90 % des inters
  6. Étapes Ratio anomalie > TH OUI NON Extraction d’un échantillon

    Annotation Manuelle Classification Génération d’exemples Métriques ?
  7. Échantillon d’annotation  Construction d’un échantillon stratifé par type d’inter

    afn de couvrir un maximum de situations rencontrées.  Certaines catégories regroupent des interventions de nature relativement diférente. → clustering intra-catégorie afn de déterminer des sous-groupes.  Proximité sémantique pour évaluer l’homogénéité d’un échantillon
  8. Évaluation Faire annoter un dataset de fches d’interventions passées sans

    fournir les labels prédits par l’algo.  Taux de dissension : % d’interventions pour lesquels les labels difèrent quand les corgistes ne sont pas infuencés par les propositions de l’algorithme.  Taux d’erreurs induites : % d’interventions où le corgiste a suivi la proposition à tort  Taux de méfance injustifée : % d’interventions où le corgiste n’a pas suivi l’algorithme à tort CORG POST : 0 POST : 1 LIVE LIVE 0 1 0 1 ALGO 0 TN1 FP2 FN1 TP2 1 TN2 FP1 FN2 TP1 Taux de dissension Taux d’erreurs induites Taux de méfance injustifée TN 2+FP1+FN 1+TP2 ∑interventions FN 1+FP1 ∑interventions FN 2+FP2 ∑interventions
  9. Génération d’exemples positifs 1) Étapes préliminaires • Augmenter la part

    des interventions des catégories à priori risquées ou urgentes. • Établir une liste de mots clés susceptibles d’être sur-représentés dans les documents de classe positive. 2)Si insuffisant Génération d’exemples : • Repérage de certaines entités (dates, heures, lieux, noms, etc). →utilisation de réseaux de neurones (camemBERT) ou d’expressions régulières. • Remplacement par une entité du même type générée aléatoirement. 1 2