Upgrade to PRO for Only $50/Year—Limited-Time Offer! đŸ”„

datadrink-30072020-dggn

Avatar for etalab-ia etalab-ia
July 30, 2020
290

 datadrink-30072020-dggn

Avatar for etalab-ia

etalab-ia

July 30, 2020
Tweet

Transcript

  1. 30 juillet 2020 Priorisation des interventions Direction Générale de la

    Gendarmerie Nationale Services Techniques des SystĂšmes d’Information de la SĂ©curitĂ© IntĂ©rieure Sous-Direction des SystĂšmes d’Information Datalab MINISTÈRE DE L’INTÉRIEUR DaphnĂ© Pertsekos - Jean-Baptiste Delfau
  2. Le Datalab du ST(SI)ÂČ PĂ©rimĂštre : Sujets faisant appel Ă 

    de l’IA ou Ă  des traitements de big data  Une Ă©quipe pluridisciplinaire au sein du ST(SI)ÂČ 4 data scientist 2 dĂ©veloppeurs full stack  Mission : construire des solutions au proft des mĂ©tiers Ă  partir des donnĂ©es internes et externes  Principes d'action : 2 chefs de projet +  stagiaires  EIG  prestataires Implication forte du mĂ©tier ExpĂ©rimentation pour Ă©tudier la faisabilitĂ© Cycles courts : 3 Ă  6 mois But = industrialisation
  3. Le projet Proposer aux opérateurs des centres opérationnels un score

    de « prioritĂ© » lors d’un nouvel appel Appel 17 Score de prioritĂ© Score de dangerositĂ© CatĂ©gorie d’intervention CatĂ©gorie ModĂšle IA RĂ©currence de l’appel Lieu de l’intervention Premiers Ă©lĂ©ments Objectif : PĂ©riode – Date / Heure ...
  4. Le projet ïŹ 1 expert mĂ©tier + Groupe utilisateurs rĂ©fĂ©rents

    ïŹ 2 data scientists / 1 dĂ©veloppeur (pour l’outil d’annotation) ïŹ DĂ©but : mai 2020 ïŹ 6 mois d’expĂ©rimentation prĂ©vus
  5. DonnĂ©es d’entrĂ©e ïŹ Volume - 1er semestre 2020 ‱ 7.5

    millions d’appels ‱ 850 000 interventions 60 catĂ©gories ~ 90 % des inters
  6. Étapes Ratio anomalie > TH OUI NON Extraction d’un Ă©chantillon

    Annotation Manuelle Classification GĂ©nĂ©ration d’exemples MĂ©triques ?
  7. Échantillon d’annotation ïŹ Construction d’un Ă©chantillon stratifĂ© par type d’inter

    afn de couvrir un maximum de situations rencontrĂ©es. ïŹ Certaines catĂ©gories regroupent des interventions de nature relativement difĂ©rente. → clustering intra-catĂ©gorie afn de dĂ©terminer des sous-groupes. ïŹ ProximitĂ© sĂ©mantique pour Ă©valuer l’homogĂ©nĂ©itĂ© d’un Ă©chantillon
  8. Évaluation Faire annoter un dataset de fches d’interventions passĂ©es sans

    fournir les labels prĂ©dits par l’algo. ïŹ Taux de dissension : % d’interventions pour lesquels les labels difĂšrent quand les corgistes ne sont pas infuencĂ©s par les propositions de l’algorithme. ïŹ Taux d’erreurs induites : % d’interventions oĂč le corgiste a suivi la proposition Ă  tort ïŹ Taux de mĂ©fance injustifĂ©e : % d’interventions oĂč le corgiste n’a pas suivi l’algorithme Ă  tort CORG POST : 0 POST : 1 LIVE LIVE 0 1 0 1 ALGO 0 TN1 FP2 FN1 TP2 1 TN2 FP1 FN2 TP1 Taux de dissension Taux d’erreurs induites Taux de mĂ©fance injustifĂ©e TN 2+FP1+FN 1+TP2 ∑interventions FN 1+FP1 ∑interventions FN 2+FP2 ∑interventions
  9. GĂ©nĂ©ration d’exemples positifs 1) Étapes prĂ©liminaires ‱ Augmenter la part

    des interventions des catĂ©gories Ă  priori risquĂ©es ou urgentes. ‱ Établir une liste de mots clĂ©s susceptibles d’ĂȘtre sur-reprĂ©sentĂ©s dans les documents de classe positive. 2)Si insuffisant GĂ©nĂ©ration d’exemples : ‱ RepĂ©rage de certaines entitĂ©s (dates, heures, lieux, noms, etc). →utilisation de rĂ©seaux de neurones (camemBERT) ou d’expressions rĂ©guliĂšres. ‱ Remplacement par une entitĂ© du mĂȘme type gĂ©nĂ©rĂ©e alĂ©atoirement. 1 2