en deux étapes : ▶ Pré-traitement générique (hyphenation, références, espaces,...) ▶ Pré-traitement spécifique : 1 Noms de codes malveillants, de modes opératoires... 2 Règles spécifiques (expressions régulières) 2 Extraction : utilisation de SpaCy. 3 Normalisation : texte en minuscule et “lemmatized”, prise en compte de synonymes, suppression des tokens inutiles. 8/12