des longs textes • Remplacement de Tika par Xpdf pour la convertion des PDF en texte • Suppression des étapes de pré-traitements non nécessaires • Remplacement de XgBoost par LGBM • Parrallélisation des traitements sur 8 cœurs. • Utilisation de l’approche des fenêtres glissantes de 20 lignes, au lieu d’une analyse phrase par phrase. Résultats plus robustes • Conservation de la probabilité maximale des fenêtres glissantes pour chaque ODD qui ressort Résultats directement sous forme de pourcentage exploitables Indépendant de la taille du document Le Prospecteur ODD, une adaptation du SDG Tracker de l’OCDE Obtention d’un algorithme qui tourne sur 3000 documents (plus de 100 pages chacun) en 30 minutes.