Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20210701-datadrink-MTE-ecolab.pdf

etalab-ia
July 01, 2021
310

 20210701-datadrink-MTE-ecolab.pdf

etalab-ia

July 01, 2021
Tweet

Transcript

  1. TRAITEMENT DU LANGAGE NATUREL POUR LES AVIS DE L'AUTORITÉ ENVIRONNEMENTALE

    CHRISTINE FONG, THÉO ROUDIL-VALENTIN, RUBEN PARTOUCHE XX/XX/XXXX CGDD – Ecolab 2
  2. La Synthèse augmentée XX/XX/XXXX CGDD – Ecolab 3 I. Contexte

    et objectifs A. DREAL Bretagne et l'Ecolab B. Métier d’auditeur et Données disponibles C. Démonstrateur de la synthèse augmentée II. Approches de Traitement du Langage Naturel A. Analyse des enjeux B. Résumé automatique C. Le processus itératif
  3. A. DREAL Bretagne et l'Ecolab XX/XX/XXXX CGDD – Ecolab 5

    I. Contexte et objectifs Ecolab • Rôle (non unique) : Promouvoir l’utilisation de l’IA au service de la transition écologique • Intérêt : réaliser une POC et passer en production SI utile • Equipe : 1 superviseur métier, 1 chef de projet, 3 data scientists, 1 doctorant consultant technique DREAL Bretagne • Rôle (non unique) : préparer les avis de l’autorité environnementale sur des projets à impacts environnementaux • Intérêt : assister le métier d’auditeur • Equipe : Chargé de projet données, auditeurs, 1 auditeur chef de division / interlocuteur
  4. XX/XX/XXXX CGDD – Ecolab 6 B. Métier et données disponibles

    ‣ Métier d’auditeur : Les auditeurs reçoivent les études des impacts environnementaux de différents projets qu'ils analysent et préparent une évaluation environnementale, un « avis » ‣ Intérêt/Besoin : accéder rapidement à une vision globale d’un long document (>100 pages), les parcourir facilement, en connaître la structure détaillée et les enjeux environnementaux traités​ I. Contexte et objectifs ‣ Corpus pdf d’études d’impact ‣300 Mo de textes pour 148 études ‣ Corpus pdf des avis associés ‣15 Mo de textes pour 460 avis
  5. XX/XX/XXXX C. Le démonstrateur • Utilisation par les agents simple

    et intuitive (front) • Maintenance, amélioration et mise à jour du système par UN data scientist (back) • Adaptable à d'autres DREAL sur leurs sujets et leurs études • Adaptable à d'autres types de documents • Condition d'adaptabilité : o Labellisation d'un petit nombre d'exemple ( une centaine, soit 10 à 20h selon le type de documents) o Prise en main par un data scientist : une journée I. Contexte et objectifs
  6. Résumé, mots clés, enjeux XX/XX/XXXX CGDD – Ecolab 11 Relève

    de l'intelligence artificielle et du traitement du langage naturel
  7. Topic modeling : Enjeux, objectifs et méthode ‣ Clustering :

    Identifier les différents enjeux environnementaux C. L'analyse des enjeux
  8. Topic modeling : Enjeux, objectifs et méthode ‣ Clustering :

    Identifier les différents enjeux environnementaux C. L'analyse des enjeux Document (avis, paragraphe, etc…) Gestion des déchets Gestion de l’eau Biodiversité Effets globaux (climat, énergie, etc…) Déplacements Préservation des sols Santé & Sécurité
  9. Topic modeling : Enjeux, objectifs et méthode ‣ Clustering :

    Identifier les différents enjeux environnementaux ‣ Objectifs : I. Intégrer l'analyse des enjeux par paragraphe ou section pour aider à repérer les passages intéressants lors de l’analyse d’un enjeu dans l'étude d'impact II. Identifier les enjeux présents dans les annexes pour éviter que les auditeurs ne passent à côté d'informations lors de l'analyse d'un enjeu III. Servir de critère pour la recommandation d'avis ‣ Méthodes disponibles : Topic modeling non supervisé, classification supervisée, ou entre les deux : classification semi-supervisée C. L'analyse des enjeux
  10. Méthode ‣ Méthode retenue : Classification semi-supervisée à l’aide d’un

    Thésaurus C. L'analyse des enjeux Incidence environnementale Dictionnaire Biodiversité biodiversité, milieu naturel, habitat naturel, faune, flore, trame verte et bleue (TVB), trame noire, pollution lumineuse, réservoir biologique, continuité écologique, haie, boisement, prairie, bocage, milieu aquatique, cours d’eau, état écologique, pollution, débit réservé, zone humide, ZNIEFF, Natura 2000, espèce protégée, oiseaux, chauve-souris, avifaune, mammifères, poissons, insectes, herbier Paysage et qualité de vie paysage, cadre de vie, qualité de vie, intégration paysagère, photomontage, insertion visuelle, point de vue, covisibilité, monument historique, site inscrit, site classé, nuisance, commodité, bruit, vibrations, acoustique, émergence, dB, exposition, odeur, olfactif Santé et sécurité des personnes santé humaine, toxicité, bactériologique, qualité de l’air, pollution, émissions atmosphériques, particules fines, poussière, sols pollués, radon, plantes allergènes, voies d’exposition, accident, risque industriel, explosion, incendie, nuage toxique, danger, inondation, submersion, baignade, pathogène Effets globaux (climat, énergie, ressources...) climat, changement climatique, réchauffement, gaz à effet de serre, consommation énergétique, économies d’énergie, énergies renouvelables, épuisement des ressources, terres rares, bilan carbone, séquestration, stockage de carbone, analyse du cycle de vie, adaptation, îlot de chaleur Préservation des sols sols, artificialisation, consommation foncière, consommation d’espace, espaces agro-naturels, hectare, imperméabilisation, urbanisation, étalement urbain
  11. Méthode ‣ Méthode retenue : Classification semi-supervisée ‣ Avantages :

    • Peu coûteux en temps humain (pas de gros travail de labellisation) • Performant avec peu de données, car capable de « généraliser » et d’apprendre les sujets à partir de peu d’informations ‣ Inconvénients : • Plus le dictionnaire est petit, plus il est difficile de travailler sur des textes courts • Il faut quand même pouvoir évaluer la pertinence des résultats du point de vue métier, on ne peut pas se contenter de mesures « non supervisées » C. L'analyse des enjeux
  12. Chaîne de traitement C. L'analyse des enjeux Nettoyage Nettoyage Avis,

    Paragraphe, Section, etc… Document Biodiversité Ressources en eau … Document 1 Vrai Vrai Document 2 Vrai Faux …. Document N-1 Faux Faux Document N Vrai Vrai Encodage Encodage Correlation Explanation Correlation Explanation Thésaurus Thésaurus
  13. Chaîne de traitement Temps d’exécution : -> Moins d’une minute

    Performance actuelle : -> 65% de précision (score F1 moyen sur tous les enjeux) C. L'analyse des enjeux Encodage Encodage Correlation Explanation Correlation Explanation Thésaurus Thésaurus Résultats Résultats Nettoyage Nettoyage Avis, Paragraphe, Section, etc…
  14. Le résumé automatique XX/XX/XXXX CGDD - Ecolab 22 Pourquoi le

    résumé ? 1. Permet d'avoir rapidement une vue d'ensemble de l'étude 2. Permet de gagner du temps et de l'efficacité dans l'analyse
  15. Le résumé automatique en pratique XX/XX/XXXX CGDD – Ecolab 25

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary
  16. Le résumé automatique en pratique XX/XX/XXXX CGDD – Ecolab 26

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary
  17. Le résumé automatique en pratique XX/XX/XXXX CGDD - Ecolab 27

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary Approches considérées : 1. Supervisé : création d'une couche pour classification, Deep Learning (succession de différentes transformations linéaires et non-linéaires sur la représentation vectorielle)
  18. Le résumé automatique en pratique XX/XX/XXXX CGDD - Ecolab 28

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary Approches considérées : 1. Supervisé : création d'une couche pour classification, Deep Learning (succession de différentes transformations linéaires et non-linéaires sur la représentation vectorielle)
  19. Le résumé automatique en pratique XX/XX/XXXX CGDD - Ecolab 29

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary Approches considérées : 1. Supervisé (création d’une couche pour classification, Deep Learning) 2. non-supervisé : travail sur l’embedding de CamemBERT, idée de séparation par importance (dans l'espace sémantique)
  20. Le résumé automatique en pratique XX/XX/XXXX CGDD - Ecolab 30

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary Approches considérées : 1. Supervisé (création d’une couche pour classification, Deep Learning) 2. non-supervisé (travail sur l’embedding de CamemBERT) 3. score : proximité à un vecteur représentant l'idée générale du paragraphe, recherche des phrases proches de cette idée
  21. Le résumé automatique en pratique XX/XX/XXXX CGDD - Ecolab 31

    Objectif: sélectionnez les phrases les plus informatives d’un paragraphe -> extractive summary Approches considérées : 1. Supervisé (création d’une couche pour classification, Deep Learning) 2. non-supervisé (travail sur l’embedding de CamemBERT) 3. score (proximité à la représentation moyenne) 4. TextRank : utilisation de l'algorithme PageRank de Google sur un réseau des liens de proximité sémantique des phrases
  22. Le résumé automatique en pratique Exemple XX/XX/XXXX CGDD - Ecolab

    32 ' Dans le cadre de l\'etude du fonctionnement ecologique, les donnees issues de la Trame verte et bleue du Limousin ont ete adaptees au niveau local. En effet, l\'echelle plus resserree de l\'analyse permet d\'identifier d\'autres reservoirs locaux, mais egalement d\'infirmer le role de continuite ecologique de certains corridors reperes au niveau regional. […] Qui plus est, le site est actuellement cloture, ce qui induit un obstacle au deplacement de nombreuses especes. ^ Le principal corridor ecologique local est materialise par la vallee de l\'Isle et de ses affluents. ^ La zone boisee au sud des terrains du projet peut etre assimilee a un reservoir ecologique local. ^ Les terrains du projet sont clotures et ne sont pas essentiels au maillage ecologique local. ^ Les infrastructures routieres et les zones urbanisees constituent les principales barrieres ecologiques.
  23. Le résumé automatique en pratique Exemple XX/XX/XXXX CGDD - Ecolab

    33 ' Dans le cadre de l\'etude du fonctionnement ecologique, les donnees issues de la Trame verte et bleue du Limousin ont ete adaptees au niveau local. En effet, l\'echelle plus resserree de l\'analyse permet d\'identifier d\'autres reservoirs locaux, mais egalement d\'infirmer le role de continuite ecologique de certains corridors reperes au niveau regional. […] Qui plus est, le site est actuellement cloture, ce qui induit un obstacle au deplacement de nombreuses especes. ^ Le principal corridor ecologique local est materialise par la vallee de l\'Isle et de ses affluents. ^ La zone boisee au sud des terrains du projet peut etre assimilee a un reservoir ecologique local. ^ Les terrains du projet sont clotures et ne sont pas essentiels au maillage ecologique local. ^ Les infrastructures routieres et les zones urbanisees constituent les principales barrieres ecologiques. Fonction de résumé
  24. Le résumé automatique en pratique Exemple XX/XX/XXXX CGDD - Ecolab

    34 ' Dans le cadre de l\'etude du fonctionnement ecologique, les donnees issues de la Trame verte et bleue du Limousin ont ete adaptees au niveau local. En effet, l\'echelle plus resserree de l\'analyse permet d\'identifier d\'autres reservoirs locaux, mais egalement d\'infirmer le role de continuite ecologique de certains corridors reperes au niveau regional. […] Qui plus est, le site est actuellement cloture, ce qui induit un obstacle au deplacement de nombreuses especes. ^ Le principal corridor ecologique local est materialise par la vallee de l\'Isle et de ses affluents. ^ La zone boisee au sud des terrains du projet peut etre assimilee a un reservoir ecologique local. ^ Les terrains du projet sont clotures et ne sont pas essentiels au maillage ecologique local. ^ Les infrastructures routieres et les zones urbanisees constituent les principales barrieres ecologiques. Fonction de résumé ['zone boisee sud des terrains projet peut etre assimilee reservoir ecologique local', 'zone boisee jouxtant aire etude des inventaires ecologiques sud est pas identifiee comme reservoir biologique dans srce']
  25. Le résumé automatique en pratique XX/XX/XXXX Intitulé de la direction/service

    interministérielle 35 Toujours en cours de développement Pas encore de métriques disponibles
  26. Le résumé automatique en pratique XX/XX/XXXX Intitulé de la direction/service

    interministérielle 39 Données Modèles Prévision
  27. Le résumé automatique en pratique XX/XX/XXXX Intitulé de la direction/service

    interministérielle 40 Données Modèles Prévision Information expert
  28. Le résumé automatique en pratique XX/XX/XXXX Intitulé de la direction/service

    interministérielle 41 Données Modèles Prévision Prévision corrigée Information expert
  29. Le résumé automatique en pratique XX/XX/XXXX Intitulé de la direction/service

    interministérielle 42 Données Modèles Prévision Prévision corrigée Information expert
  30. Améliorations en cours et suites ‣ Améliorations de performance :

    • Techniques de machine learning • Combinées à un processus itératif avec les experts métier, via l'active learning ‣ Améliorations d’architecture : • Application à d’autres documents techniques (annexes par exemple…) • Généralisation à d’autres thésaurus (ceux des autres DREAL) Généralisation à d’autres sujets et documents possible !
  31. Ecolab • Christine Fong [email protected] • Théo Roudil-Valentin [email protected]

    Ruben Partouche [email protected] • Arthur Filoche, doctorant au Lip6, consultant technique • Marc Leobet, superviseur métier • Thomas Cottinet, Chef de l'Ecolab DREAL Bretagne • Fabien Chapouillié, chef de projet données • Pascal Mallard, adjoint au chef de division Evaluation environnementale • Les auditeurs • Benjamin Croze, Chef de Service - DREAL Bretagne/COPREV Github : https://github.com/ecolabdata/2021-NLP_AE