Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Atelier CEBIOS GBIF, 2eme partie

Atelier CEBIOS GBIF, 2eme partie

Présentation d'outils de gestion de données destinée à des chercheurs en biodiversité.
Les outils présentés sont: ModernCSV, OpenRefine, SQLite, NameParser et QGIS.

Avatar for André Heughebaert

André Heughebaert

March 27, 2025
Tweet

More Decks by André Heughebaert

Other Decks in Research

Transcript

  1. ATELIER CEBIOS GBIF SECONDE PARTIE: À LA DÉCOUVERTE DE CINQ

    OUTILS Le 28 mars 2025, CEBioS @ NaturalSciences.be André Heughebaert (Belgian Biodiversity Platform)
  2. INTRODUCTION A la découverte de certains outils multi-plateforme et gratuits

    : : éditer vos fichiers CSV : corriger vos données structurer vos données : décomposer vos noms scientifiques : visualiser vos données spatiales Sont-ils bien installés sur vos ordis? ModernCSV OpenRefine DB Browser for SQLite NameParser QGIS
  3. N'hésitez pas à en découvrir d'autres: alternative gratuite à MS

    Office & outil en ligne de géo référencement , & & pour la taxonomie Quels sont vos outils favoris? LibreOffice PostgreSQL PostGIS GeoPick Python Pandas R Markdown Expression régulière regexr Catalogue of Life GBIF API
  4. 1. MODERN CSV Editez vos données ModernCSV est une application

    logicielle conçue pour offrir une manière plus efficace et conviviale de travailler avec les fichiers CSV (Comma Separated Values)
  5. Objectif : Elle vise à pallier les limitations des tableurs

    traditionnels et des éditeurs de texte basiques lors de la manipulation de fichiers CSV. Elle cherche à combiner la vue structurée des tableurs avec la simplicité des éditeurs de texte.
  6. Fonctionnalités clés : C'est un éditeur/visualiseur de fichiers tabulaires, ce

    qui signifie qu'il présente les données CSV dans un format de tableau clair et organisé. Il est conçu pour une édition efficace, permettant aux utilisateurs de manipuler facilement les lignes, les colonnes et les cellules. Il est multiplateforme (Windows, Mac et Linux). Il permet la manipulation de grandes quantités de données.
  7. En résumé : ModernCSV est un outil qui simplifie le

    processus de visualisation, d'édition et de gestion des fichiers CSV, ce qui en fait un atout précieux pour quiconque travaille avec ce format de données. Essentiellement, c'est un programme conçu pour faciliter le travail avec les fichiers CSV par rapport à l'utilisation d'un tableur standard.
  8. -DEMO- colonne coordinateUncertainty Trier sur cette colonne Sélectionner coordinateUncertainty=250 Modifier

    coordinateUncertainty à 200 Montrer comment on fait Undo/Redo colonne ScientificName Trouver le record Agrotis subrepens Mettre le taxonRank à Species colonne Elevation Sélectionner Elevation = 0 Supprimer ces valeurs inutiles
  9. -PRATIQUE- Reportez-vous à l'exercice 3.ab du cours de mobilisation des

    données. 1. (Trouvez et corrigez les erreurs avec votre tableur) 2. Trouvez et corrigez les erreurs avec ModernCSV 3. En quoi est-ce différent?
  10. 2. OPENREFINE Corrigez vos données OpenRefine est un outil puissant

    et gratuit, conçu pour le nettoyage et la transformation de données. Voici une explication plus détaillée :
  11. Objectif principal : OpenRefine est utilisé pour "nettoyer" les données,

    ce qui signifie corriger les erreurs, les incohérences et les doublons dans les ensembles de données. Il permet également de transformer les données, c'est-à-dire de les restructurer ou de les convertir dans différents formats.
  12. Caractéristiques clés : Il fonctionne comme une application de bureau,

    ce qui signifie qu'il fonctionne sur votre ordinateur, et non en ligne. Il est particulièrement utile pour travailler avec de grands ensembles de données. Il est open source, ce qui signifie qu'il est gratuit et que son code source est disponible publiquement.
  13. Fonctionnalités avancées: Supprimer les doublons. Normaliser les données (par exemple,

    uniformiser les formats de date ou d'adresse). Fractionner ou combiner des colonnes. Réconcilier les données avec des bases de données externes.
  14. En résumé : OpenRefine est un outil essentiel pour quiconque

    travaille avec des données et a besoin de les préparer pour l'analyse ou la publication. Il simplifie les tâches complexes de nettoyage et de transformation de données. En d'autres termes, c'est un logiciel qui vous aide à rendre vos données plus propres et plus utilisables.
  15. -DEMO- Ouvrir une nouvelle base de données, importer le fichier

    CSV. Faire du facetage sur les champs suivants: family, taxonRank, ye, mo, collector, identifiedBy, countryCode, county
  16. -PRATIQUE- Reportez-vous à l'exercice 3.c du cours de mobilisation des

    données. 1. Trouvez et corriger les erreurs avec OpenRefine. 2. En quoi est-ce différent de travailler dans un tableur?
  17. 3. SQLITE Structurez vos données SQLite est un système de

    gestion de base de données relationnelle (SGBDR) très particulier. Voici les points essentiels à retenir :
  18. Léger et embarqué : Contrairement aux SGBDR traditionnels comme MySQL

    ou PostgreSQL, SQLite est une bibliothèque logicielle qui s'intègre directement dans les applications. Il ne nécessite pas de serveur distinct pour fonctionner, ce qui le rend extrêmement léger et facile à déployer. Une base de données SQLite est stockée dans un seul fichier sur le disque.
  19. Utilisation répandue : SQLite est le moteur de base de

    données le plus utilisé au monde. On le retrouve dans de nombreux logiciels, systèmes d'exploitation (comme Android et iOS), navigateurs web, et appareils embarqués.
  20. Caractéristiques principales : Il utilise le langage SQL (Structured Query

    Language) pour manipuler les données. Il est autonome, sans serveur, et sans configuration complexe. Il est très portable, fonctionnant sur de nombreuses plateformes. Il supporte les transactions ACID (Atomicité, Cohérence, Isolation, Durabilité).
  21. Avantages : Simplicité d'utilisation et d'intégration. Faible encombrement et consommation

    de ressources. Fiabilité et robustesse. Idéal pour les applications embarquées, les applications mobiles, et les petits projets.
  22. En résumé, SQLite est une solution de base de données

    simple, fiable et performante, parfaitement adaptée aux environnements où la légèreté et la facilité d'utilisation sont primordiales.
  23. -DEMO- Ouvrir une nouvelle base de données, importer le fichier

    CSV. Faire du facetage sur les champs suivants: family,taxonRank, ye, mo, collector, identifiedBy, countryCode, county reference: documentation SQLite en anglais
  24. -PRATIQUE- Reportez-vous à l'exercice 3.c du cours de mobilisation des

    données. 1. Trouvez et corriger les erreurs avec SQLite. 2. En quoi est-ce différent de travailler dans un tableur?
  25. CORRECTIONS Certaines erreurs se sont glissées dans les données: CountryCode:

    17.3537949, 17.3857972, 17.5796965 County: San Anders, San Andres, SanAndres YE: 2088 Mo: Oct TaxonRank: NULL Lat, Lon: 5° 4' 14.2" N|75° 23' 19.3" W Cat. Numb.: UWP:122471 & UWP:157339 appear twice Lat, Lon: certains points au Mali et au Niger
  26. 4. NAMEPARSER Décomposez les noms scientifiques Le NameParser est un

    outil qui utilise l'API du GBIF pour décomposer un nom scientifique en ses différents composants.
  27. Par exemple l'analyse de Stagonospora polyspora M.T. Lucas & Sousa

    da Câmara 1934 reconnaitra qu'il s'agit d'un nom scientifique avec: *Stagonospora comme genre (genus) *polyspora comme comme espèces (specificEpithet) *M.T. Lucas & Sousa da Câmara comme le(s) auteur(s) (authorship) et 1934 comme année. Si le nom correspond aux règles de nomenclature, il vous l'indiquera (parsed=true).
  28. -DEMO- Rendez-vous sur le site du . 1. Sélectionner le

    fichier des noms (3c-all-names.txt) 2. Parser les noms 3. Sauver les résultats NameParser
  29. -PRATIQUE- Reportez-vous à l'exercice 3.c du cours de mobilisation des

    données. 1. Extraire les noms scientifiques(fullName+author) dans un fichier texte. 2. Faire analyser les noms par le NameParser 3. Comment pouvez-vous utiliser ces résultats?
  30. 5. QGIS Visualisez vos données spatiales QGIS (à l'origine Quantum

    GIS) est une application de Système d'Information Géographique (SIG) libre et gratuite. Essentiellement, c'est un outil logiciel qui permet aux utilisateurs de : Visualiser et modifier des données géospatiales : Cela inclut des données telles que des cartes, des images satellites et des données liées à des emplacements spécifiques. Il gère divers formats de données (vectorielles, raster, etc.).
  31. Analyser des informations spatiales : QGIS fournit des outils pour

    effectuer des analyses spatiales, telles que le calcul de distances, l'identification de modèles et l'exécution de tâches de géotraitement. Créer des cartes : Les utilisateurs peuvent concevoir et produire des cartes de haute qualité à diverses fins, des visualisations simples aux rapports complexes.
  32. Quelques aspects clés de QGIS : Libre et open source

    : Cela signifie qu'il est disponible gratuitement pour tout le monde et que son code source est accessible au public. Multiplateforme : Il fonctionne sur divers systèmes d'exploitation, notamment Windows, macOS et Linux.
  33. Quelques aspects clés de QGIS : Extensible : QGIS peut

    être étendu avec des plugins, ajoutant un large éventail de fonctionnalités supplémentaires. Largement utilisé : Il est utilisé par des professionnels et des amateurs dans divers domaines, notamment les sciences de l'environnement, l'urbanisme et la recherche.
  34. En termes simples, QGIS est un outil puissant qui aide

    les gens à travailler avec et à comprendre les données géographiques.
  35. -DEMO- Ouvrir l'application QGIS Créer un nouveau projet Ajouter un

    layer vecteur avec frontières des pays (TM_World_Boundaries shapefile) Ajouter un layer CSV avec des occurrences de l'exercice 3.c Changer les propriétés pour afficher Cat. Numb. dans le label Montrer les points dans le Guatemala Montrer les points en dehors (au Mali et au Niger) Noter les Cat. Numb. de ces points Sauver le projet
  36. -PRATIQUE- Reportez-vous à l'exercice 3.c du cours de mobilisation des

    données. Importer les données dans QGIS. Visualiser les points sur la carte des pays Lister les enregistrements dont les coordonnées sont erronées Que pensez-vous de ce genre de visualisation spatiale?
  37. CONCLUSION -PRATIQUE- (Si le temps le permet): Exporter vos données

    en fichiers CSV Experimenter les outils avec vos données En quoi cela peut-il vous aider? Quels sont vos outils favoris? Sont-ils gratuits, open source et multi-plateforme?
  38. MESSAGE À RETENIR Il existe de nombreux outils gratuits et

    Open Source Ces outils sont souvent spécialisés & complémentaires Faites vous votre propre boîte à outils Restez toujours ouvert à de nouveaux outils Corriger les champs manuellement est souvent fastidieux... Un peu de programmation peut vous simplifier la vie Corriger vos données (dates, taxons, coordonnées...) dès que possible