Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

Abstract:

Exploiter les richesses contenues dans les données d'observation de la Terre est un défi à la fois économique et technique pour les acteurs du domaine. Aujourd'hui, ce potentiel est loin d'être entièrement libéré. Le monde du Web a en grande partie réussi à relever ce défi et ce depuis près d'une vingtaine d'années. Au travers d'une comparaison entre les données d'Observation de la Terre et les données du Web, nous analyserons les raisons de cet état de fait, identifierons les clés du changement et les perspectives pour les années à venir

Bio:

Romain est à la tête de l'équipe "Valorisation de la donnée d'Observation de la Terre" à Thales Alenia Space

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

December 03, 2021
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Données EO et données Web Rencontre entre 2 univers ...

    1 Romain HUGUES – 2021 – Toulouse Data Science​
  2. Présentations 2 Romain HUGUES – 2021 – Toulouse Data Science

  3. Pitch Exploiter les richesses contenues dans les données d'observation de

    la Terre (EO data) est un défi à la fois économique et technique pour les acteurs du domaine. Aujourd'hui, ce potentiel est loin d'être entièrement libéré. Le monde du Web a en grande partie réussi à relever ce défi et ce depuis près d'une vingtaine d'années. Au travers d'une comparaison entre les données d'Observation de la Terre et les données du Web, nous analyserons les raisons de cet état de fait, identifierons les clés du changement et les perspectives pour les années à venir. 3 Romain HUGUES – 2021 – Toulouse Data Science
  4. Données du Web (+ social media) Yottaoctets (1024 octets) Texte

    en langage naturel = langue des humains. Multiples langues, principalement anglais Geo référencées : explicitement lat,lon + date ou dans le texte http://www.geonames.org/ Milliards de sources interconnectées à sens unique par un protocole commun (http, IP) (Ne sont pas prises en compte les autres données images, son, etc... ni les données déjà structurées type LinkedOpenData) 4 Romain HUGUES – 2021 – Toulouse Data Science http://internet-map.net/
  5. Données d'Observation de la Terre Données scientifiques : mesures explicites

    de paramètres physiques • Adaptées à des applications : climat, météo, etc... • Exploitables dans des modèles Données image. Au contenu implicite • Initialement pour exploitation humaine (ce qui nous intéresse) Exaoctets (1018) Pas de couverture globale (pour le moment) Georéférencées précisément. Quelques index par lieu, date etc... Pas d'accès commun, quelques sources assez isolées. Quelques standards OGC... 5 Romain HUGUES – 2021 – Toulouse Data Science https://www.euspaceimaging.com/true-30-cm-imagery/ ESA Sentinel 5 –TROPOMI –NO2 Map
  6. Comparaison Web / EO data 6 Romain HUGUES – 2021

    – Toulouse Data Science Web Data EO Data "Sparse" Dense Explicite Implicite Non-controlée Controllée Données connected Sources Isolées Sources multiples Quelques sources (satellites) Revenus : contenus payants, publicité Revenus : vente de contenu, VAS
  7. Éléments communs • Matière brute • Hautement non structurée •

    Dédiée à une exploitation humaine • Large volumétrie • Nécessite une indexation, une structuration 7 Romain HUGUES – 2021 – Toulouse Data Science
  8. Exemple de structuration de données Web Moteurs de recherche •

    Analyse de la matière / crawlers • Indexation par mot-clé • Pas besoin d'IA 8 Romain HUGUES – 2021 – Toulouse Data Science Knowledge Graph • Modélisation​ • Raisonnement • Nécessite NLP
  9. Exemple de structuration de données EO Chaine en 4 étapes

    Ne se suffisent pas toujours. Nécessitent des compléments Très orientées "thématiques" 9 Romain HUGUES – 2021 – Toulouse Data Science https://eopen-project.eu/
  10. Système de valorisation de données EO Data collection, data access

    • Broker, Data Cube etc... • Chaque fournisseur a le sien Extraction d'infos • Manuel / auto • Supervisé / non supervisé Gestion des connaissances • Utiliser les standards des autres ! Usage applicatif • Thématique 10 Romain HUGUES – 2021 – Toulouse Data Science Queryable Earth (Planet Labs)
  11. Les 4 défis du succès 1. Data access unique •

    Broker universel courtage de données • Market place 2. Permettre l'indexation par le contenu grâce à l'extraction systématique d'information • Traduction générique image <=> texte 3. Intégrer les données au reste du monde dans des modélisations sémantiques • Gestion des connaissances scalable 4. Business model? 11 Romain HUGUES – 2021 – Toulouse Data Science https://paperswithcode.com/dataset/rsicd
  12. Conclusions et perspectives • Problématiques similaires • Architectures de solutions

    largement transposables d'un monde à l 'autre • interprétation automatique données Web en en avance ? • La donnée EO est toujours en panne d'un business model innovant • La donnée EO est insuffisante. Elle sert de complément aux autres données. 12 Romain HUGUES – 2021 – Toulouse Data Science