$30 off During Our Annual Pro Sale. View Details »

#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

#52 [1/2] - Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

Données d'observation de la Terre et données du Web, rencontre entre les 2 univers

Abstract:

Exploiter les richesses contenues dans les données d'observation de la Terre est un défi à la fois économique et technique pour les acteurs du domaine. Aujourd'hui, ce potentiel est loin d'être entièrement libéré. Le monde du Web a en grande partie réussi à relever ce défi et ce depuis près d'une vingtaine d'années. Au travers d'une comparaison entre les données d'Observation de la Terre et les données du Web, nous analyserons les raisons de cet état de fait, identifierons les clés du changement et les perspectives pour les années à venir

Bio:

Romain est à la tête de l'équipe "Valorisation de la donnée d'Observation de la Terre" à Thales Alenia Space

Toulouse Data Science

December 03, 2021
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Données EO et données Web
    Rencontre entre 2 univers
    ...
    1
    Romain HUGUES – 2021 – Toulouse Data Science​

    View Slide

  2. Présentations
    2
    Romain HUGUES – 2021 – Toulouse Data Science

    View Slide

  3. Pitch
    Exploiter les richesses contenues dans les données d'observation de la
    Terre (EO data) est un défi à la fois économique et technique pour les
    acteurs du domaine. Aujourd'hui, ce potentiel est loin d'être
    entièrement libéré. Le monde du Web a en grande partie réussi à
    relever ce défi et ce depuis près d'une vingtaine d'années.
    Au travers d'une comparaison entre les données d'Observation de la
    Terre et les données du Web, nous analyserons les raisons de cet état
    de fait, identifierons les clés du changement et les perspectives pour
    les années à venir.
    3
    Romain HUGUES – 2021 – Toulouse Data Science

    View Slide

  4. Données du Web (+ social media)
    Yottaoctets (1024 octets)
    Texte en langage naturel = langue des
    humains.
    Multiples langues, principalement anglais
    Geo référencées : explicitement lat,lon +
    date ou dans le texte
    http://www.geonames.org/
    Milliards de sources interconnectées à sens
    unique par un protocole commun (http, IP)
    (Ne sont pas prises en compte les autres données images, son,
    etc... ni les données déjà structurées type LinkedOpenData)
    4
    Romain HUGUES – 2021 – Toulouse Data Science
    http://internet-map.net/

    View Slide

  5. Données d'Observation de la Terre
    Données scientifiques : mesures explicites de
    paramètres physiques
    • Adaptées à des applications : climat, météo, etc...
    • Exploitables dans des modèles
    Données image. Au contenu implicite
    • Initialement pour exploitation humaine (ce qui
    nous intéresse)
    Exaoctets (1018)
    Pas de couverture globale (pour le moment)
    Georéférencées précisément. Quelques index par
    lieu, date etc...
    Pas d'accès commun, quelques sources assez
    isolées.
    Quelques standards OGC...
    5
    Romain HUGUES – 2021 – Toulouse Data Science https://www.euspaceimaging.com/true-30-cm-imagery/
    ESA Sentinel 5 –TROPOMI –NO2 Map

    View Slide

  6. Comparaison Web / EO data
    6
    Romain HUGUES – 2021 – Toulouse Data Science
    Web Data EO Data
    "Sparse" Dense
    Explicite Implicite
    Non-controlée Controllée
    Données connected Sources Isolées
    Sources multiples Quelques sources (satellites)
    Revenus : contenus payants, publicité Revenus : vente de contenu, VAS

    View Slide

  7. Éléments communs
    • Matière brute
    • Hautement non structurée
    • Dédiée à une exploitation humaine
    • Large volumétrie
    • Nécessite une indexation, une
    structuration
    7
    Romain HUGUES – 2021 – Toulouse Data Science

    View Slide

  8. Exemple de structuration de données Web
    Moteurs de recherche
    • Analyse de la matière / crawlers
    • Indexation par mot-clé
    • Pas besoin d'IA
    8
    Romain HUGUES – 2021 – Toulouse Data Science
    Knowledge Graph
    • Modélisation​
    • Raisonnement
    • Nécessite NLP

    View Slide

  9. Exemple de structuration de données EO
    Chaine en 4 étapes
    Ne se suffisent pas toujours. Nécessitent des compléments
    Très orientées "thématiques"
    9
    Romain HUGUES – 2021 – Toulouse Data Science
    https://eopen-project.eu/

    View Slide

  10. Système de valorisation de données EO
    Data collection, data access
    • Broker, Data Cube etc...
    • Chaque fournisseur a le sien
    Extraction d'infos
    • Manuel / auto
    • Supervisé / non supervisé
    Gestion des connaissances
    • Utiliser les standards des autres !
    Usage applicatif
    • Thématique
    10
    Romain HUGUES – 2021 – Toulouse Data Science
    Queryable Earth (Planet Labs)

    View Slide

  11. Les 4 défis du succès
    1. Data access unique
    • Broker universel courtage de données
    • Market place
    2. Permettre l'indexation par le contenu
    grâce à l'extraction systématique
    d'information
    • Traduction générique image <=> texte
    3. Intégrer les données au reste du monde
    dans des modélisations sémantiques
    • Gestion des connaissances scalable
    4. Business model?
    11
    Romain HUGUES – 2021 – Toulouse Data Science
    https://paperswithcode.com/dataset/rsicd

    View Slide

  12. Conclusions et perspectives
    • Problématiques similaires
    • Architectures de solutions largement
    transposables d'un monde à l 'autre
    • interprétation automatique données Web en
    en avance ?
    • La donnée EO est toujours en panne d'un
    business model innovant
    • La donnée EO est insuffisante. Elle sert de
    complément aux autres données.
    12
    Romain HUGUES – 2021 – Toulouse Data Science

    View Slide