Préparer un jeu de données à la circulation

Préparer un jeu de données à la circulation

Transcript

  1. DINSIC Préparer un jeu de données à la circulation ARCEP

    – 5 juillet 2019
  2. DINSIC Etat des lieux • La circulation des données entre

    organisations ou en open data est de plus en plus courante • Pour autant, si les données circulent, cela ne signifie pas forcément qu’elles sont réutilisées • La qualité des données et la documentation des jeux sont identifiées comme les principales barrières à la réutilisation • Un travail de sensibilisation auprès des producteurs est nécessaire, afin que chacun puisse tirer profit de la circulation des données
  3. DINSIC 1. Préparer le jeu de données 2. Documenter les

    données 3. Formaliser les éléments organisationnels 1.1 Extraire le jeu de données d’un SI 1.2 Structurer le jeu de données 1.3 Choisir un format pour votre jeu de données 1.4 Soigner le contenu de votre jeu de données à Décrire le jeu de données / décrire le mode de production du jeu de données / décrire le modèle de données / décrire les métadonnées / décrire l’évolution du fichier Déroulé
  4. DINSIC Préparer le jeu de données Extraire le jeu de

    données d’un système d’information Il peut être nécessaire de réaliser une extraction des données depuis un SI. Plusieurs situations peuvent se présenter : - Il existe déjà un outil qui permet d’exporter l’ensemble des données depuis le SI - Il existe une outil qui permet de sélectionner les données à exporter depuis le SI - Le SI ne prévoit pas de module d’extraction des données. Dans ce cas, il est nécessaire de réaliser une opération manuelle qui permet de réaliser l’export des données. Quelque soit la situation rencontrée, il est indispensable d’automatiser l’opération d’exportation des données afin de ne pas avoir à réaliser la même opération manuellement.
  5. DINSIC Préparer le jeu de données Structurer le jeu de

    données à Lorsqu’il s’agir de réfléchir à la structure du jeu de données, deux situations peuvent se présenter 1. La structure du jeu de données correspond à un schéma de données existant Qu’est ce qu’un schéma de données ? Un schéma de données est un modèle qui permet de décrire de manière précise et univoque les différents champs et valeurs possibles qui composent un jeu de données. Où consulter les schémas existants ? Etalab propose une liste de schéma de données existants sur www.schema.data.gouv.fr . Comment valider mon jeu de données ? Différents outils permettent de valider la conformité du jeu de données à un schéma existant : https://validata.fr/doku.php / www.goodtables.io / www.adresse.data.gouv.fr
  6. DINSIC Préparer le jeu de données Structurer le jeu de

    données 2. La structure du jeu de données ne correspond à aucun schéma de données existant Vous devez élaborer vous-même la structure du jeu de données. Il est nécessaire de soigner la structure de votre jeu de données pour le rendre appropriable par tous : • Occulter l’ensemble des colonnes dont les champs contiennent des données couvertes par un secret légal (pour une circulation en open data); • Occulter l’ensemble des colonnes dont les champs contiennent des données à caractère personnel dont la publication n’est pas nécessaire à l’information du public légal (pour une circulation en open data); • Privilégier la présence de variables pivots. Ces variables proposent des identifiants communs qui permettent de lier plusieurs jeux de données entre eux (ex. Le numéro SIRET de la base Sirene)
  7. DINSIC Préparer le jeu de données Choisir un format pour

    le jeu de données Pour que chacun puisse s’approprier les données, il est conseillé de les faire circuler dans un format : • ouvert • aisément réutilisable • exploitable par un système de traitement automatisé Type de données Formats conseillés Données tabulaires CSV Données statiques de transport GTFS/NeTEx Données géographiques GeoJSON, Shapefile, MapInfo MIF/MID, MapInfo TAB et GML, pour les vecteurs / ECW, JPEG2000 et GeoTIFF, pour les données pixelisées (raster) Données hiérarchiques JSON / XML / YAML
  8. DINSIC Le titre du jeu de données - Ne pas

    donner un titre trop générique ( “liste.csv”) ; - Ne pas donner un titre trop long qui rendrait la manipulation du fichier difficile ; - Ne pas donner un titre contenant des accents ou caractères spéciaux qui poseraient des problèmes d’intéropérabilité des fichiers ; - Ne pas utiliser de titre trop technique issu de nomenclatures métier. L’encodage du fichier Il est conseillé d’utiliser l’encodage UTF-8. Cet encodage permet d’encoder l’ensemble des caractères du répertoire universel de caractères codés Le séparateur Il est conseillé d’utiliser la virgule comme séparateur. Attention à la virgule dans les valeurs décimales, qui peut être considérée comme un séparateur. La gestion des champs non attribués Si un champ n’est pas attribué, laisser le champ vide (ne pas indiquer 0) Préparer le jeu de données Soigner le contenu du jeu de données
  9. DINSIC Documenter le jeu de données Pourquoi documenter ? à

    Sortir d’un contexte métier propre à une équipe à Faciliter la réutilisation des données par des acteurs tiers en décrivant pédagogiquement les données et la structure des fichiers publiés Où documenter les données ? à Dans une démarche d’open data, il est conseillé de proposer votre documentation en ligne et non sous format PDF à Pour une circulation interne des fichiers, il est conseillé de documenter le jeu de données dans un fichier séparé aux données
  10. DINSIC Documenter le jeu de données 1. Description générale du

    jeu de données - Une description globale des données / La liste des fichiers mis à disposition / La description du format des fichiers. 2. Description du mode de production des données - Comment ont été produites les données (saisie manuelle, collecte automatique, etc.) ? - Par quels acteurs les données ont été produites ? Si les données sont produites par plusieurs acteurs, quel modèle de gouvernance est-il mis en place pour centraliser les données ? - Les données sont-elles exhaustives ? Présentent-elles des limites dans leur qualité ? Il convient de souligner les points d’attention et précautions connues à l’usage des données Exemple – ARCEP • Décrire les référentiels utilisés et les subtilités de définition • Décrire d’où proviennent les données (population, voix/sms, 2G/3G) • Décrire les méthodes de calcul pour obtenir un indicateur / un taux de couverture • Souligner les précautions d’usage ( le décompte des logement INSEE / les données ne sont pas retraitées par l’ARCEP / données mobile vs. population et données fixes vs. Adresse)
  11. DINSIC Documenter le jeu de données 3. Description du modèle

    de données - Si votre jeu de données se compose de plusieurs éléments, faites apparaître les relations entre ceux-ci. - Si vous publiez des données tabulaires, vous pouvez produire un tableau récapitulatif indiquant, pour chaque colonne : le nom de la colonne, son type de données (entier, chaîne de caractères, nombre décimal etc.), la description de la donnée contenue dans cette colonne et une ou plusieurs valeurs d’exemple. - Si votre jeu de données contient un grand nombre d’énumérations, faites apparaitre un dictionnaire de ces valeurs possibles associé à leur signification. (Ex. Décrire l’abréviation FT pour France Télécom)
  12. DINSIC Documenter le jeu de données 4. Description des métadonnées

    Appliqué aux jeux de données, les métadonnées sont des descriptions normalisées du contenu du jeu. Les métadonnées de référence sur data.gouv.fr sont : Titre, Sigle, Description, Licence, Fréquence de mise à jour, Mots clés, Couverture temporelle, Couverture spatiale, Granularité spatiale, Mode privé 5. Description de l’évolution des fichiers Si le modèles de données change, si les données sont collectées différemment ou que des dispositions réglementaires affectent votre jeu de données, il est conseillé de maintenir une liste de ces changements. Il est conseillé de faire figurer: la date, la version des données (si vous versionnez vos données) et la nature du changement. Exemple:
  13. DINSIC Eléments organisationnels - Identifier le responsable de la publication,

    de la mise à jour et de l’animation du jeu de données - Proposer un point d’échange entre le producteur et le réutilisateur des données : il est souhaitable que cet espace d’échange soit public pour qu’il puisse bénéficier aux personnes qui auraient des questions similaires. - Elaborer un processus de rétroaction lorsque des anomalies sont relevées par les réutilisateurs
  14. DINSIC En conclusion - La montée en qualité et la

    documentation des jeux de données facilite la réutilisation des données par des acteurs tiers, qui ne sont pas familiarisés à l’environnement métier des données. - En interne, la circulation de données bien documentées fluidifie le travail entre les différentes directions métiers - En externe, la circulation de données bien documentées permet de réduire les sollicitations des réutilisateurs