Décrire et documenter la gestion des données

La documentation des données est une étape clé dans votre projet. Elle va garantir la bonne conservation à court et à long terme et sa bonne réutilisation par vous et toute personne ayant accès à ces données.
Les métadonnées
Les données sont décrites grâce à des métadonnées.
Les métadonnées peuvent être de différents types.
- Les métadonnées scientifiques apportent des informations sur la donnée, notamment : protocole et contexte d’obtention, références temporelles, paramètres d’instruments utilisés, outils et logiciels d’analyse, etc. en utilisant les vocabulaires contrôlés du domaine de recherche.
- Les métadonnées documentaires apportent des informations plus spécifiques comme l’établissement et les producteurs, les conditions d’utilisation et d’accès, l’identifiant pérenne du jeu de données, l’identifiant des publications et codes logiciels liés aux données, etc.
Les métadonnées vont également être générées différemment en fontion de leurs natures :
- soit embarquées : elles sont produites automatiquement par les appareils ou logiciels (exemples : date, format…).
- soit enrichies : elles sont ajoutées par l’auteur (exemples : mots-clés, nom du projet, licence…).
README
Lorsque vous traitez, anonymisez ou déposez des données, vous allez pouvoir accompagner vos données d'un fichier readme.
Le fichier README est une métadonnée enrichie, sous forme de document, qui fournit des informations sur un jeu de données et assure que ce dernier puisse être correctement interprété, par vous-même à une date ultérieure, ou par des personnes extérieures lorsque les données sont partagées ou publiées.
Il es préférable de suivre un standard (modèle reconnnu par l'ensemble des utilisateurs), mais lorsqu’aucun standard ne semble correspondre entièrement à vos besoins, la rédaction de métadonnées de type « README» est une stratégie appropriée.
Contenu recommandé dans un fichier README
- Donner un nom au jeu de données
- Nom/Institution/adresse/email pour
- Investisseur principal (ou la personne responsable de la collecte des données)
- Associés ou co-investisseurs
- Personne référente pour toute question
- Date de la collecte de données (peut être une date unique, ou une période)
- Information sur la localisation de la collecte de données.
- Mot-clés décrivant le sujet
- Information sur la langue
- Information sur le financement de la collecte des données
- Pour chaque nom de fichier, une courte description des données qu’il contient
- Le format du fichier si ce n’est pas évident avec le nom de ce dernier
- Si le jeu de données inclut plusieurs fichier reliés les uns aux autres, les relations entre les fichiers ou une description de la structure les réunissant doit être incluse
- Date à laquelle le fichier a été créé
- Dates auxquelles les fichiers ont été mis à jour, ainsi que la nature des dites mises à jours, si cela s’applique
- Informations à propos des données corrélées collectées, mais non incluses dans le jeu de données décrit.
- Licences ou restrictions appliquées sur les données
- Lien vers la publication qui cite ou utilise ces données
- Lien vers les autres lieux de stockage public des données (consultez les bonnes pratiques pour le partage des données pour plus d’informations sur la sélection d’un entrepôt).
- Recommandations pour la citation de ces données (consultez les bonnes pratiques pour la citation des données)
- Description de la méthodologie utilisée pour la collecte ou la création des données (inclure les liens ou références des publications et autres documents contenant les protocoles et concepts utilisés)
- Description des méthodes utilisées pour le traitement des données (décrire comment les données ont été générées à partir des données brutes ou collectées)
- Toute information à propos des logiciels ou des instruments nécessaires pour comprendre et interpréter les données. Cela comprend aussi les noms de versions des logiciels et du matériel utilisé (inclure si possible tous les numéros de version si des mises à jour des logiciels ont eu lieu durant la collecte des données).
- Standards et informations de calibrations des outils utilisés si nécessaire
- Décrire toutes les procédures assurant la qualité des données
- Définir l’ensemble des codes et symboles utilisés pour noter ou qualifier les données d’une qualité inférieure/douteuse/aberrante dont les gens devraient être conscients
- Personnes impliquées dans la collecte, le traitement, l'analyse et/ou la soumission des échantillons
- Compter le nombre de variables et le nombre de lignes et de colonnes
- Liste de variables, y compris les noms complets et les définitions (définir les mots abrégés) des en-têtes de colonne pour les données tabulaires
- Unités de mesure
- Définitions des codes et symboles utilisés pour enregistrer les données manquantes
- Formats spécialisés et autres abréviations utilisées
Les informations de cette section sont à répéter à chaque jeu de données (ou fichier, en fonction de ce qui convient).