Définitions et principes
L’Organisation de Coopération et de Développement Économique (OCDE) définit les données de la recherche comme « des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche »

Les principes FAIR
Une bonne gestion de ses données vise à les rendre Faciles à trouver, Accessibles, compréhensibles par les humains et les machines, c’est-à-dire Interopérables, et Réutilisables. C’est ce qu’on appelle les principes FAIR. Ces principes recouvrent les différentes manières dont les données de la recherche se construisent, se conservent, se présentent, se partagent et se réutilisent.
• Assignation d’un identifiant pérenne et unique pour les différents jeux de données ;
• Dépôt dans un entrepôt de données adapté aux besoins (cela est mieux s’il est certifié, dit « de confiance », avec une pérennité assurée, un identifiant pérenne fourni et une gestion des différentes versions assurée) ;
• Création de métadonnées externes riches, liées aux jeux de données ;
• Nécessité d’un archivage pérenne évalué (avec toutes les démarches que cela implique).
• Les données doivent être accessibles à toutes les personnes autorisées, mais pas plus ;
• Utiliser des protocoles standards, sécurisés, libres et ouvert lors de la mise en place de bases de données ;
• Toujours travailler, si possible, avec des formats de fichier indépendant de tout logiciel propriétaire ;
• Les métadonnées sont rendues accessibles en toute circonstance, même lorsque les données sont protégées ou perdues.
• Les métadonnées utilisent un vocabulaire contrôlé et FAIR pour les descriptions des données (mieux si la documentation du vocabulaire FAIR utilisé est facilement trouvable et identifiable à l’aide d’un identifiant pérenne qui lui est propre) ;
• Pour une interopérabilité optimale, choisir un entrepôt lié au web de données et construit sur la technologie RDF ou équivalent, mais cela n’est pas encore le plus répandu.
• Il faut choisir une licence pour stipuler clairement les conditions de réutilisation des données ;
• La provenance des données doit être décrite avec précision ;
• Un fichier « readme » peut être ajouté si nécessaire pour assurer la bonne compréhension et la réutilisation des données dans le futur (le mieux étant qu’il contienne aussi l’ensemble des informations permettant une nouvelle récupération des données dans des conditions parfaitement similaires) ;
• Le schéma de métadonnées choisi doit être adapté aux types de ressources, au domaine, à la communauté ou à l’entrepôt.
Enjeux d'une bonne gestion des données
Une bonne gestion des données est bénéfique pour vous… et pour les autres !
Elle présente trois grands avantages :
-
Vous gagnez du temps : La mise en place d’une documentation et de bonnes pratiques demande un temps d’appropriation au début. Mais, intégrées progressivement au fil du projet, elles vous feront gagner du temps par rapport à une mise en conformité en fin de parcours, lorsque les données sont déjà éloignées de leur contexte de production.
-
Vous limitez les risques : L’évaluation des ressources utilisées, la réflexion sur les outils et les modalités de partage permettent de produire et de diffuser (avec ou sans accès restreint) en toute sécurité. Vos données restent identifiables, bien organisées, et vous évitez les pertes.
-
Vous facilitez le partage et la diffusion : Vos données sont déposées dans des structures de confiance, interopérables, et donc facilement repérables par les humains comme par les machines. Vos travaux gagnent ainsi en visibilité et en impact.