Collecter et stocker des données
Enjeux du stockage : Où se trouvent vos données pendant le projet ?

Que vos données soient réutilisées ou produites, il est primordial de définir quels seront les modalités de stockage, les protocoles de sécurité, les droits d’accès, ainsi que les procédures de récupération en cas d’incident.
Le stockage des données collectées ou réutilisées pendant votre projet ne constitue ni une solution de diffusion, ni une stratégie de conservation à long terme.
Pour connaître les modalités de diffusion des données achévées et scientifiquement validées consultez la page "Diffuser".
Pour connaître les modalités et principes de conservation à long terme, consultez la page "Archiver, conserver"
Définitions et concepts
Les données froides sont des données qui ne sont que très peu utilisées. C’est un peu l’équivalent d’un carton de documents dans un grenier. On peut potentiellement un jour en avoir besoin, mais on ne l’ouvre quasiment jamais. On s’attend ainsi à ce que le temps de récupération de données froides soit un peu plus long.
Au contraire, les données chaudes sont des données actives, qui sont souvent consultées, voire de façon intensive. Ainsi, les espaces de stockage dit « scratch » correspondent à des données chaudes non sauvegardées, prêtes à être exploitées par des ressources de calcul ou de traitement.
Utilisation de supports d’enregistrement pour conserver des informations numériques pendant la durée du projet . Cela se fait généralement dans un endroit facilement accessible, secondaire au lieu de collecte (mais pas exclusivement). Les exemples incluent les disques durs locaux ou externes ainsi que les supports mobiles, les disques partagés en réseau, le stockage au sein de cloud, etc.
Le stockage est réalisé sur différents supports physiques (disque dure par exemple) ou en ligne (serveurs et plateformes). Ces supports peuvent avoir des limites de volumétrie.
Veillez à bien lire les conditions d’utilisation de votre service de stockage en ligne. Sous quelles conditions peuvent-ils fermer votre compte ? Jusqu’où s’étend la durée de récupération des données supprimées ? Combien de versions différentes d’un même jeu de données peuvent être conservées simultanément ? Est-ce basé sur le nombre de versions différentes, ou sur les dates de dernière utilisation ? Pour ces raisons il est toujours conseillé d'utiliser des solutions intitutionnelles.
Pour retrouver l'outil de stockage et de collaboration dans le périmétre LORD consultez l'outil de choix - contenu à venir
Copie de tout ou une partie des fichiers sur un système séparé des données originelles, à des fins de récupération sur le court terme en cas de perte ou de dégradation des données. Il s’agit d’une image figée dans le temps des fichiers ; la fréquence des sauvegardes et le nombre de versions conservées simultanément dépendent des outils, services et besoins.
Gardez en mémoire que, pour une conservation sur le long terme, tous les supports de sauvegarde ne se valent pas. Par exemple, les disques durs mécaniques ont une durée de vie moyenne, en bonne condition, de 4 à 6 ans. Des supports de sauvegarde tels que des disques SSD ou des clés USB sont pratiques dans ce sens, mais sont facilement perdus ou volés.
Par ailleurs, il est important de signaler que la synchronisation avec un espace de stockage en ligne n’est pas la même chose que la création d’une sauvegarde. En effet, si votre ordinateur est volé ou hacké, vos données sur le cloud sont tout autant vulnérables que les données présentes physiquement sur vos disques. De plus, si des données locales sont corrompues sans que vous le remarquiez, elles vont remplacer automatiquement les données présentes dans le cloud.
Suivez la règle des Trois, ou du 3-2-1 : Trois copies, sur au moins Deux supports différents, dont Un hors site (c’est-à-dire, un bâtiment différent, ou une autre partie du pays, en fonction des situations géographiques).
Pour ces trois copies, il est recommendé de les conserver comme suit :
1) « ici » — une copie locale, là où les données sont collectées et/ou traitées
2) « proche » — une copie sur un support externe différent du premier
3) « loin » — une copie externe conservée dans un lieu différent des deux premières copies, tel qu’un cloud.
Quelques questions pour bien démarrer
- Quelle est / sera la volumétrie des données ?
- Qui devra avoir accès aux données ?
- Que vais-je faire avec ces données ? Des traitements ou du calcul ? De l’analyse, de la fouille? Du partage ?
- Les données ont-elles un caractère sensible ou confidentiel ?
- Quel niveau de sécurisation / sauvegarde est nécessaire (les données sont-elles facilement reproductibles ?) ?
- Quand vais-je avoir besoin de ces données ? Rapidement, de façon régulière, dans quelques mois, peut-être dans quelques années ? …
- Quel est le financement prévu pour la gestion et le stockage des données ?
Pour retrouver l'outil dédié en fonction de vos réponses, nous mettons en place une fiche pratique qui recense des outils disponibles et les caractéristiques dans le périmètre LORD. Contenu à venir
Préparer ses fichiers
L'organisation de vos fichiers et votre stratégie de nommage de fichiers peuvent être hautement personnalisées, l'important est d'être cohérent et de les écrire. Passer un peu de temps sur les stratégies de gestion de fichiers au début du processus de planification du projet, dès la rédaction du PGD, peut faire gagner beaucoup de temps (et des maux de tête) plus tard. Il existe des bonnes pratiques, et des conventions existantes dont vous pouvez vous inspirer ou réutiliser.
Consultez le guide "Le nommage et organisation des fichiers" de notre boîte à outils pour connaître tous les détails