Réseau - Web - GNU/Linux

2014 20 septembre

Politique de sauvegarde

Rédigé par Marc GUILLAUME | Aucun commentaire
Sauvegardes

Cet article a été écrit il y a plusieurs années, et depuis l'utilisation de l'informatique a encore évolué. Et à cette évolution se sont ajoutées (depuis le 25 mai 2018) les contraintes de le RGPD. Si les grandes lignes sont toujours valables, j'ai rajouté quelques commentaires pour ceux qui seraient soumis à la nouvelle réglementation qui ajoute une couche de complexité à la sauvegardes des données dès lors qu'elles concernent les DCP.

Une grande partie de ces réflexions repose sur mon expérience de prestataire informatique indépendant et de mon expérience en entreprise. Il s'agit essentiellement de bonnes pratiques et de réflexions de bon sens à avoir  pour essayer de sauvegarder ses données de façon la plus efficace possible et au moindre coût.

Les difficultés de la sauvegarde

Plusieurs évolutions de l'usage des systèmes informatiques font que la sauvegarde devient complexe à assurer :

  1. Les volumes de données de tous les utilisateurs sont de plusieurs ordres de grandeur supérieurs à ce qui se pratiquait par exemple dans les dernières années du siècle passé, et dans la première décennie de l'actuel.
  2. L'omniprésence des réseaux, culminant avec l'Internet, fait que de plus en plus d'ordinateurs sont en fonctionnement permanent, produisant ou recevant à des vitesses élévées d'énormes quantités de données.
  3. Même si les sauvegardes nocturnes sont encore la règle (la consommation électrique des data-centre explose aux heures de nuit), le fonctionnement non stop de certaines machines empêche parfois d'utiliser ces plages de tranquilité nocturne. Un serveur web de e-commerce travaillant à l'international n'a plus de plage horaire où il tournerait à minima et ne recevrait ni ne produirait de données (ou très peu).
  4. Le temps mis à réaliser les sauvegardes devient parfois trop long pour les périodes de tranquilité quand elles existent encore. Si un serveur de données de votre entreprise est au repos de 19h00 à 7h00 le landemain matin vous disposez d'une plage de douze heures pour effectuer les sauvegardes. Longtemps cela a été suffisant, mais sur certaines machines une sauvegarde complète peut durer beaucoup plus de 12 heures, parfois plusieurs jours. On voit donc qu'il devient très difficile de figer un état stable de la machine. Les états stables n'existent plus sur les machines serveur modernes.
  5. Le débit de transfert des données soit sur les réseaux, soit entre périphériques et carte mère, qui devient critique et bien entendu influence les temps de sauvegarde (voir point 4).
  6. La généralisation de l'emploi de bases de données subissant de continuelles mises à jour et enregistrant des données nuit et jour et ne pouvant s'arrêter, obligent à inventer des techniques spécifiques pour conserver à la fois les données et un état cohérent et fonctionnel de la base. La réplication sur une machine esclave et l'emploi de snapshots apportent des éléments de solution.

Un élément nouveau est apporté par le RGPD. En particulier l'article 32, qui tout en gardant une rédaction complètement vague (que sont exactement les « les mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque » ? On peut supposer que cela se définira par la jurisprudence), donne tout de même quelques préconisations. Ces préconisations ressortissent toute de l'obligation de moyen et non de l'obligation de résultat dont il est évident quelle est une vue de l'esprit :

Article 32

Sécurité du traitement

1.   Compte tenu de l'état des connaissances, des coûts de mise en œuvre et de la nature, de la portée, du contexte et des finalités du traitement ainsi que des risques, dont le degré de probabilité et de gravité varie, pour les droits et libertés des personnes physiques, le responsable du traitement et le sous-traitant mettent en œuvre les mesures techniques et organisationnelles appropriées afin de garantir un niveau de sécurité adapté au risque, y compris entre autres, selon les besoins:

a) la pseudonymisation et le chiffrement des données à caractère personnel;

b) des moyens permettant de garantir la confidentialité, l'intégrité, la disponibilité et la résilience constantes des systèmes et des services de traitement;

c) des moyens permettant de rétablir la disponibilité des données à caractère personnel et l'accès à celles-ci dans des délais appropriés en cas d'incident physique ou technique;

d) une procédure visant à tester, à analyser et à évaluer régulièrement l'efficacité des mesures techniques et organisationnelles pour assurer la sécurité du traitement.

2.   Lors de l'évaluation du niveau de sécurité approprié, il est tenu compte en particulier des risques que présente le traitement, résultant notamment de la destruction, de la perte, de l'altération, de la divulgation non autorisée de données à caractère personnel transmises, conservées ou traitées d'une autre manière, ou de l'accès non autorisé à de telles données, de manière accidentelle ou illicite.

3.   L'application d'un code de conduite approuvé comme le prévoit l'article 40 ou d'un mécanisme de certification approuvé comme le prévoit l'article 42 peut servir d'élément pour démontrer le respect des exigences prévues au paragraphe 1 du présent article.

4.   Le responsable du traitement et le sous-traitant prennent des mesures afin de garantir que toute personne physique agissant sous l'autorité du responsable du traitement ou sous celle du sous-traitant, qui a accès à des données à caractère personnel, ne les traite pas, excepté sur instruction du responsable du traitement, à moins d'y être obligée par le droit de l'Union ou le droit d'un État membre.

La politique de sauvegarde

A lire les points ci-dessus on pourrait se décourager et se dire que la sauvegarde est pratiquement mission impossible. Si l'on pense à des sauvegardes intégrales, à des intervalles très réguliers, c'est de plus en plus vrai. Mais en fait la sauvegarde participe de la sécurité d'un système informatique, et tout comme la sécurisation contre les intrus, la sécurisation des données doit reposer sur une politique de sécurité spécifique, tenant compte de la nature des données et des besoins de restauration, la politique de sauvegarde.

Une politique de sauvegarde doit reposer sur un cahier des charges, et impose de faire des choix, parfois difficiles, car la sauvegarde, comme beaucoup de choses, est toujours affaire de compromis. On peut lister les éléments de réflexion permettant de définir un tel cahier des charges :

  1. Quelles données doivent absolument être conservées ?
  2. Quel est le volume de mes données ?
  3. A quel rythme changent mes données, et quel type de données ?
  4. A quoi m'expose la perte de certaines données ?
  5. Quel est le degré de confidentialité de mes données ?
  6. De quel budget puis-je disposer pour assurer les sauvegardes ?
  7. Quel délais de restauration semble raisonnable dans mon activité ?
  8. Dans quel but les sauvegardes : archivage ou restauration immédiate ?
  9. Où doivent se trouver physiquement les données sauvegardées ?

C'est en répondant à ces questions que l'on peut parvenir à définir une politique de sauvegarde à la fois cohérente, réaliste et efficace.

L'entrée en vigueur du RGPD donne davantage de relief encore aux points 4 et 5. La confidentialité des données devient l'élément clé pour choisir ou exclure une méthode de sauvegarde. Les obligations induites par le RGPD ajoutent de plus un élément qui complexifie encore la donne : le chiffrement.

Il faut rappeller que les données à caractère personnel ne sont pas simplement celles liées à des visiteurs ou acheteurs d'un site web, mais également aux employés et personnels d'une société. La comptabilité et les feuilles de paye font partie des informations visées par le RGPD. 

Quelles données sauvegarder ?

C'est la première question à se poser, la base de tout. Plusieurs des questions suivantes vont venir compléter ce point.

L'importance des documents

  1. Vous avez téléchargé un formulaire sur un site internet. C'est commode de l'avoir sous la main, mais il est facile de le récupérer de nouveau. Est-ce donc pertinent de le sauvegarder religieusement ? En tout état de cause ce type de documents est un bon candidat à l'exclusion si vous atteignez vos limites de temps ou de volume de sauvegarde.
  2. Votre boîte aux lettres est pleine de mails inutiles ou caducs que vous avez tendance à laisser dans votre boîte où ils dorment en encombrant votre disque. Le tri des données, l'élimination du superflu, fait partie de l'utilisation d'un ordinateur, mais est souvent négligé (et là rassurez-vous je plaide moi même coupable).
  3. Vous utilisez des clés de cryptage pour les mails, des clés ssh pour vous connecter sur des serveurs distants, vous déclarez vos impôts par Internet et vous avez un certificat d'identification, que vous n'utilisez qu'une fois par an. Ces documents méritent d'être mis à l'abri en priorité.
  4. Vous avez un dossier contenant des photos de vos enfants, de votre famille. La seule copie de ces photos est sur votre disque, il serait prudent d'en avoir des copies. Mais si vous les avez sur un ou deux ou trois DCRom ou DVD faut-il les inclure dans une sauvegarde ?
  5. Votre entreprise a une comptabilité informatisée. La loi vous oblige à la conserver plusieurs années, c'est typiquement le type de données à sauvegarder en priorité.
  6. Vous avez des documents multimédia, vidéo, son, que vous avez acquis légalement ou pas, là n'est pas mon problème, mais représentent un volume énorme. La question de pose de la pertinence de la sauvegarde de ce type de données.

Petit à petit vous allez ainsi cerner ce que vous ne voulez ou ne devez pas perdre, et ce qui n'est finalement pas très important.

Ce que vous devez sauvegarder

Dans certaines professions, certaines données font l'objet d'une obligation légale de conservation. On a parlé de la comptabilité d'entreprise, mais certains logs (de connexion à un site web par exemple) peuvent aussi faire l'objet d'une obligation de conservation. Il vous appartient donc de prendre des mesures de sauvegarde appropriées pour satisfaire à ces obligations.

Bein entendu, même sans obligation légale, vous avez nombre d'autres données que vous ne voulez ou ne pouvez pas perdre, vos bases de prospects, vos documents techniques, rapports, toute l'histoire de votre entreprise ou de votre famille. Il faut également bien identifier ces documents.

Quel volume de données à sauvegarder

Après ce premier tri, vous allez avoir une idée du volume de données que vous voulez absoluement sauvegarder, ou que vous aimeriez bien sauvegarder même si ce n'est pas vital. Vous allez donc pouvoir évaluer le volume de données, élément indispensable pour évaluer le volume de stockage pour vos sauvegardes, qui peut être très différent, nous le verrons, suivant la technique de sauvegarde envisagée.

A titre d'exemple, j'ai eu pendant plus de dix ans une petite entreprise de service informatique qui génèrait essentiellement un peu de données comptables comme toute entreprise, des fichiers texte (code source d'applications, arborescence de développement de sites web avec quelques images), éléments de gestion d'entreprise, factures, devis etc., et bien entendu un bon volume de mails, même après filtrage des spams, et autres malwares. Dont des fils de discussion de mailing-lists intéressants à garder. Pendant cette période je n'ai pas rempli un disque de 80 Go sur mon petit serveur d'entreprise. D'autres entreprises que je connais, qui touchent au multi-média ont pendant une période équivalente des centaines de Go, et souvent des centaines de To.

Sur mes serveurs web, mail etc., avec quelques bases de données, je devais avoir une bonne vingtaine de Go de données et guère plus.

Donc en dix ans j'avais une centaine de Go de données à conserver. À notre époque cela peut sembler ridiculement peu, mais c'est le cas de pas mal de PME/PMI dont l'activiré n'est pas liée directement à l'informatique. Il est certain que la sauvegarde de ces données est techniquement plus simple et financièrement plus abordable que la sauvegarde de pétaoctets de données comme peuvent en accumuler les grands acteurs d'Internet. 

A quel rythme les données changent-elles ?

C'est un point important qui pourra permettre de définir la fréquence nécessaire ou souhaitable des sauvegardes. Dans beaucoup de petites sociétés, les créations, modifications de documents concernent souvent quelques dizaines de fichiers, voir moins, par jour et par utilisateur. Les mails arrivent souvent en flux abondant tout au cours de la journée et sont les données les plus changeantes. Dans ces cas une sauvegarde quotidienne est souvent suffisante.

Si par contre une base de données est utilisée concurrement par plusieurs utilisateurs, voir dizaines d'utilisateurs, les données s'accumulent, se modifient très rapidement et il est important que les sauvegardes soient les plus rapprochées possibles. Pour les bases de données dans ce cas de figure, la sauvegarde est en général transformée en réplication de base, mais nous verrons cela pour la définition d'une politique de sauvegarde.

A quoi m'expose la perte de certaines données ?

Nous avons déjà en partie abordé ce point. Si vous perdez des données faisant l'objet d'une obligation de conservation, vous risquez différents désagréments pouvant aller jusqu'à des sanctions pénales. Si vous perdez les fichiers de contrat, les informations des relations client, les données informatiques indispensables à votre activité (plans, notes de calcul, rapports techniques, bases de connaissances, système de gestion numérique des archives etc.) votre activité peut se trouver en tout ou en partie paralysée.

Certaines structures ne se sont jamais relevées de plantages informatiques. Et certaines données actuellement utilisées dans toutes les entreprises ne peuvent tout simplement pas être conservées au format papier. La dématerialisation qui tend à être la règle dans de plus en plus de domaines a peut-être l'avantage de sauver des forêts, mais fait reposer la pérennité de votre activité en partie sur l'efficacité et la fiabilité de vos sauvegardes.

Quel est le degré de confidentialité de mes données ?

Toutes vos données n'ont pas la même importance pour votre activité et toutes n'ont pas le même degré de confidentialité. Par exemple si vous sauvegardez (ce qui est indispensable) les clés privées protégeant des connexions de type SSH ou SSL/TLS il est impératif qu'elles ne tombent pas dans de mauvaises mains, car elles pourraient mettre à mal des pans entiers de votre activité et ruiner définitivement la confiance de vos clients et partenaires.

Aucun utilisateur d'informatique en réseau, et nous le sommes tous plus ou moins, et le deviendrons de plus en plus avec la généralisation du Cloud, n'est à l'abri des tentatives de piratage, du vol de données, de l'espionnage industriel.

Dans certains domaines de l'industrie la conscience des ces problèmes existe depuis toujours. Si vous créez des logiciels de pilotage de missiles balistiques, il va sans dire que vous aurez en tête que la sécurité des données est un point d'une extrême importance et que les sauvegardes n'y échappent pas.

Par contre si vous concevez des aménagements de cuisine dans une menuiserie industrielle vous pouvez en avoir une conscience beaucoup moins aigüe. Pourtant vos concurrents pourraient beaucoup apprécier de mettre la main sur les gammes de fabrication, les plans créés par des logiciels de DAO, les fiches techniques et la documentation interne des équipes techniques de votre nouvelle gamme révolutionnaire.

Dans ce cas il faut prendre pour vos sauvegardes les mêmes précautions de limitation des accès que celles appliquées à vos serveurs de production. Il ne sert à rien d'avoir un réseau verrouillé, monitoré aux petits oignons si les données de sauvegarde sortent de ce périmètre gardé pour atterrir sur un serveur de sauvegarde facilement piratable.

Il faut sauvegarder, mais pas n'importe où ni n'importe comment. L'accès aux sauvegardes doit être au moins aussi surveillé que l'accès aux données de production (avec éventuellement cryptage des disques de sauvegarde, salle machine spécifique aux serveurs de sauvegarde, avec accès contrôlé biométriquement etc.).

On voit que l'appréciation juste du risque et de la valeur des données est indispensable, Créer une salle des coffres de banque centrale pour protéger les données de votre entreprise de fabrication de roulements à billes est sans doute disproportionné, et surtout totalement impossible au vu du point suivant.

De quel budget puis-je disposer pour assurer les sauvegardes ?

Comme toujours l'argent est le nerf de la guerre. C'est un des élements régulateurs de vos ambitions en matière de sauvegarde. Vous pouvez définir une stratégie de sauvegarde élaborée et pertinente, reposant sur de nombreuses machines disséminées dans le monde, reliées par des liaisons sécurisées, voir des lignes concédées, utilisant une grande bande passante, nécessitant une administration pointue par un personnel qualifié. Cette solutions peut vous sembler idéale, mais se heurter tout simplement à un prix de revient prohibitif qui la rende impossible à mettre en pratique.

Votre enveloppe budgétaire risque d'être le juge de paix de vos ambitions. D'où la nécessité de très précisément définir ce qui doit être sauvegardé, à quelle fréquence et avec quel degré de sécurité.

Combien de fois a-t-on vu de beaux projets, techniquement solides et valables, passés au rabot par le service comptabilité qui devenaient des solutions boîteuses et parfois dangereuses, à la suite de coupes sombres effectuées par les instances financières ignorantes des vrais impératifs sécuritaires. Et plus votre entreprise est grande, plus ce danger existe, dû à une plus grande dilution de la capacité de prise de décision.

Nous avons tous connu les injonctions paradoxales de la direction qui à la fois réclame la remise en service immédiate d'un serveur planté, mais en même temps réduit les budgets consacrés aux solutions permettant cette remise en service rapide.

Quel délais de restauration semble raisonnable dans mon activité ?

La base de données EBP du service comptable est plantée (air connu). Il faut restaurer la version d'il y a une semaine. Si la restauration et les tests y faisant suite dure une journée, c'est certes gênant mais ne risque pas trop de mettre votre entreprise en faillite. Peut-être faudra-t-il saisir quelques dizaines d'écritures comptable, mais cela reste dans la majeure partie des cas acceptable. Et si les comptables sont dispensés de ressaisir un an de comptablilité (bizarrement ce genre de chose arrive souvent juste avant la période de clôture de bilan), ils seront tellement soulagés qu'ils ne penseront même pas à ronchonner de devoir reprendre quelques jours de saisie.

Par contre lorsqu'un commercial vous appelle affolé parce que la proposition commerciale qu'il a mis deux jours à élaborer pour le contrat qui représente 20% de son objectif a « disparu » (ne comptez pas qu'il vous dise jamais qu'il l'a mise bêtement à la corbeille et qu'il a vidé celle-ci) vous avez intérêt à lui en fournir la dernière version sauvegardée dans la minute, sauf si vous lui en voulez réellement bien entendu ;-). Car vous êtes le responsable informatique et que donc vous êtes à la fois Dieu le Père et l'ultime responsable de tous les disfonctionnements de l'entreprise.

En mettant de côté les caprices des commerciaux (sur qui il ne faut pas toujours taper, certains semblent parfois presque humains) si votre activité repose sur un site de e-commerce, il va sans dire que chaque minute de retard de la restauration est directement une perte potentielle de chiffre d'affaire. Donc vous avez intérêt à ce que la restauration des données se compte plutôt en minutes qu'en heures, et au pire en heures plutôt qu'en jours.

De ces contraintes va dépendre la solution technique de sauvegarde choisie. Une sauvegarde nocturne de la comptabilité sur des cartouches peut être envisagée, la restauration est lente mais compatible avec les impératifs du service.

Pour le site web vous avez plutôt intérêt à choisir une sauvegarde non compressée, sur disque dur, voir à un clônage complet du serveur avec des sauvegardes horaires, permettant de basculer presque immédiatement sur le serveur de sauvegarde avec un minimum de perte de données. Dans ces cas d'ailleurs il vaudrait mieux regarder du côté de la redondance et de la haute disponibilité même si ce terme cache souvent de l'esbrouffe markting.

Dans quel but les sauvegardes : archivage ou restauration immédiate ?

Certaines données on l'a vu ne doivent en aucun cas pouvoir se perdre (clés de cryptage, certificats SSL etc.). Souvent ces données sont immuables et sont donc à archiver sans avoir à les recopier à chaque sauvegarde. On parlera alors plutôt d'archivage que de sauvegarde. 

Les boîtes mail sont le type même de collections de données en perpétuel changement. Le but est de pouvoir les restaurer le plus rapidement possible et dans la version la plus récente possible.

Votre politique de sauvegarde va donc souvent être différente pour les fichiers de base, mais qui ne changent pas et pour les fichiers en perpétuelle évolution.

Où doivent se trouver physiquement les données sauvegardées ?

Les données à sauvegarder peuvent se trouver sur des bandes magnétiques, des disques durs, éventuellement d'autres types de supports comme des DVD ou CDRoms, mais ces différents supports où doivent-ils se trouver ?

Si vous sauvegardez sur des supports amovibles, ceux-ci doivent être stockés dans un coffre ignifugé et étanche dans une salle climatisée. C'est en tout cas l'idéal. Ce coffre doit être à la fois assez proche du service informatique et des serveurs à restaurer pour que leur récupération soit assez rapide et assez éloigné pour qu'un incendie ou autre catastrophe affectant la salle informatique ne les impacte pas.

Si vous sauvegardez sur des disques durs (NAS ou grappe de disques dans un serveur de sauvegarde) ces disques ou ce serveur ne doivent pas se trouver sur les mêmes lieux que les données à sauvegarder. Ceci pour éviter que par exemple un incendie qui détruit vos serveurs ne détruise vos sauvegardes, ou que des cambrioleurs n'emportent pas également le serveur de sauvegarde qui serait posé à côté du serveur à sauvegarder...

Selon votre degré de paranoïa, ou la rélle sensibilité de vos données, vous pouvez aller plus loin, vous pouvez consulter les données de la protection civile et constater qu'on considère qu'une chute de météorite un peu importante a un rayon de destruction de 5 km et donc que le serveur de données doit se trouver à au moins 10 km des données à sauvegarder etc. (en cas de bombe atomique, la restauration de vos données ne sera peut-être plus une priorité, si jamais vous en réchappiez).

Conclusion

La définition d'une politique de sauvegarde est indispensable. Si les grands moyens (la salle machine anti-atomique gardée par une milice armée et accessible seulement après trois identifications biométrique etc.) est un pur délire pour 99,99% des utilisateurs (et serait d'ailleurs sans doute plus dangereuse qu'autre chose, plus un système étant complexe, plus il a de risques de pannes, surtout, dit la Loi de Murphy, au moment où on en a le plus besoin), le fait d'éloigner les sauvegardes des données, de différencier les données stables et précieuses des données mouvantes dont l'intérêt est discutable restent des étapes indispensables à prendre en considération.

Avec peu de budget, une bonne étude préalable peut permettre d'avoir une sécurité très honnête et laisser espérer un retour à la normal après un gros crash informatique dans un délai allant de quelques heures à quelques jours.

J'ai pu voir de grosses entreprises, qui fortes d'un budget conséquent, avaient tout misé sur des solutions techniques sophisitiquées et honnéreuses, mais ayant un peu négligé une étude préalable réaliste des besoins et des scénarios de récupération, manquaient complètement la restauration hyper rapide qu'elles espéraient.

Elles échouaient là où une PMI avec un système simple de backup rsync de leurs serveurs sur une machine placée dans un placard chez le patron et reliée à l'ADSL permettait de récupérer quasiment toutes les données avec des pertes minimales en une journée, permettant un retour à une activité normale en deux ou trois jours.

Les obligations réglementaires du RGPD pourraient rendre de nos jours ce type de solution simpliste un peu plus délicate à réaliser.

Nous allons voir au chapitre suivant quelques solutions de sauvegarde assez simples, qui peuvent être appliqués par des utilisateurs sans spécialisation poussée. Et dans un premier temps voir comment organiser son système d'information pour faciliter la sauvegarde des données.

Écrire un commentaire

Quelle est la quatrième lettre du mot apoqy ?

Fil RSS des commentaires de cet article

À propos

Yakati.com - Réseau - Web - GNU/Linux © 2017

Généré par PluXml en 0.026s  Compression GZIP activée - Administration

Mes coordonnées

Marc Guillaume
contact[at]yakati.com
79150 ÉTUSSON

Crédits

Pour la gestion du contenu

Généré par PluXml, le Blog ou Cms sans base de données

Pour le contenu

Licence Creative Commons
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.

Pour le thème

Thème SOLID de blacktie.co adapté pour PluXml