06 Juillet 2008    

Gouvernance

Solutions

Technologies

Marchés

NGDP : Next Generation Data Protection - CDP, VTL, COS

Stockage, SAN, NAS

 
 
 
 
 

La conférence du SNIA France le 24 avril était consacrée aux NGDP (Next Generation Data Protection) ou Technologies de Protection de Données de Nouvelles Générations.
Parmi elles, le CDP (Continuous Data Protection), le VTL (Virtual Tape Library) et le COS (Capacity-Optimised Storage).

De nouvelles exigences

Les NGDP (Next Generation Data Protection) ou Technologies de Protection de Données de Nouvelles Générations répondent aux nouvelles exigences de sécurité des entreprises, notamment celles qui découlent indirectement de Sarbanes-Oxley Act, LSF ou Bâle II. Les entreprises ont désormais l'obligation pratique voir légale de sécuriser sérieusement leurs données.
Cette obligation est facilitée par la baisse de coût du stockage sur disque et l'apparition de technologies comme CDP, VTL et COS.
 

 
Peu à peu, suite à la baisse constante du coût de stockage à l'octet sur disque (notamment grâce à la technologie SATA), le disque devient également un support de sauvegarde de données.

Une question de timing

Le temps c'est de l'argent et sur un SI chaque seconde coûte très cher. 3 indicateurs doivent être considérés :

  • DPW (Data Protection Window) (fenêtre de backup) :
    C'est l'intervalle de temps dont on dispose pour effectuer une sauvegarde correcte des données.
    Peu à peu le volume de données à sauvegarder augmente et l'intervalle de temps pendant lequel on peut sauvegarder se réduit. Il peut même être nul pour les groupes mondialisés qui ne dorment jamais.
  • RPO (Recovery Point Objective) :
    Intervalle de temps entre 2 sauvegardes ou 2 points de reprise. En clair, c'est l'équivalent en quantité de données, de commandes ou de travail que l'on accepte de perdre. Plus les sauvegardes, snapshots ou incréments sont fréquents et plus ce délai est court.
  • RTO (Recovery Time Objective)
    Intervalle de temps nécessaire au redémarrage du système à parti des sauvegardes. En clair, c'est le temps que l'on accepte de perdre après un sinistre. Plus le système de reprise est performant et rôdé et plus de délai est court.

Deux types de réponses peuvent être apportés pour répondre aux critères énoncés :

  • VTL (Virtual Tape Library) : en réduisant les temps de sauvegarde, elle permet de rester dans la fenêtre de backup (DPW), voire de faire des sauvegardes multiples. En réduisant le temps de restauration, elle réduit le RTO.
  • CDP (Continuous Data Protection) : lorsque l'on sauvegarde les données de manière continue, le RPO tend vers zéro.

VTL (Virtual Tape Library)

Le VTL est un périphérique de stockage à base de disques qui se fait passer aux yeux du système pour un lecteur de bandes classique.
Le but ? Bénéficier des performances du disque tout en remplissant le rôle d'un système de sauvegarde traditionnel.
Schématiquement, il existe 2 types d'architectures :

  • indépendante : la VTL se fait passer pour une autre librairie de bandes, utilisable par exemple pour dupliquer les données à conserver.
  • intégrée : la VTL se fait passer pour la librairie et elle peut ensuite se charger d'effectuer des copies supplémentaires sur bande aux moments les plus opportuns.

Les avantages des VTL sont multiples :

  • augmenter la vitesse et ainsi réduire les fenêtres de sauvegarde et restauration,
  • réduire les coûts de gestion des bandes (manipulation),
  • augmenter la fiabilité des sauvegardes (intégrité et pérennité des données très supérieures sur disque),
  • faciliter l’externalisation des sauvegardes (par des réplications sur IP ou Fibre Channel).

En se faisant passer pour une librairie de bandes classique, la VTL préserve les investissements existants en matière de sauvegarde (logiciels de sauvegarde, organisation et connaissance des équipes).

CDP (Continuous Data Protection)

Pour le SNIA, le CDP est une technologie qui capture ou détecte les modifications des données et les enregistre d'une manière indépendante du système de stockage primaire, permettant ainsi des points de reprise à partir de n'importe quel moment écoulé.
Les systèmes CDP peuvent agir au niveau du block, du fichier ou de l'application et ainsi fournir une granularité fine d'objets d'une infinité de points de reprise.
De fait, pour répondre à cette définition, les systèmes de CDP doivent posséder 3 attributs fondamentaux :

  • les modifications de données doivent être capturées ou détectées en permanence,
  • les modifications de données doivent être enregistrées dans un autre endroit que le stockage primaire,
  • les points de reprise possibles sont indifférents et ne doivent pas être déterminés à l'avance.

Le CDP est plus qu'un simple système de sauvegarde, c'est pourquoi on parle de Protection Continue des Données.
Le CDP est obtenu à partir de 3 approches classiques :

  • dans l'application
  • avec un agent dans le système
  • dans le matériel (switch, appliance, array/contrôleur)

L'architecture du CDP est de 2 types :

  • in-band : un seul chemin de données,
    soit le système de stockage se charge de la réplication,
    soit le réseau de stockage (switchs) se charge de la réplication (on parle de side-band)
  • out-band : 2 chemins de données,
    le système ou l'application se chargent de fournir les données simultanément aux 2 systèmes.

COS (Capacity Optimized Storage)

Les volumes à sauvegarder augmentent rapidement, surtout si l'on souhaite conserver un état complet des données à chaque instant.
Mais à y regarder de plus près, on s'aperçoit que les mêmes documents et les mêmes séquences de données reviennent sans cesse. D'où l'idée de ne stocker qu'une seule fois, un même fichier dans le même état ou une même séquence de données. Il suffit alors de générer autant de pointeurs que nécessaire vers cet objet unique. On parle de déduplication. Les facteurs d'économie vont de 15 à 30 fois moins.
Dans la pratique on peut donc :

  • dédupliquer des documents identiques (on se rapproche du concept du CAS),
  • dédupliquer des blocs de données.

Schématiquement, pour obtenir ce résultat, les systèmes de déduplication calculent pour chaque élément à sauvegarder une signature par hachage (SH1, par exemple). Lorsque la signature est identique, on considère que l'élément est identique.
La déduplication est donc relativement différente d'une compression classique. Les 2 technologies peuvent être associées.
 
 
 
D'autres informations sur le site de la SNIA (Storage Networking Industry Association) et sur les blogs de Philippe Nicolas, Président fondateur de la SNIA France. Voir nos Autres Liens

 
 
Recherche         
fermer