Guide de récupération de données RAID & NAS — méthode de laboratoire

Un RAID répartit les données sur plusieurs disques pour gagner en performance, en capacité ou en tolérance de panne. Un NAS est une variante grand public et PME : un boîtier qui ajoute, par-dessus un RAID, un système d'exploitation, des partages réseau et — point crucial pour la récupération — des snapshots. Dans les deux cas, la difficulté n'est jamais de « réparer des disques » : c'est de reconstituer la logique de l'ensemble.

Ce chapitre s'adresse aux administrateurs et DSI confrontés à un array dégradé. Pour confier un serveur, voyez la prestation RAID ou NAS ; pour un cas réel chiffré, l'étude RAID 5 Dell.

1 · Comprendre les niveaux et leur tolérance

La récupération dépend d'abord du niveau RAID et de sa marge de sécurité :

RAID 0 — données réparties (striping), aucune redondance. Un disque perdu = tout l'array compromis. Pronostic le plus réservé.
RAID 1 — miroir. Chaque disque contient une copie complète ; très favorable.
RAID 5 — striping + parité répartie. Tolère un disque ; au-delà, l'array tombe.
RAID 6 — double parité. Tolère deux disques.
RAID 10, 50, 60 — combinaisons (miroir + striping, ou striping de RAID 5/6).

Côté NAS, Synology superpose son SHR (et SHR-2) sur mdadm + LVM pour mélanger des disques de tailles différentes ; Netgear fait de même avec X-RAID. La logique reste celle d'un RAID classique, avec une couche propriétaire à décoder.

2 · L'erreur fatale : le rebuild prématuré

C'est la cause n°1 de pertes définitives sur RAID. Face à un disque défaillant, le réflexe est de lancer une reconstruction automatique. Mais si un second disque est instable, ou si le contrôleur écrit la mauvaise parité, le rebuild écrase massivement les données encore saines des autres membres. Un array récupérable à 98 % peut devenir irrécupérable en quelques minutes.

Le réflexe qui sauve. Éteignez le système immédiatement. Ne relancez aucune reconstruction, n'intervertissez pas les disques, ne réinitialisez pas le contrôleur. Notez l'ordre des baies. Un disque marqué « Foreign » n'est presque jamais un disque mort : seules ses métadonnées de configuration sont en cause.

3 · La démarche du laboratoire

Phase 1 — Clonage de tous les membres

Avant toute analyse, chaque disque est cloné secteur par secteur avec bloqueur d'écriture. Les membres physiquement défaillants (têtes, PCB, firmware) passent d'abord en salle blanche. À partir de là, tout se fait sur les copies : l'array d'origine reste intact.

Phase 2 — De-striping & identification des paramètres

Le cœur du métier. Sans se fier au contrôleur, on détermine par analyse de l'entropie des données : la taille de bande (stripe size), l'ordre exact des disques, le sens de rotation de la parité et le décalage initial (offset). La parité d'un RAID 5/6 obéit à une opération XOR : connaissant n-1 blocs d'une bande, on reconstitue le n-ième. C'est ce qui permet de recréer virtuellement le contenu d'un disque manquant.

Phase 3 — Reconstruction virtuelle du volume

Les paramètres validés, on assemble un volume virtuel à partir des images, sans écrire nulle part. Pour un NAS, on remonte d'abord la pile SHR/X-RAID (mdadm + LVM), puis le système de fichiers.

Phase 4 — Système de fichiers & extraction

On répare les structures (VMFS, ZFS, ReFS, EXT4, XFS, NTFS, Btrfs) et on extrait les données : fichiers, bases SQL, et machines virtuelles VMDK (VMware), VHDX (Hyper-V), QCOW2 (Proxmox).

Phase 5 — Cas NAS : les snapshots

Spécificité décisive après un ransomware. Beaucoup d'attaques chiffrent les fichiers visibles mais ignorent les snapshots en lecture seule de Btrfs/ZFS. On monte les instantanés antérieurs à l'attaque et on restaure l'état sain — souvent sans payer de rançon.

4 · Taux de réussite par scénario

RAID 5 — 1 disque HS — 98 %
RAID 6 — 2 disques HS — 95 %
Configuration perdue / contrôleur HS — 95 %
NAS — panne 1 disque (SHR) — 95 %
NAS ransomware avec snapshots — 92 %
RAID 0 — 1 disque défaillant — 72 %
RAID 5 — 2+ disques HS — 68 %
NAS ransomware sans snapshot — 35 %

5 · Les erreurs qui détruisent les données

À ne jamais faire sur un RAID ou un NAS en panne

Lancer un rebuild automatique — écrasement massif des autres membres.
Intervertir l'ordre des disques — l'ordre fait partie de la définition de l'array.
Réinitialiser le contrôleur ou recréer le volume — efface la configuration (stripe, parité, offset).
Supprimer les snapshots après un ransomware — c'est l'état sain qu'on détruit.
Laisser un NAS attaqué connecté au réseau — le chiffrement peut se poursuivre.

Principe directeur. Sur un système redondant, la donnée survit presque toujours à la panne matérielle. Ce qui la tue, c'est l'intervention précipitée. Éteignez, documentez, confiez.

Récupérer un RAID ou un NAS : la méthode

1 · Comprendre les niveaux et leur tolérance

2 · L'erreur fatale : le rebuild prématuré

3 · La démarche du laboratoire

Phase 1 — Clonage de tous les membres

Phase 2 — De-striping & identification des paramètres

Phase 3 — Reconstruction virtuelle du volume

Phase 4 — Système de fichiers & extraction

Phase 5 — Cas NAS : les snapshots

4 · Taux de réussite par scénario

5 · Les erreurs qui détruisent les données

À ne jamais faire sur un RAID ou un NAS en panne

De la méthode au cas réel.

Récupération RAID & serveur

22 To récupérés en 48 h

Array dégradé ou NAS chiffré ? Ne relancez rien.