Un RAID répartit les données sur plusieurs disques pour gagner en performance, en capacité ou en tolérance de panne. Un NAS est une variante grand public et PME : un boîtier qui ajoute, par-dessus un RAID, un système d'exploitation, des partages réseau et — point crucial pour la récupération — des snapshots. Dans les deux cas, la difficulté n'est jamais de « réparer des disques » : c'est de reconstituer la logique de l'ensemble.
Ce chapitre s'adresse aux administrateurs et DSI confrontés à un array dégradé. Pour confier un serveur, voyez la prestation RAID ou NAS ; pour un cas réel chiffré, l'étude RAID 5 Dell.
1 · Comprendre les niveaux et leur tolérance
La récupération dépend d'abord du niveau RAID et de sa marge de sécurité :
- RAID 0 — données réparties (striping), aucune redondance. Un disque perdu = tout l'array compromis. Pronostic le plus réservé.
- RAID 1 — miroir. Chaque disque contient une copie complète ; très favorable.
- RAID 5 — striping + parité répartie. Tolère un disque ; au-delà, l'array tombe.
- RAID 6 — double parité. Tolère deux disques.
- RAID 10, 50, 60 — combinaisons (miroir + striping, ou striping de RAID 5/6).
Côté NAS, Synology superpose son SHR (et SHR-2) sur mdadm + LVM pour mélanger des disques de tailles différentes ; Netgear fait de même avec X-RAID. La logique reste celle d'un RAID classique, avec une couche propriétaire à décoder.
2 · L'erreur fatale : le rebuild prématuré
C'est la cause n°1 de pertes définitives sur RAID. Face à un disque défaillant, le réflexe est de lancer une reconstruction automatique. Mais si un second disque est instable, ou si le contrôleur écrit la mauvaise parité, le rebuild écrase massivement les données encore saines des autres membres. Un array récupérable à 98 % peut devenir irrécupérable en quelques minutes.
3 · La démarche du laboratoire
Phase 1 — Clonage de tous les membres
Avant toute analyse, chaque disque est cloné secteur par secteur avec bloqueur d'écriture. Les membres physiquement défaillants (têtes, PCB, firmware) passent d'abord en salle blanche. À partir de là, tout se fait sur les copies : l'array d'origine reste intact.
Phase 2 — De-striping & identification des paramètres
Le cœur du métier. Sans se fier au contrôleur, on détermine par analyse de l'entropie des données : la taille de bande (stripe size), l'ordre exact des disques, le sens de rotation de la parité et le décalage initial (offset). La parité d'un RAID 5/6 obéit à une opération XOR : connaissant n-1 blocs d'une bande, on reconstitue le n-ième. C'est ce qui permet de recréer virtuellement le contenu d'un disque manquant.
Phase 3 — Reconstruction virtuelle du volume
Les paramètres validés, on assemble un volume virtuel à partir des images, sans écrire nulle part. Pour un NAS, on remonte d'abord la pile SHR/X-RAID (mdadm + LVM), puis le système de fichiers.
Phase 4 — Système de fichiers & extraction
On répare les structures (VMFS, ZFS, ReFS, EXT4, XFS, NTFS, Btrfs) et on extrait les données : fichiers, bases SQL, et machines virtuelles VMDK (VMware), VHDX (Hyper-V), QCOW2 (Proxmox).
Phase 5 — Cas NAS : les snapshots
Spécificité décisive après un ransomware. Beaucoup d'attaques chiffrent les fichiers visibles mais ignorent les snapshots en lecture seule de Btrfs/ZFS. On monte les instantanés antérieurs à l'attaque et on restaure l'état sain — souvent sans payer de rançon.
4 · Taux de réussite par scénario
- RAID 5 — 1 disque HS — 98 %
- RAID 6 — 2 disques HS — 95 %
- Configuration perdue / contrôleur HS — 95 %
- NAS — panne 1 disque (SHR) — 95 %
- NAS ransomware avec snapshots — 92 %
- RAID 0 — 1 disque défaillant — 72 %
- RAID 5 — 2+ disques HS — 68 %
- NAS ransomware sans snapshot — 35 %
5 · Les erreurs qui détruisent les données
À ne jamais faire sur un RAID ou un NAS en panne
- Lancer un rebuild automatique — écrasement massif des autres membres.
- Intervertir l'ordre des disques — l'ordre fait partie de la définition de l'array.
- Réinitialiser le contrôleur ou recréer le volume — efface la configuration (stripe, parité, offset).
- Supprimer les snapshots après un ransomware — c'est l'état sain qu'on détruit.
- Laisser un NAS attaqué connecté au réseau — le chiffrement peut se poursuivre.
Principe directeur. Sur un système redondant, la donnée survit presque toujours à la panne matérielle. Ce qui la tue, c'est l'intervention précipitée. Éteignez, documentez, confiez.
