Scénario : Perte d’un TrueNAS

Notre architecture

  • Nous utilisons 3 TrueNAS en version Core dans des zones géographiques différentes.
  • Chaque TrueNAS héberge une pool de stockage dédiée. TrueNAS 1 stocke les machines virtuelles (VM) du Datacenter 1, et TrueNAS 2 stocke les VM du Datacenter 2.
  • Nous n’avons pas mis en place de réplication entre nos pools par manque de temps.
  • Chaque pool est composée d’un seul disque, ce qui signifie qu’il n’y a aucune redondance de données.

Perte d’un Serveur TrueNAS

Notre architecture

Causes :

  • Panne matérielle : défaillance de composants critiques comme l’alimentation, la carte mère, ou les disques.
  • Défaillance logicielle : corruption du système d’exploitation ou des services TrueNAS.
  • Coupure réseau : perte de connectivité réseau longue durée empêchant l’accès au serveur.

Conséquences :

  • Interruption de l’accès aux données stockées sur le serveur TrueNAS affecté.
  • Perte potentielle de données si le serveur défaillant contenait des données non sauvegardées ailleurs.
  • Impact sur les applications et les services dépendant des données sur le serveur affecté. Par exemple, la perte de TrueNAS 1 affecterait les VM du Datacenter 1.

Actions à entreprendre :

  1. Identifier la cause de la perte du serveur, qu’elle soit matérielle, logicielle ou liée à la connectivité réseau.
  2. Réparer le matériel défaillant ou remplacer le serveur. Cela peut inclure la réinstallation du système TrueNAS sur un nouveau matériel.
  3. Une fois le serveur remis en service, restaurer les données à partir des sauvegardes disponibles.
  4. Vérifier que le serveur est pleinement opérationnel, en s’assurant de l’intégrité et de la disponibilité des données restaurées.

En entreprise

Contrairement à notre architecture, chaque serveur TrueNAS en entreprise doit être mis en place sur un matériel robuste et redondant. En utilisant des configurations RAID appropriées et en configurant la réplication des pools entre les serveurs, nous pouvons assurer une meilleure disponibilité et une récupération rapide en cas de perte d’un serveur. De plus, une infrastructure d’alimentation redondante et une surveillance proactive des systèmes peuvent aider à minimiser les risques de pannes.

Perte d’une Pool TrueNAS

Notre architecture

Causes :

  • Défaillance du disque unique utilisé dans la pool.
  • Corruption des données ou des erreurs de configuration.
  • Absence de redondance et de réplication, augmentant le risque de perte totale de la pool.

Conséquences :

  • Perte totale des données contenues dans la pool affectée.
  • Interruption des services et des applications dépendant de cette pool. Par exemple, la perte de la pool sur TrueNAS 1 affecterait toutes les VM du Datacenter 1.

Actions à entreprendre :

  1. Identifier la cause de la perte de la pool, notamment les disques défaillants ou les erreurs de configuration.
  2. Remplacer le disque défectueux.
  3. Restaurer les données à partir des sauvegardes disponibles.
  4. S’assurer que la pool de stockage est pleinement opérationnelle après la restauration des données.

En entreprise

Nous aurions dû mettre en place une réplication de pool entre les serveurs TrueNAS pour assurer une redondance des données. Utiliser des configurations RAID pour tolérer la perte de disques (comme RAID-Z2,RAID-Z3 ou dRAID) aurait permis de protéger les données contre la défaillance de plusieurs disques. En entreprise, il est également recommandé d’utiliser des disques de qualité entreprise pour une meilleure fiabilité et de configurer une surveillance proactive des systèmes pour détecter et traiter rapidement les problèmes potentiels.