Postmortem Incident de Production - Lenteurs du 8 novembre 2024
Résumé
Le 8 novembre 2024, des lenteurs importantes ont été constatées sur nos services de production, avec un temps de réponse moyen multiplié par deux et une hausse significative des erreurs. L’incident a été résolu après une série d’actions sur l’infrastructure, notamment la réactivation de services critiques. Ce document présente les événements, les causes et les mesures prises pour éviter toute récurrence.
Chronologie des événements
- ~00h00 : Début des anomalies (suite à un remplacement de hosts sur l'infrastructure par OVHcloud).
- 07h08 : Les équipes techniques sont alertées suite aux notifications OVHcloud.
- 08h11 : Confirmation de la dégradation de performance. Les équipes techniques identifient un taux d’erreur accru et un ralentissement général.
- 08h16 : Une communication est publiée sur Statuspage pour informer les utilisateurs.
- 08h26 : Redémarrage des processus ProxySQL sur les frontaux SaaS.
- 08h45 : Inaccessibilité de certains services.
- 08h57-09h01 : Réactivation des interfaces réseau et redémarrage des services.
- 09h14 : Identification de VM avec des configurations réseau incorrectes (non connectées au boot).
- 09h16 : Correction des configurations réseau sur les VM concernées.
- 09h30 : Fin de l’incident
Difficultés rencontrées
- Communication tardive des anomalies : Les anomalies n’ont été identifiées qu’après plusieurs heures.
- Manque de redondance immédiate : La dépendance à des configurations manuelles a retardé la résolution.
- Outils non opérationnels : Certaines VM critiques n’étaient pas accessibles.
Cause de l’incident
L’incident a été causé par une mise à jour de l’infrastructure chez notre hébergeur (remplacement de hosts physiques [RBX8][Hosted Private Cloud] - Racks R806L22/23/24 ), qui a désactivé les interfaces réseau sur plusieurs machines virtuelles critiques. Cela a provoqué des dysfonctionnements dans des services essentiels.
Perte de données
Aucune perte de données n’a été constatée. Toutefois, certains traitements ont pu être retardés, entraînant des temps de réponse prolongés pour les utilisateurs.
Mesures de remédiation
- Audit des configurations réseau : Vérification de l’activation automatique des interfaces réseau sur toutes les VM.
- Automatisation des vérifications post-maintenance : Déploiement d’outils pour détecter les anomalies après des opérations d’infrastructure.
- Amélioration de la supervision : Renforcement des alertes sur les indicateurs de performance (taux d’erreur et temps de réponse).
- Plans de redondance : Révision des mécanismes de basculement automatique pour limiter l’impact des incidents similaires.