Résumé
Le 08 octobre 2024, un incident a eu lieu sur notre infrastructure hébergée, entraînant l’indisponibilité de certains services. Les équipes techniques ont diagnostiqué le problème et ont travaillé en collaboration avec notre fournisseur pour restaurer le service. L'incident a été résolu dans un délai de 6 heures.
Chronologie des événements
- 18:30 : Détection initiale du problème, des pages ne sont pas chargées correctement.
- 19:15 : Les équipes techniques sont informées de l’incident.
- 19:45 : Analyse initiale réalisée, suspicion d’un lien avec un incident de notre fournisseur d’hébergement.
- 20:05 : Incident déclaré auprès du fournisseur d’hébergement.
- 22:45 : Appel au fournisseur pour demander un remplacement des ressources matérielles défectueuses.
- 23:25 : Opération de maintenance terminée en interne suite au remplacement des ressources matérielles défectueuses.
- 00:15 : Redémarrage des services impactés.
- 00:17 : Intervention manuelle sur d’autres services, restauration complète des fonctionnalités.
- 00:32 : Clôture de l’incident.
Difficultés rencontrées
Les équipes techniques ont rencontré des difficultés liées à l’indisponibilité soudaine d’un hôte et à la nécessité d’intervenir manuellement sur plusieurs services pour restaurer les connexions réseau et relancer les services. Le délai de réponse du fournisseur d’hébergement a également allongé la durée de résolution.
Cause de l'incident
L’incident a été causé par la défaillance d’un hôte dans notre infrastructure hébergée, impactant la disponibilité des services critiques.
Le suivi de l’incident est disponible se trouve ici : [RBX][Hosted Private Cloud] - Hosts unreachable incident notifcation
Perte de données
Aucune perte de données n’a été constatée durant l’incident. Les actions correctives ont été menées de manière à préserver l’intégrité des données.
Mesures de remédiation
- Collaboration renforcée avec le fournisseur d’hébergement pour améliorer les délais de remplacement des hôtes défectueux.
- Automatisation des procédures de reconfiguration réseau afin de minimiser les interventions manuelles en cas d’incident similaire.
- Amélioration des processus de surveillance pour détecter plus rapidement les anomalies et accélérer la résolution des incidents.