La production subit des lenteurs

Incident Report for Whaller

Postmortem

Résumé

Le 08 octobre 2024, un incident a eu lieu sur notre infrastructure hébergée, entraînant l’indisponibilité de certains services. Les équipes techniques ont diagnostiqué le problème et ont travaillé en collaboration avec notre fournisseur pour restaurer le service. L'incident a été résolu dans un délai de 6 heures.

Chronologie des événements

18:30 : Détection initiale du problème, des pages ne sont pas chargées correctement.
19:15 : Les équipes techniques sont informées de l’incident.
19:45 : Analyse initiale réalisée, suspicion d’un lien avec un incident de notre fournisseur d’hébergement.
20:05 : Incident déclaré auprès du fournisseur d’hébergement.
22:45 : Appel au fournisseur pour demander un remplacement des ressources matérielles défectueuses.
23:25 : Opération de maintenance terminée en interne suite au remplacement des ressources matérielles défectueuses.
00:15 : Redémarrage des services impactés.
00:17 : Intervention manuelle sur d’autres services, restauration complète des fonctionnalités.
00:32 : Clôture de l’incident.

Difficultés rencontrées

Les équipes techniques ont rencontré des difficultés liées à l’indisponibilité soudaine d’un hôte et à la nécessité d’intervenir manuellement sur plusieurs services pour restaurer les connexions réseau et relancer les services. Le délai de réponse du fournisseur d’hébergement a également allongé la durée de résolution.

Cause de l'incident

L’incident a été causé par la défaillance d’un hôte dans notre infrastructure hébergée, impactant la disponibilité des services critiques.

Le suivi de l’incident est disponible se trouve ici : [RBX][Hosted Private Cloud] - Hosts unreachable incident notifcation

Perte de données

Aucune perte de données n’a été constatée durant l’incident. Les actions correctives ont été menées de manière à préserver l’intégrité des données.

Mesures de remédiation

Collaboration renforcée avec le fournisseur d’hébergement pour améliorer les délais de remplacement des hôtes défectueux.
Automatisation des procédures de reconfiguration réseau afin de minimiser les interventions manuelles en cas d’incident similaire.
Amélioration des processus de surveillance pour détecter plus rapidement les anomalies et accélérer la résolution des incidents.

Posted Oct 09, 2024 - 09:50 CEST

Resolved

This incident has been resolved.

Posted Oct 09, 2024 - 00:32 CEST

Identified

La cause est dûe à un incident chez notre hébergeur : https://hosted-private-cloud.status-ovhcloud.com/incidents/k7gc5f33n5sg

Posted Oct 08, 2024 - 20:14 CEST

Investigating

Nous observons des lenteurs depuis environ 18h40 CET. Nous investiguons.

Posted Oct 08, 2024 - 19:59 CEST

This incident affected: Main application and API.