La production subit des lenteurs
Incident Report for Whaller
Postmortem

Résumé

Le 08 octobre 2024, un incident a eu lieu sur notre infrastructure hébergée, entraînant l’indisponibilité de certains services. Les équipes techniques ont diagnostiqué le problème et ont travaillé en collaboration avec notre fournisseur pour restaurer le service. L'incident a été résolu dans un délai de 6 heures.

Chronologie des événements

  • 18:30 : Détection initiale du problème, des pages ne sont pas chargées correctement.
  • 19:15 : Les équipes techniques sont informées de l’incident.
  • 19:45 : Analyse initiale réalisée, suspicion d’un lien avec un incident de notre fournisseur d’hébergement.
  • 20:05 : Incident déclaré auprès du fournisseur d’hébergement.
  • 22:45 : Appel au fournisseur pour demander un remplacement des ressources matérielles défectueuses.
  • 23:25 : Opération de maintenance terminée en interne suite au remplacement des ressources matérielles défectueuses.
  • 00:15 : Redémarrage des services impactés.
  • 00:17 : Intervention manuelle sur d’autres services, restauration complète des fonctionnalités.
  • 00:32 : Clôture de l’incident.

Difficultés rencontrées

Les équipes techniques ont rencontré des difficultés liées à l’indisponibilité soudaine d’un hôte et à la nécessité d’intervenir manuellement sur plusieurs services pour restaurer les connexions réseau et relancer les services. Le délai de réponse du fournisseur d’hébergement a également allongé la durée de résolution.

Cause de l'incident

L’incident a été causé par la défaillance d’un hôte dans notre infrastructure hébergée, impactant la disponibilité des services critiques.

Le suivi de l’incident est disponible se trouve ici : [RBX][Hosted Private Cloud] - Hosts unreachable incident notifcation

Perte de données

Aucune perte de données n’a été constatée durant l’incident. Les actions correctives ont été menées de manière à préserver l’intégrité des données.

Mesures de remédiation

  • Collaboration renforcée avec le fournisseur d’hébergement pour améliorer les délais de remplacement des hôtes défectueux.
  • Automatisation des procédures de reconfiguration réseau afin de minimiser les interventions manuelles en cas d’incident similaire.
  • Amélioration des processus de surveillance pour détecter plus rapidement les anomalies et accélérer la résolution des incidents.
Posted Oct 09, 2024 - 09:50 CEST

Resolved
This incident has been resolved.
Posted Oct 09, 2024 - 00:32 CEST
Identified
La cause est dûe à un incident chez notre hébergeur : https://hosted-private-cloud.status-ovhcloud.com/incidents/k7gc5f33n5sg
Posted Oct 08, 2024 - 20:14 CEST
Investigating
Nous observons des lenteurs depuis environ 18h40 CET. Nous investiguons.
Posted Oct 08, 2024 - 19:59 CEST
This incident affected: Main application and API.