Post-mortem : Incident de connexion SSO sur les sites en marque blanche
Résumé
Le 6 février 2025, un incident a rendu impossible la connexion via SSO sur les sites en marque blanche. L'incident a été signalé par un client et confirmé par les équipes techniques. La cause principale était une constante manquante dans le code d'une librairie tierce. Une correction a été déployée en production à 10h56, rétablissant le service.
Chronologie des événements
- 08:43 : Réception d'un e-mail client signalant l'impossibilité de se connecter.
- 08:52 : Les équipes techniques sont alertées.
- 08:54 : Prise en charge de l'incident.
- 09:09 : Création d'une page StatusPage indiquant l'incident.
- 09:12 : Identification de la cause : une constante absente dans le code.
- 09:36 : Soumission d'une correction pour un problème lié au SSO.
- 09:48 : Mise en production d'une première correction générique
- 10:56 : Mise en production d'une seconde correction spécifique à une marque blanche particulière, rétablissant pleinement le service.
Difficultés rencontrées
- Identification tardive du lien avec le problème rencontré la veille.
- Déploiement de plusieurs corrections distinctes pour résoudre l'ensemble des problèmes liés au SSO.
Cause de l'incident
Une constante essentielle pour l'authentification SSO était absente dans le code d'une librairie tierce récemment mise à jour, empêchant le bon fonctionnement de la connexion.
Perte de données
Aucune perte de données n'a été constatée. L'incident a uniquement impacté l'accès au service.
Mesures de remédiation
- Mise en place d'une surveillance renforcée des connexions SSO pour anticiper les défaillances.
- Documentation du processus de gestion des incidents pour une meilleure réactivité en cas de problème similaire à l'avenir.