Résumé
Le 29 avril 2026 au matin, un incident de production a rendu indisponible l’affichage et l’édition des fichiers Office dans les espaces de stockage. Les utilisateurs ne pouvaient plus ouvrir leurs documents. L’incident a été détecté suite à un signalement utilisateur. Les équipes techniques ont rapidement identifié une régression introduite lors d’une mise en production la veille et ont déployé un correctif dans la matinée. Le service a été rétabli en moins de deux heures après détection.
Chronologie des événements
- 28 avril 2026 (soir) : mise en production d’une version introduisant une régression.
- 29 avril 2026 06:30 : signalement de l’incident par un utilisateur.
- 07:07 : identification d’une cause probable d’origine logicielle par les équipes techniques.
- 07:10 : création d’un ticket de suivi.
- 07:28 : déploiement d’un correctif.
- 07:38 : mise en production du correctif et validation du retour à la normale.
Difficultés rencontrées
- L’incident n’a pas été détecté automatiquement, mais uniquement via un signalement utilisateur.
- La régression ne concernait qu’un cas spécifique non couvert par les mécanismes de supervision existants.
- Le comportement en cause dépendait d’une interaction subtile entre le client et le serveur (gestion d’un paramètre vide), rendant l’identification initiale moins immédiate.
Cause de l'incident
L’incident est dû à une régression introduite lors d’une mise en production, liée à une évolution fonctionnelle.
Un paramètre transmis par le client était interprété différemment par le serveur selon qu’il était vide ou nul. Dans certains cas, une valeur vide empêchait la résolution correcte de la version du document, entraînant la génération d’une configuration invalide pour le service d’édition Office, et donc l’impossibilité d’afficher les fichiers.
Perte de données
Aucune perte de données n’est à signaler.
Les documents n’ont pas été altérés, et l’incident n’a impacté que leur affichage et leur édition temporaire.
Mesures de remédiation
- Correction immédiate du comportement côté serveur pour normaliser les paramètres reçus.
- Déploiement d’un correctif en production dans les plus brefs délais.
- Renforcement des contrôles sur les cas limites liés aux paramètres transmis par le client.
- Amélioration des scénarios de tests pour couvrir ce type de situation.
- Réflexion en cours sur l’amélioration des mécanismes de détection proactive afin de réduire le délai de détection en cas de régression similaire.