Malgré toutes les précautions prises par le fournisseur de Cloud, il y a parfois des services qui ne sont plus pleinement fonctionnels. C’est un fait.
Superviser ses problèmes de services Azure avec Service Health
Du problème matériel qui peut impacter les clients aux événements exceptionnels et (presque) imprévisibles qui vont modifier de manière incontrôlées les charges d’un Datacenter. L’actualité récente (Covid-19) a montré que malgré le pilotage des charges et les actions de planifications, il n’est pas toujours possible de tout prévoir.
En témoignent les … 775 % d’augmentation de l’utilisation de Teams sur l’Italie
Parallèlement à cet événement, l’usage du Cloud Azure a très fortement augmenté sur cette même période et cet accroissement d’usage se poursuit depuis quelques semaines.
La question est donc de savoir comment s’informer sur l’évolution des services et éventuellement se préparer pour des événements de ce type.
Quelle surveillance mettre en place ?
Il existe une page de suivi dédiée pour l’état de santé des services Azure.
Etat de santé Azure
Il conviendra d’affiner les vues lors de la première utilisation. Par exemple, le filtre Région => Global n’est pas adapté pour un client qui héberge ses ressources sur la région France Center. Cette opération est importante, il faut aussi tenir compte des services pour lesquels une redondance a été sélectionnée. Comme un réplica de base de données sur une autre région. Ne sélectionner que France Centrale si les réplicas de bases sont hébergés sur Allemagne Nord ne garantit pas une vue exhaustive.
Sur cette page, 4 rubriques différentes :
- Evènements actifs
ce sont les événements en cours de type informations, incidents mais également l’annonce de maintenances planifiées. Cette dernière catégorie est à surveiller tout particulièrement. Une maintenance planifiée est annoncée très à l’avance et permet d’engager actions ou communication si nécessaire. Toujours intéressant de ne pas consigner d’incident sur un service alors que celui-ci est dans un cycle de maintenance annoncée dans le portail depuis plusieurs semaines…
- History
propose de remonter dans le temps et d’afficher les événements sur une période de 3 mois. A utiliser par exemple, pour des analyses poussées lors des diagnostiques (une application se plaint d’avoir eu des lenteurs il y a plusieurs semaines).
- Resource Health
permet de créer un filtre de vue par subscription et par type de ressources. Pour une surveillance sur une portée plus réduite.
- Alerts
est le réceptacle pour les alertes personnalisées créés par l’opérateur. Alertes est un service Azure qui permet de déclencher sous condition des mails ou autres actions. Ces informations sont normalement distribuées sur un scope restreint (1 équipe ou quelques personnes seulement) mais sont consolidés sur le portail pour créer une vue centrale.
Le service Alertes Azure
Téléchargez cette ressource
Livre blanc Sécurité et Stockage des documents
Découvrez dans ce livre blanc Kyocera les outils logiciels qui permettent une approche holistique et efficace de la collecte, du stockage, de la gestion et de la sécurisation des documents en entreprise.
Pourquoi utiliser le portail ?
Le portail n’est pas la seule source d’information pour permettre le suivi. Le lien web proposé dans le premier chapitre (cloud services continuity) ou le lien public Azure status permettraient de suivre les informations.
Mais il est beaucoup plus générique, moins temps réel, et surtout, il ne fait pas l’état des ressources impactées pour le client. Car voilà bien une information essentielle !
L’exemple d’état ci-dessous alerte sur un service qui impacte ou peu impacter votre Subscription.
You were identified as a customer using Azure Active Directory who may have seen 502 and 503 errors when registering for Multi-factor Authentication or Self-Service Password Reset, launching single sign-on applications, or inviting guest users to B2B.
C’est un effort de transparence et une information donnée la plus précise possible. Sont regroupées dans cette vue, des informations d’impacts, de cause racine, de corrections en cours (mitigation) et les prochaines étapes.
Un onglet mis à jour du problème permet d’assurer un suivi, de prendre connaissance des grandes étapes de corrections et des communications autour du sujet.
Vue globale pour un incident
Conclusion
Service Health renseigne sur l’état de santé de l’environnement. Il consigne les alertes personnalisées et informe des maintenances préventives. Il offre une information personnelle sur des services que vous utilisez et qui peuvent impacter la disponibilité.
C’est un allié précieux qu’il faudra impérativement ajouter sur votre Dashboard Azure.
Les articles les plus consultés
- Activer la mise en veille prolongée dans Windows 10
- N° 2 : Il faut supporter des langues multiples dans SharePoint Portal Server
- Cybersécurité Active Directory et les attaques de nouvelle génération
- Et si les clients n’avaient plus le choix ?
- Afficher les icônes cachées dans la barre de notification