Lors du déploiement des applications du Client, EMENCIA met en place un ensemble de sondes spécifiques à ces applications : par exemple, lors de l'installation d'un serveur applicatif Java, ces sondes vérifieront que le nombre de processus, le nombre de threads, ainsi que l'occupation mémoire et processeur spécifique au serveur applicatif, sont bien compris entre des bornes acceptables. Pour un serveur SQL, une sonde spécifique validera à intervalles réguliers qu'il est effectivement possible de se connecter au serveur SQL, et d'effectuer une requête basique en un temps raisonnable.
Lors de la mise en service, EMENCIA déploie un ensemble de sondes vérifiant en permanence :
Tous vos composants applicatifs sont surveillés en temps réel par le système monit, pour avertir de toute incidence.
D'autre part, tous les composants applicatifs sont surveillés en temps réel par le système monit. Si un incident est détecté, un mail est automatiquement envoyé au NOC de EMENCIA et au Client (s'il souhaite être averti). Pour certains types d'incident, monit peut entreprendre des actions correctives visant à rétablir le bon fonctionnement du service. Si la consommation de ressources (processeur ou mémoire) dépasse des seuils critiques, monit est aussi à même de couper ou redémarrer certains services, afin de préserver la bonne marche des éléments principaux. Exemple : si un des sites est considéré comme secondaire, il est possible de le couper en cas de saturation des ressources, afin que le service des sites principaux reste optimal.
En plus de ces fonctionnalités de supervision et de self-healing, monit offre une vue synthétique des services (voir capture d'écran ci-dessous).
MUNIN est un outil de surveillance système et réseau open source sous licence publique générale GNU, basé sur l'outil RRDtool (système d'enregistrement et de graphique de la base de données) et son framework est écrit en Perl.
Il mémorise ce qu'il a vu dans le réseau et présente ensuite ces informations sous forme de graphiques disponibles via une interface web. Ci-dessous un exemple de graphique de la mémoire d'usage hebdomadaire du serveur.
En utilisant cet outil, vous pouvez surveiller facilement la performance du système, du réseau et des applications. Il permet de déterminer le moment où un problème de performance apparaît.
Emencia propose de paramétrer une sonde STATUSCAKE sur le site à monitorer avec alerte SMS. Statuscakeoffre un service de monitoring applicatif et permet de mesurer la disponibilité applicative et serveurs à partir de plusieurs points géographiques.
Il offre ainsi :
Emencia déploie une solution open source de monitoring éprouvée, Supervisord, utilisé par un grand nombre de sociétés ou d'organisations. Notre système de monitoring est hébergé sur un serveur dédié. Ce système permet la surveillance des serveurs et des services qui y sont associés.
Le système de vérification de la bonne marche d'un service ou d'un serveur permet d'être configuré de telle manière qu'il peut réagir pro-activement dans le cas d'un problème. L'utilisation de scripts permet une action sur un service, par exemple de relancer automatiquement un serveur web défectueux.
En plus du service embarqué monit, Emencia propose le monitoring avec le service Nagios. Nagios est une application permettant la surveillance système et réseau. Elle surveille les hôtes et services spécifiés, alertant lorsque les systèmes vont mal et quand ils vont mieux. C'est un logiciel libre sous licence GPL.
C'est un programme modulaire qui se décompose en trois parties :
En savoir plus sur Nagios :
www.nagios.org
wikipedia
La supervision EMENCIA interroge toutes les 2 à 5 minutes la plate-forme web CLIENT afin de vérifier son bon fonctionnement. Dès lors qu'un défaut est détecté, un avertissement est enregistré, puis la vérification est relancée toutes les minutes. Au bout de trois vérifications infructueuses, une alerte est envoyée par mail ainsi que par SMS aux contacts déclarés par LE CLIENT ainsi qu'à l'équipe technique d'EMENCIA, qui intervient alors afin d'apporter une solution.
Ce mécanisme permet, dans l'exemple cité, d'avertir l'équipe d'astreinte matérielle (habilitée à intervenir sur le réseau) sans avertir inutilement l'équipe d'astreinte logicielle (habilitée à intervenir sur le serveur web).
Lorsque le système Nagios décèle, sur un service critique, une anomalie qui n'a pas été corrigée par les procédures de self-healing de monit, une alerte est envoyée par mail et SMS à l'équipe de EMENCIA (ainsi qu'au Client afin de le tenir informé du changement d'état). Les techniciens de EMENCIA engagent alors les actions nécessaires afin de rétablir le bon fonctionnement des systèmes. Ces actions peuvent aller du simple redémarrage manuel d'un service, à l'exécution de procédures plus complexes.
Certaines interventions peuvent impacter d'autres services que celui en défaut. Par exemple : si un disque est plein, il peut s'avérer nécessaire d'effacer des fichiers temporaires, ou de nettoyer une base de données. En ce cas, EMENCIA informe le Client afin d'avoir son aval ou des instructions complémentaires avant de procéder à l'intervention.
Si l'équipe technique ne parvient pas à lever l'alerte, une escalade est déclenchée afin d'alerter le niveau 2 chez EMENCIA, ainsi que les contacts d'urgence désignés par le Client. Le Client peut indiquer, service par service, si ses équipes sont susceptibles d'être contactées en dehors des heures ouvrées (afin de ne pas solliciter inutilement une intervention du côté du Client pour un problème non urgent).