hebergement.jpg

Supervision des systèmes

Un ensemble de sondes spécifiques à vos applications web

Contactez-nous

Chaque serveur déployé par EMENCIA dispose d'un ensemble de sondes de base (connectivité réseau, utilisation CPU, disque et mémoire).

Lors du déploiement des applications du Client, EMENCIA met en place un ensemble de sondes spécifiques à ces applications : par exemple, lors de l'installation d'un serveur applicatif Java, ces sondes vérifieront que le nombre de processus, le nombre de threads, ainsi que l'occupation mémoire et processeur spécifique au serveur applicatif, sont bien compris entre des bornes acceptables. Pour un serveur SQL, une sonde spécifique validera à intervalles réguliers qu'il est effectivement possible de se connecter au serveur SQL, et d'effectuer une requête basique en un temps raisonnable. 

Mise en place de sondes spécifiques

Lors de la mise en service, EMENCIA déploie un ensemble de sondes vérifiant en permanence :

  • la connectivité réseau (réponse au PING) des machines virtuelles allouées au projet,
  • la disponibilité de la base de données PostgreSQL,
  • le bon fonctionnement de la pile applicative, par vérification du code de retour HTTP d'un ensemble d'URL prédéfinies (par exemple : page d'accueil des sites et résultat d'un formulaire de recherche ou d'une page dynamique sollicitant la base de données).

Tous vos composants applicatifs sont surveillés en temps réel par le système monit, pour avertir de toute incidence.

D'autre part, tous les composants applicatifs sont surveillés en temps réel par le système monit. Si un incident est détecté, un mail est automatiquement envoyé au NOC de EMENCIA et au Client (s'il souhaite être averti). Pour certains types d'incident, monit peut entreprendre des actions correctives visant à rétablir le bon fonctionnement du service. Si la consommation de ressources (processeur ou mémoire) dépasse des seuils critiques, monit est aussi à même de couper ou redémarrer certains services, afin de préserver la bonne marche des éléments principaux. Exemple : si un des sites est considéré comme secondaire, il est possible de le couper en cas de saturation des ressources, afin que le service des sites principaux reste optimal.

En plus de ces fonctionnalités de supervision et de self-healing, monit offre une vue synthétique des services (voir capture d'écran ci-dessous).

Monit Service Manager

Munin, Surveillance système et réseau

MUNIN est un outil de surveillance système et réseau open source sous licence publique générale GNU, basé sur l'outil RRDtool (système d'enregistrement et de graphique de la base de données) et son framework est écrit en Perl.

Il mémorise ce qu'il a vu dans le réseau et présente ensuite ces informations sous forme de graphiques disponibles via une interface web. Ci-dessous un exemple de graphique de la mémoire d'usage hebdomadaire du serveur.

En utilisant cet outil, vous pouvez surveiller facilement la performance du système, du réseau et des applications. Il permet de déterminer le moment où un problème de performance apparaît.

En savoir plus

Sonde PINGDOM

Emencia propose de paramétrer une sonde PINGDOM sur le site à monitorer avec alerte SMS. Pingdom offre un service de monitoring applicatif et permet de mesurer la disponibilité applicative et serveurs à partir de plusieurs points géographiques.

Il offre ainsi :

  • une moyenne du temps de réponse applicatif
  • Type de checking disponible : HTTP, HTTP CUSTOM, TCP Port, Ping, DNS, UDP, SMTP, POP3, IMAP)
  • Uptime
  • des graphiques de performance
  • Alertes emails, twitter et SMS paramétrables en cas d'incident
  • le détail des logs d'incidents

Monitoring Supervisord

Emencia déploie une solution open source de monitoring éprouvée, Supervisord, utilisé par un grand nombre de sociétés ou d'organisations. Notre système de monitoring est hébergé sur un serveur dédié. Ce système permet la surveillance des serveurs et des services qui y sont associés.

Le système de vérification de la bonne marche d'un service ou d'un serveur permet d'être configuré de telle manière qu'il peut réagir pro-activement dans le cas d'un problème. L'utilisation de scripts permet une action sur un service, par exemple de relancer automatiquement un serveur web défectueux.

En savoir plus

Monitoring Nagios

En plus du service embarqué monit, Emencia propose le monitoring avec le service Nagios.  Nagios est une application permettant la surveillance système et réseau. Elle surveille les hôtes et services spécifiés, alertant lorsque les systèmes vont mal et quand ils vont mieux. C'est un logiciel libre sous licence GPL.

C'est un programme modulaire qui se décompose en trois parties :

  1. Le moteur de l'application qui vient ordonnancer les tâches de supervision.
  2. L'interface web, qui permet d'avoir une vue d'ensemble du système d'information et des possibles anomalies.
  3. Les plugins, une centaine de mini programmes que l'on peut compléter en fonction des besoins de chacun pour superviser chaque service ou ressource disponible sur l'ensemble des ordinateurs ou éléments réseaux du SI.

En savoir plus sur Nagios :
www.nagios.org
wikipedia

La supervision EMENCIA interroge toutes les 2 à 5 minutes la plate-forme web CLIENT afin de vérifier son bon fonctionnement. Dès lors qu'un défaut est détecté, un avertissement est enregistré, puis la vérification est relancée toutes les minutes. Au bout de trois vérifications infructueuses, une alerte est envoyée par mail ainsi que par SMS aux contacts déclarés par LE CLIENT ainsi qu'à l'équipe technique d'EMENCIA, qui intervient alors afin d'apporter une solution.

Ce mécanisme permet, dans l'exemple cité, d'avertir l'équipe d'astreinte matérielle (habilitée à intervenir sur le réseau) sans avertir inutilement l'équipe d'astreinte logicielle (habilitée à intervenir sur le serveur web). 

Escalade des alertes 

Image - server.png

Lorsque le système Nagios décèle, sur un service critique, une anomalie qui n'a pas été corrigée par les procédures de self-healing de monit, une alerte est envoyée par mail et SMS à l'équipe de EMENCIA  (ainsi qu'au Client afin de le tenir informé du changement d'état). Les techniciens de EMENCIA engagent alors les actions nécessaires afin de rétablir le bon fonctionnement des systèmes. Ces actions peuvent aller du simple redémarrage manuel d'un service, à l'exécution de procédures plus complexes.

Certaines interventions peuvent impacter d'autres services que celui en défaut. Par exemple : si un disque est plein, il peut s'avérer nécessaire d'effacer des fichiers temporaires, ou de nettoyer une base de données. En ce cas, EMENCIA informe le Client afin d'avoir son aval ou des instructions complémentaires avant de procéder à l'intervention.

Si l'équipe technique ne parvient pas à lever l'alerte, une escalade est déclenchée afin d'alerter le niveau 2 chez EMENCIA, ainsi que les contacts d'urgence désignés par le Client. Le Client peut indiquer, service par service, si ses équipes sont susceptibles d'être contactées en dehors des heures ouvrées (afin de ne pas solliciter inutilement une intervention du côté du Client pour un problème non urgent).

Vous avez un projet ? Contactez-nous