Nagios e falsi positivi [messaggio #34515] |
mar, 28 dicembre 2010 15:21 |
Incubus Messaggi: 13 Registrato: dicembre 2010 |
Junior Member |
|
|
Buongiorno a tutti,
ho problema nel monitorare alcuni host con nagios che mi segnala dei
falsi positivi.
L'ambiente è il seguente: ho un dominio www.pippo.it il cui indirizzo
ip (pubblico) è attestato su un bilanciatore che instrada le richieste
verso 3 macchine fisiche (pluto, topolino e paperino i cui ip sono
ovviamente privati [192.168.X.Y]). Per verificare se le 3 macchine
sono responsive, il bilanciatore ogni 30 secondi effettua una
connessione ad una pagina (online.html) presente sulle 3 macchine
fisiche e se la connessione fallisce "elimina" la macchina dal pool
finché la connessione alla precedente pagina non torna nuovamente
"funzionante".
Nagios, per verificare l'accessibilità delle 3 macchie fisiche E del
dominio (www.pippo.it), ogni 90 secondi, effettua a sua volta una
chiamata alla pagina online.html e se la pagina non è accessibile
segnala correttamente l'irraggiungibilità di una delle macchine
fisiche.
Con questa configurazione se una delle 3 macchine fisiche, per qualche
motivo, non risulta più in grado di servire richieste, nell'arco di 30
secondi viene eliminata dal pool del bilanciatore il quale provvedere
a inoltrare le richieste fatte a www.pippo.it alle 2 restanti
macchine.
Giornalmente, sulle 3 macchine fisiche viene riavviato apache (e
tomcat): ovviamente le 3 macchine vengo riavviate a circa 2 minuti di
distanza l'una dall'altra così da permettere al bilanciatore di
togliere al massimo una sola macchina dal pool e nonostante il dominio
www.pippo.it sia sempre accessibile (in quanto ci sono almeno 2
macchine in grado di servire le richieste), da circa 2 settimane a
questa parte, senza che la configurazione di nagios o del bilanciatore
o delle 3 macchine fisiche sia stata toccata, al riavvio della prima
macchina del pool (pluto->topolino->paperino, topolino->pluto-
>paperino o qualsiasi altra combinazione) nagios segnala (in modo
erroneo) l'irraggiungibilità del dominio www.pippo.it
La segnalazione potrebbe essere corretta SOLO SE la richiesta di
nagios inoltrata a www.pippo.it venisse girata dal bilanciatore alla
macchina sulla quale è iniziata la procedura di riavvio di apache/
tomcat: questa situazione potrebbe verificarsi solo nell'arco dei 30
secondi che intercorrono fra i controlli effettuati dal bilanciatore
stesso MA la segnalazione di nagios si protrae (inspiegabilmente) per
svariati minuti: inizialmente pensavo si trattasse di mera sfortuna
(ogni richiesta di nagios finisce sulla macchina sulla quale è in
corso il riavvio) ma dopo due settimane la cosa mi insospettisce e
nonostante abbia guardato le configurazioni di nagios, apache, tomcat
e bilanciatore svariate volte non ho trovato nulla di "sospetto".
Qualcuno sa spiegarmi come risolvere questi falsi positivi prolungati?
Cosa potrei/dovrei controllare/cambiare?
Non ditemi di eliminare nagios perché, nonostante il processo sia già
in corso, per ora devo utilizzarlo per effettuare tali controlli.
Grazie
Inc0
|
|
|
|
|
Re: Nagios e falsi positivi [messaggio #35162 è una risposta a message #34520] |
ven, 21 gennaio 2011 14:00 |
jh4cky Messaggi: 9 Registrato: dicembre 2010 |
Junior Member |
|
|
On 28 Dic 2010, 15:52, Incubus <theincu...@gmail.com> wrote:
> Premetto che non posso fornire tutti i dettagli, cercherò di dare
> quante più informazioni mi è possibile
>
> > Questa pagina verifica anche l'applicazione sottostante o verifica solo
> > che Apache stia funzionando?
>
> Per essere precisi "online.html" è una jsp esistente da prima che
> arrivassi io (da ora in avanti chiamerò questa pagina online.jsp,
> scusate il casino con i nomi) che estrae una specie di seriale da
> tomcat e lo riporta (NON posso fornire il codice). Il controllo
> effettuato da nagios è "check_http!online.jsp": se la pagina ritorna
> un "200" nagios dice "per me il server è responsivo" in caso contrario
> "attenzione! C'è un problema" che viene risolto con una riavvio prima
> di tomcat e se non dovesse bastare anche di apache.
>
> > Nagios dovrebbe anche dirti che tipo di controllo fallisce, se non lo
> > fa e' il momento di fare un po' di debugging sui controlli che gli
> > fai fare.
>
> Dalla configurazione di tomcat, la definizione del servizio è:
> define service {
> [CUT]
> check_command check_http!/online.jsp
>
>
>
>
>
>
>
> }
Ciao,
credo che devi utilizzare check_http per verificare il virtual
Host...
quindi fai 3 checkseparati su ogni server..
check_http -H www.pippo.it -I 10.0.0.10
in tal modo chiami il virtual host www.pippo.it solo sull'ip 10.0.0.10
da te indicato
Ciao
|
|
|