40 switches con cpu in crash

Tutto ciò che ha a che fare con le reti

Moderatore: Federico.Lagni

Rispondi
mrcll
n00b
Messaggi: 4
Iscritto il: mar 18 giu , 2013 5:43 pm

Buonasera a tutti voi.
Ho bisogno della vostra esperienza per risolvere un problema che si presenta ogni tanto su una rete formata da una quarantina di switch cisco con un 6509 in qualità di core.
Capita a volte, in maniera apparentemente casuale, che la cpu di tutti gli switch raggiunge una percentuale di utilizzo del 100%, rendendo inutilizzabile l'intera rete per circa 20/30 minuti.

Di seguito l'output del comando show processes cpu history sul 6509, in cui è evidente l'innalzamento percentuale dell'utilizzo della cpu (presente anche negli altri switch), con il conseguente crash della rete.
Premetto che lo spanning tree è abilitato di default.
Vi siete mai imbattuti in un caso del genere?
Avete qualche consiglio da dare?

Grazie in anticipo.
sw6509#sh processes cpu history

11111 11111
7777444447777722222666663333366666222221111122222000004444
100
90
80
70
60
50
40
30
20
10 **** ***** ***** ***** ***** *****
0....5....1....1....2....2....3....3....4....4....5....5....
0 5 0 5 0 5 0 5 0 5
CPU% per second (last 60 seconds)

111331 11111126111111 99999999999999999999999999981131111
1236609021204250211008999999999999999999999999999045313129
100 **######*****###***********
90 **######*****###***********
80 **#######****####**#******#*
70 * *#########***####*##*#**#*#*
60 * *##########**####*##*####*#*
50 * #################*#########*
40 ** * ###########################*
30 ** * ###########################* *
20 ** *# ############################ **
10 ##########*####*###*######################################
0....5....1....1....2....2....3....3....4....4....5....5....
0 5 0 5 0 5 0 5 0 5
CPU% per minute (last 60 minutes)
* = maximum CPU% # = average CPU%

9444444444444534444444345444444434445444334444444444444444444444444444
9789650155355188862863840773313681350536965664144231356552810630558365
100 *
90 *
80 *
70 *
60 *
50 ****** ** *** *** ** *** * *** * *** **** * * *** **
40 **********************************************************************
30 **********************************************************************
20 **********************************************************************
10 ######################################################################
0....5....1....1....2....2....3....3....4....4....5....5....6....6....7.
0 5 0 5 0 5 0 5 0 5 0 5 0
CPU% per hour (last 72 hours)
* = maximum CPU% # = average CPU%

sw6509#
Rizio
Messianic Network master
Messaggi: 1158
Iscritto il: ven 12 ott , 2007 2:48 pm
Contatta:

Scommetto 99 su 100 che c'è un bel loop tra qualche switch/vlan/rete/qualcosa di simile :)

Guarda com'è configurato lo spanning-tree sugli switch e sul core, chi è il root e se ci sono degli errori.

Rizio
Si vis pacem para bellum
mrcll
n00b
Messaggi: 4
Iscritto il: mar 18 giu , 2013 5:43 pm

Ho pensato anch'io a questa eventualità. Controllerò quanto prima.
Mi chiedo, se ci fosse un loop non frizzare la rete fino a quando si elimina fisicamente il loop?
Come ma dopo circa 25 minuti tutto rientra nella normalità?
Vi informerò sull'indagine STP.
Grazie
Rizio
Messianic Network master
Messaggi: 1158
Iscritto il: ven 12 ott , 2007 2:48 pm
Contatta:

Si, anche secondo me dovrebbe continuare a bloccarti la rete fino a quando non lo elimini ma magari il 6500 ha delle protezioni sullo storming.....mboh...
E' che non mi viene in mente nessun altro motivo per cui ti si possa frizzare la rete. Ma hai provato a sniffare il traffico quando succede o andare in console su qualche switch? Una delle due azioni potrebbe toglierti il dubbio su cosa stà succedendo.

Rizio
Si vis pacem para bellum
scolpi
Network Emperor
Messaggi: 337
Iscritto il: sab 30 ott , 2010 5:33 pm

per limitare l'effetto di un loop, sui vari link agiga dai il seguente comando:

Codice: Seleziona tutto

 storm-control broadcast level 5.00
 storm-control multicast level 5.00
quando si verifica prova adare il comando:

Codice: Seleziona tutto

sh proc cpu sorted 
questo ti dà un dettaglio migliore dei processi che caricano la cpu
CCNA Security,CCDP, CCNP R&S
mrcll
n00b
Messaggi: 4
Iscritto il: mar 18 giu , 2013 5:43 pm

Credo di avere individuato il problema.
Ho trovato uno switch al livello access con lo spanning tree disabilitato per la vlan 1.
Inoltre i due switch 6509 di core hanno abilitato il rapid STP, mentre tutti gli switch di accesso hanno abilitato il PVSTP, credo sia il per vlan stp!
Ammetto che è un vero casino, dovuto a continui ampliamenti della rete.
Proveró quanto prima i comandi consigliati di storm-control pera tamponare l'eventuale ripresentarsi del problema. Successivamente dovrei studiare una configurazione ottimale dell'stp.
Ogni suggerimento è ben accetto.
Many thanks.
Rizio
Messianic Network master
Messaggi: 1158
Iscritto il: ven 12 ott , 2007 2:48 pm
Contatta:

Nella mia rete, un 4500 di core e svariati ( svariati => 20 ) catalyst (2950/2960/3560/etc) uso il pvstp e non ho problemi.
Prima mi capitavano problemi del genere per colpa di uno switch molto vecchio che diventava root (quel mongolo che ha strutturato l'algoritmo decisionale di root dello spanning-tree dovrebbe essere appeso per il mignolo!!!), ho risolto forzando il centro stella come root di tutte le vlan. Dopo quell'operazione ti puoi muovere in maniera abbastanza indolore e cambiare i vari parametri senza creare disservizi (per lo meno in una rete con apparecchiature sufficientemente nuove da recepire i cambi che gli imponi).

Io seguirei i passi in quest'ordine:
1) imposterei la modalità corretta di spanning-tree che vuoi usare sul 6500
2) imposti il 6500 come root su tutte le vlan che gestisce (eventualmente anche su tutto il range dalla prima all'ultima
3) imposti gli switch sullo stesso tipo di modalità di stp del core
Teoricamente non dovresti avere nessun problema e tutto dovrebbe funzionare correttamente dopo senza più casini.

L'unico consiglio è di verificare prima qual'è la versione di stp che tutti gli switch possono gestire, questo dipende da tanti fattori che solo tu puoi verificare.
Ultimo suggerimento che ti posso dare è di dargli tempo dopo ogni comdando. Nel senso che lo spanning-tree rielabora le informazioni ad ogni movimento sulla rete che gli viene comunicato attraverso i pdu perciò dopo aver dato un comando aspetta qualche minuto che si assesti la situazione; insomma non scriptare le modifiche perchè il casino può nascere lì e ti tocca poi correre a riavviare qualche switch o altro)

Rizio
Si vis pacem para bellum
mrcll
n00b
Messaggi: 4
Iscritto il: mar 18 giu , 2013 5:43 pm

Grazie Rizio per i suggerimenti.
Sto proprio in questi giorni studiando l'argomento, arrivando alle tue stesse conclusioni.
Sto predisponendo tutti gli switches all'uso dell'rstp e impostando manualmente la priority del 6500 per impostarlo come root bridge.
In questi giorni metterò in pratica i comandi, sperando che tutto vada bene.
Rispondi