Root Cause Analysis zum Ausfall des Netzwerks am 27.02.2023

Root Cause Analysis zum Ausfall des Netzwerks am 27.02.2023

Am 27.02. meldete gegen 07:30 Uhr das Monitoring den Ausfall eines Switches in unserem Virtual-Chassis-Verbund, der in unserem Rack redundant für die Anbindung unserer Hostsysteme an das Netzwerk sorgt.

Wir haben schnell reagiert und der Techniker im Rechenzentrum konnte feststellen, dass der Switch sich in einem Kernel Panic befand. Ein Reboot hatte die Thematik vorerst gelöst.

Leider trat gegen 08:30 Uhr erneut das selbe Problem auf, mit dem Resultat, dass sich der Redundante VC Verbund im Kernel Panic befand und schließlich der komplette Switchstack offline war. Bedingt durch das Fehlerbild hatten die Techniker vor Ort und Remote leider keine validen Anhaltspunkte zur Ursache, denn der Switchstack geriet immer nach einer kurzen Uptime in den Panic und in den Logs als auch auf dem Consolen Output war keine Ursache bzw. eine Fehlermeldung sichtbar.

Der nächste Schritt, um den Fehler eingrenzen zu können war der Austausch eines kompletten Switches, der als neuer VC Master dienen sollte. Hier zahlte es sich aus, dass wir mit unserem RZ-Partner grundsätzlich eine hohe Ersatzteilverfügbarkeit gewährleisten können und immer ein entsprechendes Bauteil (in diesem Fall ein neuer Switch) im Rechenzentrum auf Lager haben. Als wir den neuen Switch in Betrieb nahmen, lief die Verbindung ca. 35 Minuten stabil, ehe sich das Fehlerbild wiederholte und beide Switche schließlich wieder in den Kernel Panic verfielen. Gegen 13:30 Uhr begannen wir weitere Komponenten wie GBICs, Kabel und weitere Bauteile Stück für Stück auszutauschen, um den Fehler weiterhin einzugrenzen.

Schließlich fand der Techniker vor Ort heraus, dass die Problemursache eine 10 Gbit Netzwerkkarte war, die entsprechende fehlerbehaftete Pakete an den Switchstack gesendet hat, die diesen Kernel Panic bei den Switchmodellen der Juniper EX-Serie herbeiführen können. Auf diese Fehlerursache gab es vorab keinerlei Andeutungen, da wir in den letzten Wochen keinerlei Änderungen an der Netzwerkinfrastruktur vornahmen und das besagte System bereits seit mehreren Monaten in genau dieser Konfiguration fehlerfrei lief.

Nach dieser Erkenntnis bootete der RZ Techniker den Switchstack mit sauberer Config und ohne Verbindung des fehlerbehafteten Systems, was gegen 14:45 Uhr eine stabile Wiederherstellung von 95% der ST-Hosting Dienste zur Folge hatte. Schlussendlich blieb noch die Wiederherstellung der Verbindung des fehlerbehafteten Systems (px06) ohne den Betrieb der restlichen Infrastruktur zu gefährden. Dazu hat der Techniker vor Ort mehrere Bauteile getauscht, sowie eine komplett neue Querverbindung zu einem Switch der QFX-Serie gelegt, die dieses Problem in der besagten Firmware nicht hatte. Gegen 17:30 Uhr konnte somit die letzte Störung beseitigt und Entwarnung für die komplette Situation gegeben werden.

Wir als ST-Hosting Team wissen, dass die Situation nicht optimal im Sinne unserer Kunden verlaufen ist und bitten im höchstem Maße um Entschuldigung. Im gleichen Zuge möchte ich persönlich unserem RZ-Partner sowie den Technikern vor Ort bedanken, die sofort alle Hebel in Bewegung gesetzt haben, um uns bei der Behebung der Situation zu unterstützen. Manchmal nützt die beste Planung nichts, wenn Fehler unvorhergesehene Phänomene hervorrufen, die man bei aller Redundanzplanung so nicht hätte verhindern können.

Wir bedanken uns für euer Verständnis!

Euer ST-Hosting Team