Stellungnahme zum Ausfall 14.12.2020

Stellungnahme zum Ausfall 14.12.2020

Wie angekündigt wollen wir zu der Störung vom 14.12.2020 Stellung beziehen.

Zunächst möchten wir betonen, dass ein stabiler Betrieb für uns – zusammen mit einer sicheren Stromversorgung – mit der wichtigste Grundpfeiler unserer Dienstleistungsqualität ist. Unsere Produkte stehen seit vielen Jahren nicht nur für hohe Performance, guten Service und Flexibilität, sondern eben auch für eine hohe Verfügbarkeit. Umso deutlicher müssen wir feststellen, dass zwei Hoststörungen in zwei aufeinanderfolgenden Monaten ganz und gar nicht unseren eigenen Anforderungen entsprechen. Unsere Kundinnen und Kunden sind daran gewöhnt, dass unsere Server “einfach laufen” – wir sind dankbar für dieses große Vertrauen und möchten diesem auch weiterhin gerecht werden.

Betroffene Services des Ausfalles waren:

  • Kundenwebserver web01
  • Minecraft-Verwaltungspanel
  • Kundensystem
  • Website
  • Page-/Mailforwarding
  • vServer Verwaltungskonsolen (Server selbst waren aktiv)

Ursache des Ausfalls am Montag war ein Hardwareausfall, einer etwas älteren HP-Proliant Generation. Die anfänglichen Versuche, die Hardware wieder in Gang zu setzen, scheiterten an mehreren Stellen, weswegen wir uns entschieden haben, kurzfristig alle Systeme auf einen Server der Supermicro-Serie (unsere performantesten Server) zu ziehen. Nachdem die Core-Systeme hunderte von Gigabytes an Größe hatten, war es eine reine Koordinationsfrage, in welcher Reihenfolge wir welche Systeme wiederherstellten. Dies dauerte letztendlich seine Zeit.

In jüngster Vergangenheit mussten wir bei drei identischen Servern denselben Hardwaredefekt feststellen. Zum Zeitpunkt des Ausfalls war die vollständige Redundanz kurzfristig nicht gegeben, da eines der Geräte gerade in Folge eines Defektes am Tag des Ausfalls getauscht worden war. Die Wiedereingliederung in den Verbund war für den Folgetag vorgesehen. Derartige Arbeiten führen planmäßig zu keinerlei Ausfällen oder Paketverlusten, werden jedoch aus Sicherheitsgründen nachts durchgeführt, da ein Restrisiko bei Arbeiten an der Kerninfrastruktur nie 100%ig auszuschließen ist. In diesem unwahrscheinlichen Fall hat also ein zweiter Defekt in einem unmittelbaren zeitlichen Zusammenhang zu der fraglichen Störung geführt.

Wir werden in diesem Zuge im neuen Jahr einen etwas größeren Invest tätigen, um auch die verbleibenden HP-Proliant Server auf neuartige Server des Herstellers Supermicro zu migrieren, die natürlich entsprechend redundant ausgestattet sind.

Wichtig: Für alle unsere Webhosting Kunden bieten wir einen entsprechenden Monat Laufzeit als Entschädigung gratis an. Wir bitten Sie hierzu ein Ticket beim Support mit Verweis auf diesen Blogeintrag zu eröffnen.

Für eventuelle Rückfragen stehen wir Ihnen gerne zur Verfügung.

Euer ST-Hosting Team

Schreibe einen Kommentar