• IT-Karriere:
  • Services:

Netzwerk: Herausgezogene Kabel verursachen massiven Cloudflare-Ausfall

Weder DDos-Angriff noch zu viel Traffic durch die Coronakrise: Bei Cloudflare hatte ein Fehler schlicht menschliche Ursachen.

Artikel veröffentlicht am ,
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt.
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt. (Bild: Guillaume Paumier/CC-BY 3.0)

Am gestrigen Mittwochnachmittag und -abend, dem 15. April, waren das Cloudflare Dashboard und die API für fast viereinhalb Stunden nicht erreichbar. Wie das auf Netzwerkdienste spezialisierte Unternehmen in seinem Blog mitteilt, war der Grund für den Ausfall aber weder ein DDos-Angriff noch eine Überlastung durch zu viel Traffic, wie das bei anderen Diensten während der Covid-19-Pandemie bereits geschehen ist. Grund war demnach vielmehr die Trennung von mehreren eigentlich redundanten Glasfaserverbindungen in einem der beiden zentralen Rechenzentren des Unternehmens.

Stellenmarkt
  1. Information und Technik Nordrhein-Westfalen (IT.NRW), Düsseldorf
  2. Bremer Spirituosen Contor GmbH, Bremen

Im Zuge von geplanten Wartungsarbeiten habe man Techniker vor Ort angewiesen, das gesamte Equipment aus einem seiner Schränke zu entfernen, schreibt Cloudflare. Darin habe sich alte und nicht mehr genutzte Hardware befunden, die ausgemustert werden sollte. Zu den alten Servern habe es weder Netzwerkverkehr gegeben noch hätten sich darauf noch Daten befunden. In dem Schrank mit der alten Hardware befand sich demnach aber auch noch ein aktiv genutztes Patchpanel.

Dieses wurde genutzt, um alle externen Verbindungen zu den Cloudflare-Rechenzentren aufzubauen. Der Techniker habe dann aber eben nicht nur die alten Server stillgelegt, sondern eben auch das Patchpanel, erklärt Cloudflare. In dem Rechenzentrum befindet sich die Hauptkontrollebene und Datenbank des Unternehmens, weshalb daraufhin das Dashboard und die API nicht mehr genutzt werden konnten.

Zur Lösung des Problems hat Cloudflare zunächst seine Failover-Prozesse aktiviert, dabei hat das Team laut dem Blogeintrag aber immer wieder überprüft, ob die komplexe Aufgabe für das Dashboard und API tatsächlich durchgeführt werden musste. Dies wäre etwa bei physischen Schäden durch Naturkatastrophen passiert. Nachdem die Netzwerkverbindung zu dem Rechenzentrum jedoch wieder hergestellt werden konnte, konnten auch die Dienste schnell wieder zum Laufen gebracht werden. Das Überführen der Dienste sei damit nicht nötig geworden, schreibt Cloudflare.

Das Unternehmen zieht aus dem Vorgang den Schluss, dass die Ursache für den Ausfall das Vorhandensein eines Single Point of Failure gewesen sei. Die Verbindungen sollen deshalb künftig auf verschiedene Rechenzentren verteilt werden. Darüber hinaus will das Unternehmen seine Technik besser physisch dokumentieren. So habe das Team etwa viel Zeit damit verloren, die betroffenen Kabel korrekt zu identifizieren, um die Verbindungen wieder herzustellen, schreibt Cloudflare. Künftig sollen dem Unternehmen zufolge deshalb Kabel und Panel mit Markierungen versehen werden. Letztlich sollen auch die Techniker, die an der Hardware arbeiten, präzisere Beschreibungen ihrer Aufgaben erhalten. Vor dem Herausziehen von Kabeln soll dabei explizit gewarnt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Mobile-Angebote
  1. 499,90€
  2. 569€ (Bestpreis!)
  3. 206,10€ (mit Rabattcode "PFIFFIGER" - Bestpreis!)

M.P. 20. Apr 2020

Das ist eben dem engen Raster der Kabel-Steckplätze an den Geräten im Rechenzentrum...

wurstdings 20. Apr 2020

Hm, alle Daten gehen über EIN Patchpanel, ist für mich die Definition von single point...

Vögelchen 19. Apr 2020

Kabelmarkierung, die sich eh kaum ändert, als ePaper. Juhu, noch eine Kostenstelle und...

djc82k 18. Apr 2020

hab och einmal probiert und wurde von oberigkeiten darauf hingewiesen dass es zu lassen ist!

mrballz 18. Apr 2020

mit der theorie braucht man nur sich möglichst dämlich anstellen um spitzentreiter zu...


Folgen Sie uns
       


Android Smartphone als Webcam nutzen - Tutorial

Wir erklären in einem kurzen Video, wie sich das Smartphone für Videokonferenzen unter Windows nutzen lässt.

Android Smartphone als Webcam nutzen - Tutorial Video aufrufen
    •  /