Netzwerk: Herausgezogene Kabel verursachen massiven Cloudflare-Ausfall

Weder DDos-Angriff noch zu viel Traffic durch die Coronakrise: Bei Cloudflare hatte ein Fehler schlicht menschliche Ursachen.

Artikel veröffentlicht am ,
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt.
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt. (Bild: Guillaume Paumier/CC-BY 3.0)

Am gestrigen Mittwochnachmittag und -abend, dem 15. April, waren das Cloudflare Dashboard und die API für fast viereinhalb Stunden nicht erreichbar. Wie das auf Netzwerkdienste spezialisierte Unternehmen in seinem Blog mitteilt, war der Grund für den Ausfall aber weder ein DDos-Angriff noch eine Überlastung durch zu viel Traffic, wie das bei anderen Diensten während der Covid-19-Pandemie bereits geschehen ist. Grund war demnach vielmehr die Trennung von mehreren eigentlich redundanten Glasfaserverbindungen in einem der beiden zentralen Rechenzentren des Unternehmens.

Stellenmarkt
  1. Software- / Webentwickler (w/m/d)
    Technische Hochschule Nürnberg Georg Simon Ohm, Nürnberg
  2. Embedded Firmware Entwickler (m/w)
    IoT Invent GmbH, Ismaning
Detailsuche

Im Zuge von geplanten Wartungsarbeiten habe man Techniker vor Ort angewiesen, das gesamte Equipment aus einem seiner Schränke zu entfernen, schreibt Cloudflare. Darin habe sich alte und nicht mehr genutzte Hardware befunden, die ausgemustert werden sollte. Zu den alten Servern habe es weder Netzwerkverkehr gegeben noch hätten sich darauf noch Daten befunden. In dem Schrank mit der alten Hardware befand sich demnach aber auch noch ein aktiv genutztes Patchpanel.

Dieses wurde genutzt, um alle externen Verbindungen zu den Cloudflare-Rechenzentren aufzubauen. Der Techniker habe dann aber eben nicht nur die alten Server stillgelegt, sondern eben auch das Patchpanel, erklärt Cloudflare. In dem Rechenzentrum befindet sich die Hauptkontrollebene und Datenbank des Unternehmens, weshalb daraufhin das Dashboard und die API nicht mehr genutzt werden konnten.

Zur Lösung des Problems hat Cloudflare zunächst seine Failover-Prozesse aktiviert, dabei hat das Team laut dem Blogeintrag aber immer wieder überprüft, ob die komplexe Aufgabe für das Dashboard und API tatsächlich durchgeführt werden musste. Dies wäre etwa bei physischen Schäden durch Naturkatastrophen passiert. Nachdem die Netzwerkverbindung zu dem Rechenzentrum jedoch wieder hergestellt werden konnte, konnten auch die Dienste schnell wieder zum Laufen gebracht werden. Das Überführen der Dienste sei damit nicht nötig geworden, schreibt Cloudflare.

Golem Karrierewelt
  1. Adobe Photoshop Aufbaukurs: virtueller Zwei-Tage-Workshop
    02./03.06.2022, Virtuell
  2. Einführung in Unity: virtueller Ein-Tages-Workshop
    21.06.2022, Virtuell
Weitere IT-Trainings

Das Unternehmen zieht aus dem Vorgang den Schluss, dass die Ursache für den Ausfall das Vorhandensein eines Single Point of Failure gewesen sei. Die Verbindungen sollen deshalb künftig auf verschiedene Rechenzentren verteilt werden. Darüber hinaus will das Unternehmen seine Technik besser physisch dokumentieren. So habe das Team etwa viel Zeit damit verloren, die betroffenen Kabel korrekt zu identifizieren, um die Verbindungen wieder herzustellen, schreibt Cloudflare. Künftig sollen dem Unternehmen zufolge deshalb Kabel und Panel mit Markierungen versehen werden. Letztlich sollen auch die Techniker, die an der Hardware arbeiten, präzisere Beschreibungen ihrer Aufgaben erhalten. Vor dem Herausziehen von Kabeln soll dabei explizit gewarnt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


M.P. 20. Apr 2020

Das ist eben dem engen Raster der Kabel-Steckplätze an den Geräten im Rechenzentrum...

wurstdings 20. Apr 2020

Hm, alle Daten gehen über EIN Patchpanel, ist für mich die Definition von single point...

Vögelchen 19. Apr 2020

Kabelmarkierung, die sich eh kaum ändert, als ePaper. Juhu, noch eine Kostenstelle und...

djc82k 18. Apr 2020

hab och einmal probiert und wurde von oberigkeiten darauf hingewiesen dass es zu lassen ist!



Aktuell auf der Startseite von Golem.de
Ukrainekrieg
Erster Einsatz einer US-Kamikazedrohne dokumentiert

Eine Switchblade-Drohne hat offenbar einen russischen Panzer getroffen. Dessen Besatzung soll sich auf dem Turm mit Alkohol vergnügt haben.

Ukrainekrieg: Erster Einsatz einer US-Kamikazedrohne dokumentiert
Artikel
  1. Deutsche Bahn: 9-Euro-Ticket gilt nicht in allen Nahverkehrszügen
    Deutsche Bahn  
    9-Euro-Ticket gilt nicht in allen Nahverkehrszügen

    So einfach ist es dann noch nicht: Das 9-Euro-Ticket gilt nicht in allen Zügen, die mit einem Nahverkehrsticket genutzt werden können.

  2. Cerebras WSE-2: München verbaut riesigen KI-Chip
    Cerebras WSE-2
    München verbaut riesigen KI-Chip

    Als erster Standort in Europa hat das Leibniz-Rechenzentrum (LRZ) ein CS-2-System mit Cerebras' WSE-2 gekauft, welches effizient und schnell ist.

  3. WD Red: 7 US-Dollar für falsch beworbene NAS-Festplatte
    WD Red
    7 US-Dollar für falsch beworbene NAS-Festplatte

    Weil Western Digital einige NAS-Festplatten ohne Hinweis mit SMR-Technik verkauft hatte, muss der Hersteller dafür geradestehen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Days of Play: (u. a. PS5-Controller (alle Farben) günstig wie nie: 49,99€, PS5-Headset Sony Pulse 3D günstig wie nie: 79,99€) • Viewsonic Gaming-Monitore günstiger • Mindstar (u. a. MSI RTX 3090 24GB 1.599€) • Xbox Series X bestellbar • Samsung SSD 1TB 79€ [Werbung]
    •  /