Netzwerk: Herausgezogene Kabel verursachen massiven Cloudflare-Ausfall

Weder DDos-Angriff noch zu viel Traffic durch die Coronakrise: Bei Cloudflare hatte ein Fehler schlicht menschliche Ursachen.

Artikel veröffentlicht am ,
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt.
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt. (Bild: Guillaume Paumier/CC-BY 3.0)

Am gestrigen Mittwochnachmittag und -abend, dem 15. April, waren das Cloudflare Dashboard und die API für fast viereinhalb Stunden nicht erreichbar. Wie das auf Netzwerkdienste spezialisierte Unternehmen in seinem Blog mitteilt, war der Grund für den Ausfall aber weder ein DDos-Angriff noch eine Überlastung durch zu viel Traffic, wie das bei anderen Diensten während der Covid-19-Pandemie bereits geschehen ist. Grund war demnach vielmehr die Trennung von mehreren eigentlich redundanten Glasfaserverbindungen in einem der beiden zentralen Rechenzentren des Unternehmens.

Im Zuge von geplanten Wartungsarbeiten habe man Techniker vor Ort angewiesen, das gesamte Equipment aus einem seiner Schränke zu entfernen, schreibt Cloudflare. Darin habe sich alte und nicht mehr genutzte Hardware befunden, die ausgemustert werden sollte. Zu den alten Servern habe es weder Netzwerkverkehr gegeben noch hätten sich darauf noch Daten befunden. In dem Schrank mit der alten Hardware befand sich demnach aber auch noch ein aktiv genutztes Patchpanel.

Dieses wurde genutzt, um alle externen Verbindungen zu den Cloudflare-Rechenzentren aufzubauen. Der Techniker habe dann aber eben nicht nur die alten Server stillgelegt, sondern eben auch das Patchpanel, erklärt Cloudflare. In dem Rechenzentrum befindet sich die Hauptkontrollebene und Datenbank des Unternehmens, weshalb daraufhin das Dashboard und die API nicht mehr genutzt werden konnten.

Zur Lösung des Problems hat Cloudflare zunächst seine Failover-Prozesse aktiviert, dabei hat das Team laut dem Blogeintrag aber immer wieder überprüft, ob die komplexe Aufgabe für das Dashboard und API tatsächlich durchgeführt werden musste. Dies wäre etwa bei physischen Schäden durch Naturkatastrophen passiert. Nachdem die Netzwerkverbindung zu dem Rechenzentrum jedoch wieder hergestellt werden konnte, konnten auch die Dienste schnell wieder zum Laufen gebracht werden. Das Überführen der Dienste sei damit nicht nötig geworden, schreibt Cloudflare.

Das Unternehmen zieht aus dem Vorgang den Schluss, dass die Ursache für den Ausfall das Vorhandensein eines Single Point of Failure gewesen sei. Die Verbindungen sollen deshalb künftig auf verschiedene Rechenzentren verteilt werden. Darüber hinaus will das Unternehmen seine Technik besser physisch dokumentieren. So habe das Team etwa viel Zeit damit verloren, die betroffenen Kabel korrekt zu identifizieren, um die Verbindungen wieder herzustellen, schreibt Cloudflare. Künftig sollen dem Unternehmen zufolge deshalb Kabel und Panel mit Markierungen versehen werden. Letztlich sollen auch die Techniker, die an der Hardware arbeiten, präzisere Beschreibungen ihrer Aufgaben erhalten. Vor dem Herausziehen von Kabeln soll dabei explizit gewarnt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


M.P. 20. Apr 2020

Das ist eben dem engen Raster der Kabel-Steckplätze an den Geräten im Rechenzentrum...

wurstdings 20. Apr 2020

Hm, alle Daten gehen über EIN Patchpanel, ist für mich die Definition von single point...

Vögelchen 19. Apr 2020

Kabelmarkierung, die sich eh kaum ändert, als ePaper. Juhu, noch eine Kostenstelle und...

djc82k 18. Apr 2020

hab och einmal probiert und wurde von oberigkeiten darauf hingewiesen dass es zu lassen ist!



Aktuell auf der Startseite von Golem.de
VW ID.Buzz XL
Längerer Elektrobus mit mehr PS und Reichweite

Der ID.Buzz von VW kommt in einer XL-Version auf den Markt. Viele Neuerungen werden vom ID.7 übernommen.

VW ID.Buzz XL: Längerer Elektrobus mit mehr PS und Reichweite
Artikel
  1. Chipfabrik Magdeburg: Regierung streitet über Milliardenförderung für Intel
    Chipfabrik Magdeburg
    Regierung streitet über Milliardenförderung für Intel

    Angeblich verlangt Intel inzwischen eine staatliche Förderung von 10 Milliarden Euro. Doch Finanzminister Lindner soll noch blockieren.

  2. Microsoft Azure Cognitive Services: Kognitive Dienste in der Cloud ohne KI-Kenntnisse nutzen
    Microsoft Azure Cognitive Services
    Kognitive Dienste in der Cloud ohne KI-Kenntnisse nutzen

    Für maschinelles Sehen, Hören, Sprechen und Verstehen gibt es viele Einsatzmöglichkeiten. Wir erklären die Dienste von Microsoft und schauen dabei auch auf die Datensicherheit.
    Ein Deep Dive von Michael Bröde

  3. Arturia Microfreak 5.0: Mehr Synthesizer fürs Geld geht kaum
    Arturia Microfreak 5.0
    Mehr Synthesizer fürs Geld geht kaum

    Eines der besten Hardware-Musikinstrumente wird dank Firmware-Update noch besser. Das sind die größten Neuerungen beim Arturia Microfreak.
    Ein Hands-on von Daniel Ziegener

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Corsair Vengeance LPX DDR4-3600 16 GB 39,90€ und RGB PRO 49,90€ • Roccat Magma 33€ • MindStar: be quiet! Pure Base 500 FX 99,90€, ADATA LEGEND 710 2 TB 79€ • Alan Wake Remastered PS4 12,99€ • KFA2 RTX 3060 Ti 329,99€ • Kingston Fury SSD 2 TB (PS5) 129,91€ • Sony Deals Week [Werbung]
    •  /