• IT-Karriere:
  • Services:

Netzwerk: Herausgezogene Kabel verursachen massiven Cloudflare-Ausfall

Weder DDos-Angriff noch zu viel Traffic durch die Coronakrise: Bei Cloudflare hatte ein Fehler schlicht menschliche Ursachen.

Artikel veröffentlicht am ,
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt.
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt. (Bild: Guillaume Paumier/CC-BY 3.0)

Am gestrigen Mittwochnachmittag und -abend, dem 15. April, waren das Cloudflare Dashboard und die API für fast viereinhalb Stunden nicht erreichbar. Wie das auf Netzwerkdienste spezialisierte Unternehmen in seinem Blog mitteilt, war der Grund für den Ausfall aber weder ein DDos-Angriff noch eine Überlastung durch zu viel Traffic, wie das bei anderen Diensten während der Covid-19-Pandemie bereits geschehen ist. Grund war demnach vielmehr die Trennung von mehreren eigentlich redundanten Glasfaserverbindungen in einem der beiden zentralen Rechenzentren des Unternehmens.

Stellenmarkt
  1. Stadt Ingolstadt, Ingolstadt
  2. Software AG, Darmstadt, Saarbrücken

Im Zuge von geplanten Wartungsarbeiten habe man Techniker vor Ort angewiesen, das gesamte Equipment aus einem seiner Schränke zu entfernen, schreibt Cloudflare. Darin habe sich alte und nicht mehr genutzte Hardware befunden, die ausgemustert werden sollte. Zu den alten Servern habe es weder Netzwerkverkehr gegeben noch hätten sich darauf noch Daten befunden. In dem Schrank mit der alten Hardware befand sich demnach aber auch noch ein aktiv genutztes Patchpanel.

Dieses wurde genutzt, um alle externen Verbindungen zu den Cloudflare-Rechenzentren aufzubauen. Der Techniker habe dann aber eben nicht nur die alten Server stillgelegt, sondern eben auch das Patchpanel, erklärt Cloudflare. In dem Rechenzentrum befindet sich die Hauptkontrollebene und Datenbank des Unternehmens, weshalb daraufhin das Dashboard und die API nicht mehr genutzt werden konnten.

Zur Lösung des Problems hat Cloudflare zunächst seine Failover-Prozesse aktiviert, dabei hat das Team laut dem Blogeintrag aber immer wieder überprüft, ob die komplexe Aufgabe für das Dashboard und API tatsächlich durchgeführt werden musste. Dies wäre etwa bei physischen Schäden durch Naturkatastrophen passiert. Nachdem die Netzwerkverbindung zu dem Rechenzentrum jedoch wieder hergestellt werden konnte, konnten auch die Dienste schnell wieder zum Laufen gebracht werden. Das Überführen der Dienste sei damit nicht nötig geworden, schreibt Cloudflare.

Das Unternehmen zieht aus dem Vorgang den Schluss, dass die Ursache für den Ausfall das Vorhandensein eines Single Point of Failure gewesen sei. Die Verbindungen sollen deshalb künftig auf verschiedene Rechenzentren verteilt werden. Darüber hinaus will das Unternehmen seine Technik besser physisch dokumentieren. So habe das Team etwa viel Zeit damit verloren, die betroffenen Kabel korrekt zu identifizieren, um die Verbindungen wieder herzustellen, schreibt Cloudflare. Künftig sollen dem Unternehmen zufolge deshalb Kabel und Panel mit Markierungen versehen werden. Letztlich sollen auch die Techniker, die an der Hardware arbeiten, präzisere Beschreibungen ihrer Aufgaben erhalten. Vor dem Herausziehen von Kabeln soll dabei explizit gewarnt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote

M.P. 20. Apr 2020 / Themenstart

Das ist eben dem engen Raster der Kabel-Steckplätze an den Geräten im Rechenzentrum...

wurstdings 20. Apr 2020 / Themenstart

Hm, alle Daten gehen über EIN Patchpanel, ist für mich die Definition von single point...

Vögelchen 19. Apr 2020 / Themenstart

Kabelmarkierung, die sich eh kaum ändert, als ePaper. Juhu, noch eine Kostenstelle und...

djc82k 18. Apr 2020 / Themenstart

hab och einmal probiert und wurde von oberigkeiten darauf hingewiesen dass es zu lassen ist!

mrballz 18. Apr 2020 / Themenstart

mit der theorie braucht man nur sich möglichst dämlich anstellen um spitzentreiter zu...

Kommentieren


Folgen Sie uns
       


Razer Eracing Simulator ausprobiert (CES 2020)

Der Eracing Simulator von Razer versucht, das Fahrgefühl in einem Rennwagen wiederzugeben. Dank Motoren und einer großen Leinwand ist die Immersion sehr gut, wie Golem.de im Hands on feststellen konnte.

Razer Eracing Simulator ausprobiert (CES 2020) Video aufrufen
DSGVO: Nicht weniger als Staatsversagen
DSGVO
Nicht weniger als Staatsversagen

Unterfinanziert und wirkungslos - so zeigen sich die europäischen Datenschutzbehörden nach zwei Jahren DSGVO gegenüber Konzernen wie Google und Facebook.
Eine Analyse von Christiane Schulzki-Haddouti

  1. Datenschutzverstöße EuGH soll über Verbandsklagerecht entscheiden
  2. DSGVO Proton vergisst Git-Zugang auf Datenschutzwebseite
  3. DSGVO Iren sollen Facebook an EU-Datenschützer abgeben

Energieversorgung: Wasserstoff-Fabrik auf hoher See
Energieversorgung
Wasserstoff-Fabrik auf hoher See

Um überschüssigen Strom sinnvoll zu nutzen, sollen in der Nähe von Offshore-Windparks sogenannte Elektrolyseure installiert werden. Der dort produzierte Wasserstoff wird in bestehende Erdgaspipelines eingespeist.
Ein Bericht von Wolfgang Kempkens

  1. Industriestrategie EU plant Allianz für sauberen Wasserstoff
  2. Energie Dieses Blatt soll es wenden
  3. Energiewende Grüner Wasserstoff aus der Zinnschmelze

Corona: Japans Krankenhäuser steigen endlich von Fax auf E-Mail um
Corona
Japans Krankenhäuser steigen endlich von Fax auf E-Mail um

In Japan löst die Coronakrise einen Modernisierungsschub aus. Den Ärzten in den Krankenhäusern fehlt die Zeit für das manuelle Ausfüllen von Formularen.
Ein Bericht von Felix Lill

  1. Onlineshopping Weiterhin mehr Pakete als vor Beginn der Coronapandemie
  2. Corona IFA 2020 findet doch als physisches Event statt
  3. Corona Pariser Polizei darf keine Drohnen zur Überwachung verwenden

    •  /