Netzwerk: Herausgezogene Kabel verursachen massiven Cloudflare-Ausfall

Weder DDos-Angriff noch zu viel Traffic durch die Coronakrise: Bei Cloudflare hatte ein Fehler schlicht menschliche Ursachen.

Artikel veröffentlicht am ,
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt.
Ein gut sortiertes Patchpanel hilft Probleme zu vermeiden, das hat nun auch Cloudflare gelernt. (Bild: Guillaume Paumier/CC-BY 3.0)

Am gestrigen Mittwochnachmittag und -abend, dem 15. April, waren das Cloudflare Dashboard und die API für fast viereinhalb Stunden nicht erreichbar. Wie das auf Netzwerkdienste spezialisierte Unternehmen in seinem Blog mitteilt, war der Grund für den Ausfall aber weder ein DDos-Angriff noch eine Überlastung durch zu viel Traffic, wie das bei anderen Diensten während der Covid-19-Pandemie bereits geschehen ist. Grund war demnach vielmehr die Trennung von mehreren eigentlich redundanten Glasfaserverbindungen in einem der beiden zentralen Rechenzentren des Unternehmens.

Stellenmarkt
  1. Softwareentwickler (m/w/d) für den Energiemarkt
    PSI Energy Markets GmbH, Aschaffenburg, Berlin, Hannover
  2. Specialist Data Analytics and Assurance (m/w/d) für Vantage Towers
    Vodafone GmbH, Düsseldorf
Detailsuche

Im Zuge von geplanten Wartungsarbeiten habe man Techniker vor Ort angewiesen, das gesamte Equipment aus einem seiner Schränke zu entfernen, schreibt Cloudflare. Darin habe sich alte und nicht mehr genutzte Hardware befunden, die ausgemustert werden sollte. Zu den alten Servern habe es weder Netzwerkverkehr gegeben noch hätten sich darauf noch Daten befunden. In dem Schrank mit der alten Hardware befand sich demnach aber auch noch ein aktiv genutztes Patchpanel.

Dieses wurde genutzt, um alle externen Verbindungen zu den Cloudflare-Rechenzentren aufzubauen. Der Techniker habe dann aber eben nicht nur die alten Server stillgelegt, sondern eben auch das Patchpanel, erklärt Cloudflare. In dem Rechenzentrum befindet sich die Hauptkontrollebene und Datenbank des Unternehmens, weshalb daraufhin das Dashboard und die API nicht mehr genutzt werden konnten.

Zur Lösung des Problems hat Cloudflare zunächst seine Failover-Prozesse aktiviert, dabei hat das Team laut dem Blogeintrag aber immer wieder überprüft, ob die komplexe Aufgabe für das Dashboard und API tatsächlich durchgeführt werden musste. Dies wäre etwa bei physischen Schäden durch Naturkatastrophen passiert. Nachdem die Netzwerkverbindung zu dem Rechenzentrum jedoch wieder hergestellt werden konnte, konnten auch die Dienste schnell wieder zum Laufen gebracht werden. Das Überführen der Dienste sei damit nicht nötig geworden, schreibt Cloudflare.

Golem Akademie
  1. Docker & Containers - From Zero to Hero
    27.-29. Oktober 2021, online
  2. Elastic Stack Fundamentals - Elasticsearch, Logstash, Kibana, Beats
    26.-28. Oktober 2021, online
  3. Einführung in die Programmierung mit Rust
    21.-24. September 2021, online
Weitere IT-Trainings

Das Unternehmen zieht aus dem Vorgang den Schluss, dass die Ursache für den Ausfall das Vorhandensein eines Single Point of Failure gewesen sei. Die Verbindungen sollen deshalb künftig auf verschiedene Rechenzentren verteilt werden. Darüber hinaus will das Unternehmen seine Technik besser physisch dokumentieren. So habe das Team etwa viel Zeit damit verloren, die betroffenen Kabel korrekt zu identifizieren, um die Verbindungen wieder herzustellen, schreibt Cloudflare. Künftig sollen dem Unternehmen zufolge deshalb Kabel und Panel mit Markierungen versehen werden. Letztlich sollen auch die Techniker, die an der Hardware arbeiten, präzisere Beschreibungen ihrer Aufgaben erhalten. Vor dem Herausziehen von Kabeln soll dabei explizit gewarnt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


M.P. 20. Apr 2020

Das ist eben dem engen Raster der Kabel-Steckplätze an den Geräten im Rechenzentrum...

wurstdings 20. Apr 2020

Hm, alle Daten gehen über EIN Patchpanel, ist für mich die Definition von single point...

Vögelchen 19. Apr 2020

Kabelmarkierung, die sich eh kaum ändert, als ePaper. Juhu, noch eine Kostenstelle und...

djc82k 18. Apr 2020

hab och einmal probiert und wurde von oberigkeiten darauf hingewiesen dass es zu lassen ist!

mrballz 18. Apr 2020

mit der theorie braucht man nur sich möglichst dämlich anstellen um spitzentreiter zu...



Aktuell auf der Startseite von Golem.de
Cyrcle Phone 2.0
Rundes Smartphone soll 700 Euro kosten

Dass Mobiltelefone in den letzten 20 Jahren meist nicht rund gewesen sind, scheint einen guten Grund zu haben, wie das Cyrcle Phone 2.0 zeigt.

Cyrcle Phone 2.0: Rundes Smartphone soll 700 Euro kosten
Artikel
  1. Bundesinnenministerium: Nur jede neunte Verwaltungsleistung ist digitalisiert
    Bundesinnenministerium
    Nur jede neunte Verwaltungsleistung ist digitalisiert

    Meldebescheinigungen oder Baugenehmigungen warten weiter auf die Digitalisierung.

  2. Stühle und Tische: Ikea bringt Möbel fürs Gaming-Zimmer
    Stühle und Tische
    Ikea bringt Möbel fürs Gaming-Zimmer

    Stühle, höhenverstellbare Tische und Zubehör: Ikea bringt viele Produkte heraus, die sich an Gamer richten - auch Mauspads und Trinkbecher.

  3. Smartphones: Huawei versucht nicht mehr, die besten Produkte zu machen
    Smartphones
    Huawei versucht nicht mehr, die besten Produkte zu machen

    Das Handelsembargo der USA gegen Huawei zeigt Wirkung, wenn auch anders als geplant.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • iPhone 13: jetzt alle Modelle vorbestellbar • Sony Pulse 3D PS5-Headset Midnight Black vorbestellbar 89,99€ • Breaking Deals mit Club-Rabatten (u. a. Samsung 65" QLED 1.189,15€) • WD Black SN750 1TB 96,99€ • Amazon Exklusives in 4K-UHD • GP Anniversary Sale: History & War [Werbung]
    •  /