DNS, Webseiten, API: Cloudflare-Projekt zur Resilienz verursacht Ausfall

Eine kurzer, aber weltweiter Ausfall der Cloudflare-Dienste hat Hunderte Kunden und Webseiten betroffen. Die Ursache war wohl ein BGP-Fehler.

Artikel veröffentlicht am ,
Ein Fehler bei Cloudflare hatte weltweite Auswirkungen.
Ein Fehler bei Cloudflare hatte weltweite Auswirkungen. (Bild: Cloud)

Der Anbieter von Internetdiensten Cloudflare hat eine Zusammenfassung und Erklärung eines massiven Ausfalls seines Angebots veröffentlicht, das am Morgen des 21. Juni zwischen 6:34 Uhr und 8:06 Uhr UTC (8:34 bis 10:06 Uhr MESZ) zahlreiche Webseiten betraf. Viele Onlineangebote waren deshalb nicht erreichbar. Der Fehler sorgte laut Cloudflare für einen Abfall des Netzwerkverkehrs auf ungefähr 50 Prozent im Vergleich zur normalen Auslastung.

Stellenmarkt
  1. Anwendungsentwickler (m/w/d) für Bestandssysteme
    RZH Rechenzentrum für Heilberufe GmbH, Wesel
  2. Software Test Engineer (m/w/d) Video Management Software
    Securiton GmbH IPS Intelligent Video Analytics, München
Detailsuche

Ironischerweise wurde der Ausfall durch Änderungen verursach, die laut Cloudflare, "Teil eines langjährigen Projekts zur Erhöhung der Ausfallsicherheit an unseren größten Standorten war". Diese Standorte wickeln demzufolge den größten Teil des internen Netzwerkverkehrs ab. Eine Konfigurationsänderungen am Netzwerk sorgte aber für einen Ausfall an diesen Standorten.

Eigentlich sollte genau das durch eine neue Netzwerkarchitektur verhindert werden, die Cloudflare seit einiger Zeit in seinen großen Standorten umsetzt. Wichtigste Idee dabei ist laut dem Anbieter eine neue interne Routing-Ebene, die es ermöglicht, "Teile des internen Netzwerks in einem Rechenzentrum zu Wartungszwecken oder zur Behebung eines Problems einfach zu deaktivieren und zu aktivieren".

BGP-Änderung mit großen Auswirkungen

Als technische Erklärung für den Ausfall schreibt Cloudflare, dass diese Netzwerke per BGP miteinander verbunden seien. Einzelne BGP-Richtlinien würden zudem sequenziell evaluiert und dann abgearbeitet. "Während wir eine Änderung an unseren Richtlininen zur Präfix-Ankündigung einführten, führte eine Neuordnung der Bedingungen dazu, dass wir eine wichtige Teilmenge von Präfixen zurückziehen mussten." Das wiederum habe einen sich selbst verstärkenden Effekt gehabt, da dies den Technikern von Cloudflare erschwert habe, auf die betroffenen Systeme überhaupt zugreifen zu können.

Golem Karrierewelt
  1. Adobe Photoshop für Social Media Anwendungen: virtueller Zwei-Tage-Workshop
    27./28.07.2022, virtuell
  2. Adobe Premiere Pro Aufbaukurs: virtueller Zwei-Tage-Workshop
    14./15.07.2022, Virtuell
Weitere IT-Trainings

Erschwert worden seien die Arbeiten darüber hinaus durch die Netzwerktechniker selbst, wie Cloudflare schreibt: "Dies verzögerte sich, da die Netzwerkingenieure die Änderungen gegenseitig übergingen und die vorherigen Rücknahme rückgängig machten, was dazu führte, dass das Problem sporadisch erneut auftrat."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Potrimpo 23. Jun 2022 / Themenstart

Die sollen nicht konferieren oder chatten, sondern arbeiten ;) Das Problem ist halt, das...

Potrimpo 23. Jun 2022 / Themenstart

"Der Fehler sorgte laut Cloudflare für einen Abfall des Netzwerkverkehrs auf ungefähr 50...

Kommentieren



Aktuell auf der Startseite von Golem.de
SFConservancy
Open-Source-Entwickler sollen Github wegen Copilot verlassen

Ähnlich wie schon vor Jahrzehnten mit Sourceforge sollen Open-Source-Projekte nun auch Github verlassen.

SFConservancy: Open-Source-Entwickler sollen Github wegen Copilot verlassen
Artikel
  1. Wärmeversorgung: Berlin baut Thermoskanne gegen Gasnotstand
    Wärmeversorgung
    Berlin baut Thermoskanne gegen Gasnotstand

    Der Versorger Vattenfall baut in Berlin einen riesigen Warmwasserspeicher, um Häuser im Winter heizen zu können. Das könnte beim möglichen Gasnotstand helfen.

  2. Wilhelm.tel: Das kann die Telekom gar nicht so schnell nachmachen
    Wilhelm.tel
    Das kann die Telekom gar nicht so schnell nachmachen

    Der streitbare Wilhelm.tel-Chef Theo Weirich hat seine Infrastruktur für die Telekom geöffnet. Damit werde das eigene FTTH-Netz aber nicht entwertet.

  3. Chrome OS Flex: Das Apple Chromebook
    Chrome OS Flex
    Das Apple Chromebook

    Ein zehn Jahre altes Notebook lässt sich mit Chrome OS Flex wieder flott machen. Wir haben Googles Betriebssystem ausprobiert und waren begeistert.
    Ein Erfahrungsbericht von Martin Wolf

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MSI RTX 3080 12GB günstig wie nie: 949€ • AMD Ryzen 7 günstig wie nie: 259€ • Der beste 2.000€-Gaming-PC • Cooler Master 34" UWQHD 144 Hz günstig wie nie: 467,85€ • Asus RX 6900 XT OC günstig wie nie: 1.049€ • Mindstar (Gigabyte RTX 3060 399€) • Galaxy Watch3 45 mm 119€ [Werbung]
    •  /