Weltweite Ausfälle: Wie Cloudflare das halbe Internet lahmgelegt hat

Ein Ausfall bei Cloudflare hatte am Dienstag weite Teile des Internets lahmgelegt . Cloudflare-CTO Dane Knecht schrieb den Vorfall noch am selben Tag auf X(öffnet im neuen Fenster) einem "latenten Bug" in einem Dienst zur Botabwehr zu, der durch eine Konfigurationsänderung ausgelöst wurde. Inzwischen liegt ein umfangreicher Bericht(öffnet im neuen Fenster) vor, in dem Cloudflare weitere Details zur Ursache nennt.
Ein Cyberangriff sei es jedenfalls nicht gewesen, betont der Konzern – obwohl man intern zunächst selbst von einer DDoS-Attacke ausging. Stattdessen sei der Ausfall durch Berechtigungsänderungen in einem Datenbanksystem ausgelöst worden. Infolgedessen habe die Datenbank eine von Cloudflares Bot-Management-System verwendete Feature-Datei um zahlreiche duplizierte Einträge erweitert.
Aufgabe dieser Datei ist es, eine Machine-Learning-basierte Komponente des Bot-Management-Systems hinsichtlich aktueller Bedrohungen auf dem neuesten Stand zu halten. Die Datei erreichte durch den genannten Fehler die doppelte Größe und wurde an weitere Systeme im Netzwerk verteilt. Dort kam es schließlich zu einem Absturz, weil die Feature-Datei den Grenzwert für die maximal erlaubte Größe überschritt.
Störungen dauerten fast sechs Stunden an
Dem Bericht zufolge begann der Ausfall gegen 12:20 Uhr deutscher Zeit. Cloudflare zeigt in einer Grafik, wie die Anzahl der HTTP-Requests mit einem Error-Statuscode (5xx) zu dieser Zeit sprunghaft anstieg. Bis 14 Uhr ging die Fehlerquote immer wieder kurzzeitig zurück, verblieb danach aber anhaltend auf hohem Niveau. Erst gegen 15:30 Uhr war die Ursache gefunden und behoben, woraufhin auch die Anzahl der Fehler rapide nachließ.
Beseitigen konnte Cloudflare das Problem den Angaben zufolge dadurch, dass die Verteilung der fehlerhaften Feature-Datei unterbunden und durch eine bereinigte Datei ersetzt wurde. Danach mussten noch einige Dienste neu gestartet werden, die durch den Ausfall in einen Fehler-Zustand geraten und somit weiter beeinträchtigt waren. Ab 18:06 Uhr erreichte die Anzahl der fehlgeschlagenen HTTP-Requests wieder den Normalwert.
Der Ausfall hatte laut Cloudflare Auswirkungen auf zahlreiche Systeme, die vom Core-Proxy des Unternehmens abhängen. Das machte sich auch bei den Nutzern bemerkbar, die am Dienstag etwa von Ausfällen bei ChatGPT, X und zahlreichen anderen Onlinediensten berichteten(öffnet im neuen Fenster) . Auch das Störungsportal Allestörungen.de sowie einige Mastodon-Instanzen waren zeitweise nicht verfügbar.
Größte Cloudflare-Panne seit Jahren
Laut Cloudflare war dies der größte Ausfall, den das Unternehmen seit 2019(öffnet im neuen Fenster) zu verzeichnen hatte. "In den letzten sechs Jahren hatten wir keinen anderen Ausfall, der dazu geführt hätte, dass ein Großteil des Core-Traffics nicht mehr über unser Netzwerk floss" , so der Konzern. Cloudflare versichert aber, mehrere Maßnahmen zu ergreifen, um vergleichbare Vorfälle künftig zu unterbinden.
"Angesichts der Bedeutung von Cloudflare für das Internet-Ökosystem ist jeder Ausfall eines unserer Systeme inakzeptabel" , schreibt das Unternehmen weiter. "Dass unser Netzwerk für einen bestimmten Zeitraum nicht in der Lage war, Datenverkehr weiterzuleiten, ist für jedes Mitglied unseres Teams sehr schmerzlich. Wir wissen, dass wir Sie heute enttäuscht haben" , gesteht Cloudflare.
Eine ähnlich weitreichende Panne gab es erst im Oktober beim Cloudanbieter AWS. Auch damals waren zahlreiche von AWS abhängige Onlinedienste ausgefallen , was weite Teile des Internets beeinträchtigte. Ursache war laut AWS eine Race Condition , die einen fehlerhaften DNS-Eintrag zur Folge hatte.



