Zum Hauptinhalt Zur Navigation

Nicht nur Microsoft kann das: Cloudflare verliert Logging-Daten seiner Kunden

Mehrere Stunden an Protokolldaten eines Großteils der Cloudflare -Kundschaft sind verschwunden. Dabei wollte der Konzern nur eine kleine Änderung einführen.
/ Marc Stöckel
1 Kommentare News folgen (öffnet im neuen Fenster)
Eine Wolke regnet ab. (Symbolbild) (Bild: pixabay.com / ljvdbos0)
Eine Wolke regnet ab. (Symbolbild) Bild: pixabay.com / ljvdbos0

So manch einer erinnert sich vielleicht noch an Microsofts Logging-Datenpanne von September , bei der mehrere Wochen an Protokolldaten verloren gegangen waren. Dass solche Probleme auch bei anderen großen Konzernen auftreten können, zeigt ein neuer Vorfall bei Cloudflare. Wie das Unternehmen in einem Blogbeitrag(öffnet im neuen Fenster) bestätigt, hat es am 14. November 2024 Protokolldaten von einem Großteil seiner Kunden, die Cloudflare Logs(öffnet im neuen Fenster) nutzen, verloren.

Immerhin ist der zeitliche Rahmen dieses Datenverlustes im Vergleich zu jenem von Microsofts Datenpanne vergleichsweise klein. Laut Cloudflare sind nur etwa 3,5 Stunden an Logging-Daten verschwunden. Innerhalb dieses Zeitfensters betrifft der Datenverlust allerdings rund 55 Prozent aller Protokolle, die der Dienst normalerweise an Kunden übermittelt.

Kleines Update, große Wirkung

Ausgelöst wurde der Datenverlust den Angaben nach durch ein Update für einen Dienst namens Logpush, der Protokolldaten aus einem Puffer liest und gebündelt an von den jeweiligen Kunden konfigurierte Ziele weiterleitet. Der Dienst verarbeitet laut Cloudflare täglich mehr als 600 Millionen solcher Datenbündel.

Durch das besagte Update sollte die Unterstützung für einen neuen Datensatz eingeführt werden. Für die Bereitstellung dieser Daten brauchte ein anderer Dienst namens Logfwdr jedoch eine neue Konfiguration, die normalerweise alle paar Minuten von einem separaten System generiert wird.

Dabei kam es jedoch zu einem Fehler, so dass Logfwdr eine leere Konfiguration erhielt. Laut Cloudflare bedeutete diese leere Konfiguration für Logfwdr, dass die Kunden keinerlei Logs zur Weiterleitung konfiguriert hatten. Bei Logpush kamen also letztendlich keine Protokolldaten mehr an.

Es folgte eine Datenflut

Wie Cloudflare weiter ausführt, konnte das ursprüngliche Problem innerhalb weniger Minuten gelöst werden. Die Arbeit war damit aber nicht beendet, denn die leere Konfiguration löste in Logfwdr eine alte Failsafe-Funktion aus, die eigentlich vor einem Datenverlust schützen sollte, indem sie im Falle einer fehlerhaften Konfiguration ausnahmslos alle Ereignisse weiterleitet - statt nur jener, für die es einen Logpush-Job gibt.

Dies führte jedoch zu einer Datenflut, der die für die Pufferung vorgesehenen Buftee-Cluster des Konzerns nicht gewachsen waren. Die Rede ist von einem Zuwachs der benötigten Puffer um Faktor 40. Letztendlich brauchte Cloudflare mehrere Stunden, um dieses Problem zu lösen. Die zugrunde liegenden Systeme waren den Angaben nach derart überlastet, dass ein vollständiger Reset und Neustart erforderlich war.

Eigentlich soll das Buftee-Cluster sogar über Mechanismen verfügt haben, die vor einem solchen Szenario schützen. Cloudflare hatte jedoch die Konfiguration dieser Schutzmechanismen nach eigenen Angaben nicht abgeschlossen. "Wären sie richtig konfiguriert worden, wäre Buftee nicht überfordert gewesen" , schreibt der Konzern und vergleicht die Situation mit einem nicht angelegten Sicherheitsgurt im Auto.

Um vergleichbare Vorfälle in Zukunft zu vermeiden, verspricht Cloudflare, regelmäßig Überlastungstests durchzuführen und Warnungen für Fehlkonfigurationen zu erstellen, so dass letztere künftig "nicht mehr übersehen werden können" .


Relevante Themen