Zum Hauptinhalt Zur Navigation

Ausfall der Google Cloud: Codeänderung war nicht abgesichert

Nachdem ein Ausfall der Cloud von Google massive Störungen verursachte, nennt das Unternehmen die Gründe und verspricht Besserung.
/ Mike Faust
15 Kommentare News folgen (öffnet im neuen Fenster)
Google-Cloud-Kunden konnten bis zu drei Stunden nicht auf ihre Dienste zugreifen. (Bild: Reuters)
Google-Cloud-Kunden konnten bis zu drei Stunden nicht auf ihre Dienste zugreifen. Bild: Reuters

Am 12. Juni 2025 sorgte ein Ausfall der Google Cloud dafür, das große Kunden mindestens drei Stunden nicht auf die gemietete Infrastruktur zugreifen konnten, dazu gehörte auch Cloudflare. Wie Google nun in einem Beitrag erklärt(öffnet im neuen Fenster) , wurde der Ausfall durch eine Funktion ausgelöst, die am 29. Mai 2025 einem als Service Control bezeichneten Teil des Richtlinienprüfungssystems zugefügt worden war.

"Service Control ist ein regionaler Dienst, der einen regionalen Datenspeicher hat, aus dem er Kontingent- und Richtlinieninformationen liest" , heißt es in dem Text. "Die Metadaten des Datenspeichers werden fast sofort weltweit repliziert, um die Kontingentrichtlinien für Google Cloud und unsere Kunden zu verwalten."

Am 12. Juni 2025 wurde eine Richtlinienänderung eingeführt, die auf Service Control zugreift und innerhalb weniger Sekunden weltweit repliziert wurde. Die neuen Daten enthielten unbeabsichtigt leere Felder, die bei der Übernahme der Änderungen von der neuen Service-Control-Funktion abgerufen wurden und zu einer Absturzschleife führten.

Fehler bereits nach zwei Minuten erkannt

Die Service-Control-Funktion wurde während der Einführung nie ausgeführt, weil dafür eine Richtlinienänderung erforderlich gewesen wäre, heißt es in dem Bericht weiter. Zwar wurde eine Methode implementiert, mit der sich der zugehörige Richtlinienpfad hätte deaktivieren lassen, die neue Funktion verfügte jedoch über keine angemessene Fehlerbehandlung und über kein Feature Flag, mit dem sich diese hätte überspringen lassen.

Laut Google haben die Ingenieure den Vorfall binnen zwei Minuten erkannt und die Ursache nach zehn Minuten identifiziert. Innerhalb von 40 Minuten sei mit der Wiederherstellung begonnen worden. In einigen größeren Google-Cloud-Regionen soll es durch den Neustart von Service Control allerdings zu einer Überlastung der Infrastruktur gekommen sein, die nicht dafür ausgelegt gewesen sei, mit solchen Situationen umzugehen. Dadurch verzögerte sich die Behebung des Problems um bis zu drei Stunden.

Neben einer Verbesserung der Kommunikation mit den Kunden verspricht das Unternehmen, dass man sicherstellen wolle, die eigene Überwachungs- und Kommunikationsinfrastruktur auch dann betriebsbereit zu halten, wenn Google Cloud und deren primäre Überwachungsprodukte ausfallen.


Relevante Themen