Gmail, GCP, Youtube: Service-Quota von 0 führte zu massivem Google-Ausfall
Meldet ein Dienst, dass er nicht benutzt wird, braucht er auch keine Ressourcen. Das hat sämtliche Google-Dienste ausfallen lassen.

Das Team von Googles Cloud-Infrastruktur hat eine detaillierte Analyse zu dem massiven Ausfall von vergangener Woche veröffentlicht. Der Fehler sorgte dafür, dass die authentifizierte Nutzung aller Google-Dienste nicht mehr möglich war. Dazu gehörten etwa Gmail, Youtube, der Play-Store und viele weitere Dienste. Der Anbieter hatte bereits bestätigt, dass dies an einem Fehler im Zusammenhang mit internen Quota-Regeln zusammenhing. Wie Google nun schreibt, lag das Quota bei 0.
Ein Reihe von verschiedenen Umständen hat zu dieser Hauptursache geführt, wie das Team nun schreibt. So heißt es zur Authentifizierung selbst: "Der Google User ID Service verwaltet für jedes Konto eine eindeutige Kennung und Authentifizierungsdaten für OAuth-Token und Cookies. Er speichert Kontodaten in einer verteilten Datenbank, die Paxos-Protokolle verwendet, um Aktualisierungen zu koordinieren. Aus Sicherheitsgründen lehnt dieser Dienst Anforderungen ab, wenn veraltete Daten erkannt werden."
Wie es weiter heißt, nutzt Google eine Reihe von Automatisierungswerkzeugen, um die Quota-Regeln für verschiedene Ressourcen zu verwalten. Hinzu kommt, dass das Unternehmen den Google User ID Service auf ein neues Quota-System migriert hat. Dabei verblieben aber alte Teile in dem neuen System, was letztlich dazu führte, dass die Nutzung des Dienstes selbst mit 0 angegeben wurde. In den Überprüfungsregeln zum Quota-System ist dieser Fall bisher nicht vorgesehen gewesen.
Letztendlich wurde das Quota für die Account-Datenbank heruntergesetzt, so dass keine neue Daten geschrieben werden konnten. Kurz darauf waren die Lese-Operationen damit veraltet, was zu Fehlern beim Nachschlagen der Authentifizierungsdaten führte. Da sämtliche Google-Dienste den eigenen Anmeldedienst nutzen, konnten diese eben alle nicht verwendet werden. Eine Nutzung ohne Authentifizierung war aber weiter möglich.
Als unmittelbare Lösung für das Problem wurde die Durchsetzung der Quota-Regeln aufgehoben und dies dann auf alle Rechenzentren des Unternehmens übertragen, so dass die einzelnen Dienste schnell wieder verfügbar waren. Als langfristige Lösung will Google die Ausfallsicherheit des Authentifizierungsdienstes verbessern, damit künftig ähnliches nicht mehr passiert.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Konnte man auch: Private Window im Browser auf, und man konnte Youtube im anonymen Modus...
So wie ich das interpretiert habe, ist ungefähr folgendes passiert (hab's jetzt nicht...
War eigentlich eine Antwort auf einen Beitrag, wollte keinen neuen Thread öffnen...
99,999% = Faktor 0,00001, also etwa 5 Minuten 16 Sekunden pro Jahr. Dein Calculateme...
Alles mögliche kann ein Single point of Failure sein. Ein defekt repliziert sich auf alle...