Zum Hauptinhalt Zur Navigation

Load Balancer: Google-Cloud-Probleme wegen unerwarteter Neustarts

Ein bei Tests nicht entdeckter Fehler hat in der Load-Balancer-Infrastruktur von Google für unerwartete Neustarts der Server gesorgt und somit den Dienst massiv beeinträchtigt. Davon waren auch externe Anbieter wie Spotify oder Snapchat betroffen.
/ Sebastian Grüner
3 Kommentare News folgen (öffnet im neuen Fenster)
Die Verbindung von Nutzern mit Google-Cloud-Diensten war am Dienstag kurzzeitig gestört. (Bild: Google)
Die Verbindung von Nutzern mit Google-Cloud-Diensten war am Dienstag kurzzeitig gestört. Bild: Google

Die Probleme mit verschiedenen Cloud-Diensten von Google am vergangenen Dienstagabend (MESZ), dem 17. Juli 2018, sind auf unerwartete Server-Neustarts zurückzuführen. Das geht aus der versprochenen detaillierten Analyse hervor, die Google veröffentlicht hat(öffnet im neuen Fenster) . Die Ursache der Ausfälle, von denen auch Drittanbieter von Spotify oder Snapchat betroffen waren, lag demnach wie vermutet tatsächlich in einem Fehler in der Load-Balancing-Infrastruktur von Google.

Die Load Balancer des Unternehmens sind üblicherweise der erste Kontaktpunkt für Netzwerkverkehr von außen in das interne Netz von Google. Das Unternehmen bezeichnet den Dienst deshalb auch als Google Front End (GFE). Die GFE-Dienste sind zudem zweigeteilt. Die erste Schicht beantwortet demnach Anfragen von Nutzern an dem ihnen nächstgelegenen Netzwerkknoten von Google. Diese Anfragen werden dann in einer zweiten GFE-Schicht zu dem nächstgelegenen Knoten weitergeleitet, an dem der angefragte Dienst zur Verfügung steht.

Neustarts verringern Server-Kapazität

Laut Google hat das GFE-Entwicklungsteam neue Funktionen in dem Dienst ausgerollt, von denen eine Neuerung einen zuvor unentdeckten Fehler enthielt. Dieser Fehler sei weder durch das Testen noch durch das initiale Ausrollen aufgefallen, sondern erst durch eine bestimmte Konfigurationsänderung zeitweise ausgelöst worden. Das wiederum habe für wiederholte Neustarts der GFE-Server gesorgt.

Da solch ein Server-Neustart natürlich einiges an Zeit benötigt, sei die verfügbare Kapazität der zweiten GFE-Schicht deutlich reduziert worden. Das habe dazu geführt, dass nur einige wenige Anfragen hätten beantwortet werden können, Anfragen zurückgesetzt oder von vornherein direkt zurückgewiesen worden seien, schreibt Google. Die Fehlerrate der Server habe zwischen 33 und 87 Prozent gelegen.

Von dem Ausfall betroffene Kunden sollen mit Gutschriften, sogenannten SLA-Credits, entschädigt werden.


Relevante Themen