Load Balancer: Google-Cloud-Probleme wegen unerwarteter Neustarts
Ein bei Tests nicht entdeckter Fehler hat in der Load-Balancer-Infrastruktur von Google für unerwartete Neustarts der Server gesorgt und somit den Dienst massiv beeinträchtigt. Davon waren auch externe Anbieter wie Spotify oder Snapchat betroffen.

Die Probleme mit verschiedenen Cloud-Diensten von Google am vergangenen Dienstagabend (MESZ), dem 17. Juli 2018, sind auf unerwartete Server-Neustarts zurückzuführen. Das geht aus der versprochenen detaillierten Analyse hervor, die Google veröffentlicht hat. Die Ursache der Ausfälle, von denen auch Drittanbieter von Spotify oder Snapchat betroffen waren, lag demnach wie vermutet tatsächlich in einem Fehler in der Load-Balancing-Infrastruktur von Google.
Die Load Balancer des Unternehmens sind üblicherweise der erste Kontaktpunkt für Netzwerkverkehr von außen in das interne Netz von Google. Das Unternehmen bezeichnet den Dienst deshalb auch als Google Front End (GFE). Die GFE-Dienste sind zudem zweigeteilt. Die erste Schicht beantwortet demnach Anfragen von Nutzern an dem ihnen nächstgelegenen Netzwerkknoten von Google. Diese Anfragen werden dann in einer zweiten GFE-Schicht zu dem nächstgelegenen Knoten weitergeleitet, an dem der angefragte Dienst zur Verfügung steht.
Neustarts verringern Server-Kapazität
Laut Google hat das GFE-Entwicklungsteam neue Funktionen in dem Dienst ausgerollt, von denen eine Neuerung einen zuvor unentdeckten Fehler enthielt. Dieser Fehler sei weder durch das Testen noch durch das initiale Ausrollen aufgefallen, sondern erst durch eine bestimmte Konfigurationsänderung zeitweise ausgelöst worden. Das wiederum habe für wiederholte Neustarts der GFE-Server gesorgt.
Da solch ein Server-Neustart natürlich einiges an Zeit benötigt, sei die verfügbare Kapazität der zweiten GFE-Schicht deutlich reduziert worden. Das habe dazu geführt, dass nur einige wenige Anfragen hätten beantwortet werden können, Anfragen zurückgesetzt oder von vornherein direkt zurückgewiesen worden seien, schreibt Google. Die Fehlerrate der Server habe zwischen 33 und 87 Prozent gelegen.
Von dem Ausfall betroffene Kunden sollen mit Gutschriften, sogenannten SLA-Credits, entschädigt werden.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Naja, wenn man nicht ordentlich arbeitet, sind fehler sehr wohl vorhersehbar. ¯\_...