502 Bad Gateway: Googles Load-Balancer nehmen Spotify kurzzeitig offline

Am vergangenen Dienstagabend, 17. Juli 2018, ging gegen 21:30 Uhr (MESZ) für die Nutzer vieler bekannter und vor allem trafficstarker Apps wie Spotify, Snapchat, Discord oder auch Pokémon Go für kurze Zeit nichts mehr. Der Grund dafür ist wohl in der Cloud-Infrastruktur von Google zu suchen. Denn wie das Unternehmen in einem Statusbericht(öffnet im neuen Fenster) mitteilt, lieferten die Google-Cloud-Global-Load-Balancer für etwa 40 Minuten den HTTP-Fehler 502 Bad Gateway.
Ihre eigentliche Aufgabe der Lastverteilung und damit das Weiterleiten des Traffics konnten die Dienste damit offenbar nicht wie vorgesehen umsetzen. Von dem Fehler in Googles Cloud-Infrastuktur waren offenbar auch weitere Dienste betroffen, wie etwa die Chatbot- und Kommunikationslösung Dialogflow, der Monitoringdienst Stackdriver(öffnet im neuen Fenster) oder die hauseigene Platform-as-a-Service-Lösung App Engine(öffnet im neuen Fenster) . Auch das Supportcenter für Googles Cloud war kurzzeitig nicht verfügbar(öffnet im neuen Fenster) , eventuell war dieses aber wegen der vielen Anfragen nur überlastet und nicht von dem technischen Fehler selbst betroffen.
Die Cloud-Infrastruktur von Google bildet ein weltumspannendes Netz, das wie bei der Konkurrenz von Amazons Webservices oder Microsofts Azure viele weitere Anbieter für den Aufbau ihrer eigenen Dienste als Backend nutzen. Fällt einer der Cloud-Dienste aus, fällt damit natürlich auch die App des Drittanbieters aus, die darauf aufbaut. Derartige Ausfälle kommen immer wieder vor. Für besonderes Aufsehen sorgten etwa die großen Probleme eines Amazon-Rechenzentrums , die durch einen DDoS-Angriff auf DynDNS provoziert worden waren.
Googles Netzwerk ist riesig
Besonders an dem beschriebenen Problem mit Googles Load-Balancern ist, dass diese üblicherweise der erste Kontaktpunkt für Netzwerkverkehr von außen in das interne Netz von Google sind. Das Unternehmen selbst gibt an, dass hierbei bis zu 25 Prozent des weltweiten Internetverkehrs an Googles Peering-Knoten vorbeilaufen . Verarbeitet wird der Verkehr nach dem Ansatz des Software Defined Networking (SDN) mit einer Software, die Google Espresso nennt.
Laut Ankündigung verteile Espresso den Netzwerkverkehr "auf der Grundlage tatsächlicher Leistungsdaten" und die Software könne so "in Echtzeit auf Ausfälle und Überlastung in unserem Netzwerk und im öffentlichen Internet reagieren" .
Google will zunächst Details zu dem Ausfall intern analysieren und seine Systeme gegen Ausfälle dieser Art in Zukunft besser schützen. Die detaillierte Analyse will das Unternehmen dann öffentlich bereitstellen, sobald die eigenen Untersuchungen abgeschlossen sind.



