Abo
  • IT-Karriere:

Cloud-Ausfall: Automatisierte Pflege hat Google-Server offline genommen

Eine falsche Konfiguration und ein Softwarebug haben in der Google-Cloud dazu geführt, dass Server automatisch für die Pflege vom Netz getrennt worden sind. Der Netzwerkausfall hat weitreichende Folgen gehabt.

Artikel veröffentlicht am ,
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen.
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen. (Bild: Mark Hougaard Jensen, flickr.com/CC-BY-SA 2.0)

Google hat Details zum Ausfall seines Cloud-Netzwerks am vergangenen Wochenende veröffentlicht. Wie bereits kurz nach dem Vorfall bekannt wurde, wurden die Probleme durch eine Fehlkonfiguration ausgelöst. In seiner offiziellen Analyse, dem sogenannten Postmortem, beschreibt Google nun darüber hinaus, dass der Ausfall zumindest teilweise auf Fehler bei der Automatisierung zur Pflege der Server zurückzuführen sei.

Stellenmarkt
  1. MVV Umwelt Asset GmbH, Mannheim
  2. Kraftwerke Mainz-Wiesbaden AG, Mainz

Wie das Unternehmen schreibt, wurden zunächst wie vorgesehen verschiedene Aufgaben der Kontrollebene für das Netzwerk gestoppt, um bevorstehende Wartungsarbeiten durchführen zu können. Darüber hinaus wurden mehrere Cluster-Instanzen für die Netzwerkkontrolle als geeignet für einen seltenen Wartungsfall markiert.

Unerwünschte Kettenreaktion

Die Software, welche die Wartungsroutine anstößt, hatte laut Google aber einen Bug. Dieser führte dazu, dass mehrere der unabhängigen Cluster gleichzeitig dazu aufgefordert wurden, ihren Dienst einzustellen. Entscheidend sei gewesen, dass dies sogar Cluster betroffen habe, die an anderen Standorten benutzt würden.

Eigentlich sollten nur einige der Server an einem bestimmten Ort offline genommen werden, diese waren aber wiederum zur Netzwerkverwaltung für andere Standorte zuständig. Die Automatisierung nahm schließlich alle Server offline, die in diesem Abhängigkeitsbereich waren - und zwar unabhängig von ihrem physischen Standort.

Zu wenig Netzwerkkapazität zum Debuggen

Googles Netzwerke sollen darüber hinaus solche Ausfälle überstehen und ohne Kontrollebene weiterlaufen können. Das sei auch für wenige Minuten geschehen, allerdings sei dann das BGP-Routing zwischen den Standorten zurückgezogen worden. Dadurch seien die verfügbaren Kapazitäten massiv reduziert worden.

Der Fehler sei zwar schnell bemerkt worden. Seine Behebung sei aber durch die Überlastung des Netzwerks behindert worden. Es sei deshalb zu einem "Totalschaden" an den Werkzeugen gekommen. Letztlich mussten die Beteiligten den Fehler unter anderem auch vor Ort im Rechenzentrum beheben, was viel Zeit kostete.

Zudem dauert es auch sehr lange, nach dem Auffinden und Beheben des Fehlers die funktionierende Netzwerkkonfiguration wiederherzustellen. Die Kombination dieser vielen Verzögerungen führte schließlich zu dem Ausfall der betroffenen Dienste von ungefähr vier Stunden.



Anzeige
Spiele-Angebote
  1. 4,99€
  2. 2,99€
  3. 25,99€
  4. 24,99€

Osterschlumpf 09. Jun 2019

Wenn Google sein System so weit hin optimiert hat, daß BGP sich automatisch abschaltet...

Jakelandiar 07. Jun 2019

Ich auch. Sehr schnell. Manch andere haben da 4 stunden reaktionszeit und fangen dann...

schap23 07. Jun 2019

Fehler passieren überall. Es ist aber vorbildlich für die Industrie, wie Google (und...


Folgen Sie uns
       


Doom 1 in der Doom 3 Engine angespielt

Doom Reborn benötigt eine Vollversion von Doom 3 und ist bei moddb.com kostenlos erhältlich. Die Mod wurde von Michael Hanlon entwickelt.

Doom 1 in der Doom 3 Engine angespielt Video aufrufen
Nachhaltigkeit: Jute im Plastik
Nachhaltigkeit
Jute im Plastik

Baustoff- und Autohersteller nutzen sie zunehmend, doch etabliert sind Verbundwerkstoffe mit Naturfasern noch lange nicht. Dabei gibt es gute Gründe, sie einzusetzen, Umweltschutz ist nur einer von vielen.
Ein Bericht von Werner Pluta

  1. Nachhaltigkeit Bauen fürs Klima
  2. Autos Elektro, Brennstoffzelle oder Diesel?
  3. Energie Wo die Wasserstoffqualität getestet wird

Google Maps: Karten brauchen Menschen statt Maschinen
Google Maps
Karten brauchen Menschen statt Maschinen

Wenn Karten nicht mehr von Menschen, sondern allein von Maschinen erstellt werden, erfinden diese U-Bahn-Linien, Hochhäuser im Nationalpark und unmögliche Routen. Ein kurze Liste zu den Grenzen der Automatisierung.
Von Sebastian Grüner

  1. Kartendienst Google bringt AR-Navigation und Reiseinformationen in Maps
  2. Maps Duckduckgo mit Kartendienst von Apple
  3. Google Maps zeigt Bikesharing in Berlin, Hamburg, Wien und Zürich

Zephyrus G GA502 im Test: Das Gaming-Notebook, das auch zum Arbeiten taugt
Zephyrus G GA502 im Test
Das Gaming-Notebook, das auch zum Arbeiten taugt

Mit AMDs Ryzen 7 und Nvidia-GPU ist das Zephyrus G GA502 ein klares Gaming-Gerät. Überraschenderweise eignet es sich aber auch als mobiles Office-Notebook. Das liegt an der beeindruckenden Akkulaufzeit.
Ein Test von Oliver Nickel

  1. Vivobook (X403) Asus packt 72-Wh-Akku in günstigen 14-Zöller
  2. ROG Swift PG35VQ Asus' 35-Zoll-Display nutzt 200 Hz, HDR und G-Sync
  3. ROG Gaming Phone II Asus plant neue Version seines Gaming-Smartphones

    •  /