Abo
  • IT-Karriere:

Cloud-Ausfall: Automatisierte Pflege hat Google-Server offline genommen

Eine falsche Konfiguration und ein Softwarebug haben in der Google-Cloud dazu geführt, dass Server automatisch für die Pflege vom Netz getrennt worden sind. Der Netzwerkausfall hat weitreichende Folgen gehabt.

Artikel veröffentlicht am ,
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen.
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen. (Bild: Mark Hougaard Jensen, flickr.com/CC-BY-SA 2.0)

Google hat Details zum Ausfall seines Cloud-Netzwerks am vergangenen Wochenende veröffentlicht. Wie bereits kurz nach dem Vorfall bekannt wurde, wurden die Probleme durch eine Fehlkonfiguration ausgelöst. In seiner offiziellen Analyse, dem sogenannten Postmortem, beschreibt Google nun darüber hinaus, dass der Ausfall zumindest teilweise auf Fehler bei der Automatisierung zur Pflege der Server zurückzuführen sei.

Stellenmarkt
  1. WBS GRUPPE, Berlin
  2. BWI GmbH, Bonn

Wie das Unternehmen schreibt, wurden zunächst wie vorgesehen verschiedene Aufgaben der Kontrollebene für das Netzwerk gestoppt, um bevorstehende Wartungsarbeiten durchführen zu können. Darüber hinaus wurden mehrere Cluster-Instanzen für die Netzwerkkontrolle als geeignet für einen seltenen Wartungsfall markiert.

Unerwünschte Kettenreaktion

Die Software, welche die Wartungsroutine anstößt, hatte laut Google aber einen Bug. Dieser führte dazu, dass mehrere der unabhängigen Cluster gleichzeitig dazu aufgefordert wurden, ihren Dienst einzustellen. Entscheidend sei gewesen, dass dies sogar Cluster betroffen habe, die an anderen Standorten benutzt würden.

Eigentlich sollten nur einige der Server an einem bestimmten Ort offline genommen werden, diese waren aber wiederum zur Netzwerkverwaltung für andere Standorte zuständig. Die Automatisierung nahm schließlich alle Server offline, die in diesem Abhängigkeitsbereich waren - und zwar unabhängig von ihrem physischen Standort.

Zu wenig Netzwerkkapazität zum Debuggen

Googles Netzwerke sollen darüber hinaus solche Ausfälle überstehen und ohne Kontrollebene weiterlaufen können. Das sei auch für wenige Minuten geschehen, allerdings sei dann das BGP-Routing zwischen den Standorten zurückgezogen worden. Dadurch seien die verfügbaren Kapazitäten massiv reduziert worden.

Der Fehler sei zwar schnell bemerkt worden. Seine Behebung sei aber durch die Überlastung des Netzwerks behindert worden. Es sei deshalb zu einem "Totalschaden" an den Werkzeugen gekommen. Letztlich mussten die Beteiligten den Fehler unter anderem auch vor Ort im Rechenzentrum beheben, was viel Zeit kostete.

Zudem dauert es auch sehr lange, nach dem Auffinden und Beheben des Fehlers die funktionierende Netzwerkkonfiguration wiederherzustellen. Die Kombination dieser vielen Verzögerungen führte schließlich zu dem Ausfall der betroffenen Dienste von ungefähr vier Stunden.



Anzeige
Hardware-Angebote
  1. 294€

Osterschlumpf 09. Jun 2019 / Themenstart

Wenn Google sein System so weit hin optimiert hat, daß BGP sich automatisch abschaltet...

Jakelandiar 07. Jun 2019 / Themenstart

Ich auch. Sehr schnell. Manch andere haben da 4 stunden reaktionszeit und fangen dann...

schap23 07. Jun 2019 / Themenstart

Fehler passieren überall. Es ist aber vorbildlich für die Industrie, wie Google (und...

Kommentieren


Folgen Sie uns
       


Akku-Recycling bei Duesenfeld

Das Unternehmen Duesenfeld aus Peine hat ein Verfahren für das Recycling von Elektroauto-Akkus entwickelt.

Akku-Recycling bei Duesenfeld Video aufrufen
Wolfenstein Youngblood angespielt: Warum wurden diese dämlichen Mädchen nicht aufgehalten!?
Wolfenstein Youngblood angespielt
"Warum wurden diese dämlichen Mädchen nicht aufgehalten!?"

E3 2019 Der erste Kill ist der schwerste: In Wolfenstein Youngblood kämpfen die beiden Töchter von B.J. Blazkowicz gegen Nazis. Golem.de hat sich mit Jess und Soph durch einen Zeppelin über dem belagerten Paris gekämpft.
Von Peter Steinlechner


    Ada und Spark: Mehr Sicherheit durch bessere Programmiersprachen
    Ada und Spark
    Mehr Sicherheit durch bessere Programmiersprachen

    Viele Sicherheitslücken in Software sind auf Programmierfehler zurückzuführen. Diese Fehler lassen sich aber vermeiden - und zwar unter anderem durch die Wahl einer guten Programmiersprache. Ada und Spark gehören dazu, leider sind sie immer noch wenig bekannt.
    Von Johannes Kanig

    1. Das andere How-to Deutsch lernen für Programmierer
    2. Programmiersprachen, Pakete, IDEs So steigen Entwickler in Machine Learning ein
    3. Software-Entwickler Welche Programmiersprache soll ich lernen?

    Final Fantasy 7 Remake angespielt: Cloud Strife und die (fast) unendliche Geschichte
    Final Fantasy 7 Remake angespielt
    Cloud Strife und die (fast) unendliche Geschichte

    E3 2019 Das Remake von Final Fantasy 7 wird ein Riesenprojekt, allein die erste Episode erscheint auf zwei Blu-ray-Discs. Kurios: In wie viele Folgen das bereits enorm umfangreiche Original von 1997 aufgeteilt wird, kann bislang nicht mal der Producer sagen.

    1. Final Fantasy 14 Online Report Zwischen Cosplay, Kirmes und Kampfsystem
    2. Square Enix Final Fantasy 14 erhält Solo-Inhalte und besonderen Magier
    3. Rollenspiel Square Enix streicht Erweiterungen für Final Fantasy 15

      •  /