Cloud-Ausfall: Automatisierte Pflege hat Google-Server offline genommen

Eine falsche Konfiguration und ein Softwarebug haben in der Google-Cloud dazu geführt, dass Server automatisch für die Pflege vom Netz getrennt worden sind. Der Netzwerkausfall hat weitreichende Folgen gehabt.

Artikel veröffentlicht am ,
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen.
Der massive Ausfall der Google-Cloud führte selbst beim Beheben des Fehlers noch zu Problemen. (Bild: Mark Hougaard Jensen, flickr.com/CC-BY-SA 2.0)

Google hat Details zum Ausfall seines Cloud-Netzwerks am vergangenen Wochenende veröffentlicht. Wie bereits kurz nach dem Vorfall bekannt wurde, wurden die Probleme durch eine Fehlkonfiguration ausgelöst. In seiner offiziellen Analyse, dem sogenannten Postmortem, beschreibt Google nun darüber hinaus, dass der Ausfall zumindest teilweise auf Fehler bei der Automatisierung zur Pflege der Server zurückzuführen sei.

Stellenmarkt
  1. IT-Professional (m/w/d) - Systemverwaltung
    Polizeipräsidium Oberbayern Süd, Rosenheim
  2. IT-Systemingenieur (m/w/d) Active Directory / Exchange
    Helios IT Service GmbH, Berlin
Detailsuche

Wie das Unternehmen schreibt, wurden zunächst wie vorgesehen verschiedene Aufgaben der Kontrollebene für das Netzwerk gestoppt, um bevorstehende Wartungsarbeiten durchführen zu können. Darüber hinaus wurden mehrere Cluster-Instanzen für die Netzwerkkontrolle als geeignet für einen seltenen Wartungsfall markiert.

Unerwünschte Kettenreaktion

Die Software, welche die Wartungsroutine anstößt, hatte laut Google aber einen Bug. Dieser führte dazu, dass mehrere der unabhängigen Cluster gleichzeitig dazu aufgefordert wurden, ihren Dienst einzustellen. Entscheidend sei gewesen, dass dies sogar Cluster betroffen habe, die an anderen Standorten benutzt würden.

Eigentlich sollten nur einige der Server an einem bestimmten Ort offline genommen werden, diese waren aber wiederum zur Netzwerkverwaltung für andere Standorte zuständig. Die Automatisierung nahm schließlich alle Server offline, die in diesem Abhängigkeitsbereich waren - und zwar unabhängig von ihrem physischen Standort.

Zu wenig Netzwerkkapazität zum Debuggen

Golem Akademie
  1. Java EE 8 Komplettkurs: virtueller Fünf-Tage-Workshop
    24.–28. Januar 2022, virtuell
  2. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    8.–11. März 2021, Virtuell
Weitere IT-Trainings

Googles Netzwerke sollen darüber hinaus solche Ausfälle überstehen und ohne Kontrollebene weiterlaufen können. Das sei auch für wenige Minuten geschehen, allerdings sei dann das BGP-Routing zwischen den Standorten zurückgezogen worden. Dadurch seien die verfügbaren Kapazitäten massiv reduziert worden.

Der Fehler sei zwar schnell bemerkt worden. Seine Behebung sei aber durch die Überlastung des Netzwerks behindert worden. Es sei deshalb zu einem "Totalschaden" an den Werkzeugen gekommen. Letztlich mussten die Beteiligten den Fehler unter anderem auch vor Ort im Rechenzentrum beheben, was viel Zeit kostete.

Zudem dauert es auch sehr lange, nach dem Auffinden und Beheben des Fehlers die funktionierende Netzwerkkonfiguration wiederherzustellen. Die Kombination dieser vielen Verzögerungen führte schließlich zu dem Ausfall der betroffenen Dienste von ungefähr vier Stunden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Osterschlumpf 09. Jun 2019

Wenn Google sein System so weit hin optimiert hat, daß BGP sich automatisch abschaltet...

Jakelandiar 07. Jun 2019

Ich auch. Sehr schnell. Manch andere haben da 4 stunden reaktionszeit und fangen dann...

schap23 07. Jun 2019

Fehler passieren überall. Es ist aber vorbildlich für die Industrie, wie Google (und...



Aktuell auf der Startseite von Golem.de
Softwarepatent
Uraltpatent könnte Microsoft Millionen kosten

Microsoft hat eine Klage um ein Software-Patent vor dem BGH verloren. Das Patent beschreibt Grundlagentechnik und könnte zahlreiche weitere Cloud-Anbieter betreffen.
Ein Bericht von Stefan Krempl

Softwarepatent: Uraltpatent könnte Microsoft Millionen kosten
Artikel
  1. Krypto: Angeblicher Nakamoto darf 1,1 Millionen Bitcoin behalten
    Krypto
    Angeblicher Nakamoto darf 1,1 Millionen Bitcoin behalten

    Ein Gericht hat entschieden, dass Craig Wright der Familie seines Geschäftspartners keine Bitcoins schuldet - kommt jetzt der Beweis, dass er Satoshi Nakamoto ist?

  2. Tim Cook: Apple traf geheime Absprache mit chinesischer Regierung
    Tim Cook
    Apple traf geheime Absprache mit chinesischer Regierung

    Tim Cook soll 2016 in China für Apple lobbyiert haben - der Deal soll 275 Milliarden US-Dollar wert sein. Öffentlich gemacht wurde die Absprache nicht.

  3. Spielfilm: Matrix trifft Unreal Engine 5
    Spielfilm
    Matrix trifft Unreal Engine 5

    Ist der echt? Neo taucht in einem interaktiven Programm auf Basis der Unreal Engine 5 auf. Der Preload ist bereits möglich.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MM Weihnachtsgeschenkt (u. a. 3 Spiele kaufen, nur 2 bezahlen) • PS5 & Xbox Series X mit o2-Vertrag bestellbar • Apple Days bei Saturn (u. a. MacBook Air M1 949€) • Switch OLED 349,99€ • Saturn-Advent: HP Reverb G2 + Controller 499,99€ • Logitech MX Keys Mini 89,99€ [Werbung]
    •  /