Hitzewelle: Google erklärt Ausfall des Londoner Rechenzentrums

Hohe Temperaturen, defekte Kühlsysteme und Fehler: Beim Ausfall eines Rechenzentrums von Google lief einiges schief.

Artikel veröffentlicht am , Johannes Hiltscher
Ein Rechenzentrum von Google, allerdings in Iowa - vorn die Wärmetauscher des Kühlsystems
Ein Rechenzentrum von Google, allerdings in Iowa - vorn die Wärmetauscher des Kühlsystems (Bild: Chad Davis, Flickr/CC-BY 2.0)

Nach mehreren vorläufigen Berichten hat Google die abschließende Analyse zum Ausfall eines Rechenzentrums in London veröffentlicht. Die gute Nachricht: Das Kühlsystem hätte die Rekordhitze von 40° C am 19. Juli 2022 verkraftet - wären nicht mehrere der redundanten Kühlsysteme gleichzeitig ausgefallen.

Stellenmarkt
  1. IT Rolloutmitarbeiter BLIE-Services (w/m/d)
    Bechtle Onsite Services GmbH, Hannover
  2. Systemadministrator (MacOS/iOS) (m/w/d)
    Hays AG, Düsseldorf
Detailsuche

Minutiös dokumentiert der Bericht die Vorgänge: Das Kühlsystem fiel um 14:33 Uhr Ortszeit aus - kurz nach der höchsten gemessenen Temperatur. Da Reparaturen erforderlich waren und der Kühlbedarf des Rechenzentrums nicht ausreichend reduziert werden konnte, wurde es um 18:05 Uhr komplett heruntergefahren. Nach knapp vier Stunden, um 22:13 Uhr, waren die Arbeiten abgeschlossen, die Server konnten wieder hochgefahren werden. Damit begann die eigentliche Arbeit: Die ausgefallenen Clouddienste und abgeschalteten VMs mussten wiederhergestellt werden.

Für die Clouddienste war das am 20. Juli 2022 um 12:28 Uhr abgeschlossen, knapp 18,5 Stunden nach der Abschaltung aller Server. Bei den VMs der Compute Engine waren Googles Techniker schneller, hier war der Normalbetrieb bereits nach einem halben Tag größtenteils wiederhergestellt. Allerdings machte eine kleine Zahl - Google gibt 0,6 Prozent der in der Zone europe-west2-a laufenden VMs an - Probleme. Deren Wiederherstellung dauerte fast zwei Tage.

Ein Fehler verschlimmerte den Ausfall

Eigentlich hätte der Ausfall, der Googles Zone europe-west2-a betraf, relativ unauffällig bleiben sollen. Die Zone gehört zur Region europe-west2, nach Angaben von Google sollen Regionen den Ausfall einer Zone verkraften. Ein Fehler bei der Neukonfiguration der Netzwerkrouten setzte allerdings die Speicherdienste in der gesamten Region außer Gefecht.

Golem Karrierewelt
  1. Kubernetes Dive-in-Workshop: virtueller Drei-Tage-Workshop
    11.-13.10.2022, Virtuell
  2. Deep-Dive Kubernetes – Observability, Monitoring & Alerting: virtueller Ein-Tages-Workshop
    22.09.2022, Virtuell
Weitere IT-Trainings

Eigentlich hätte nur die betroffene Zone a abgehängt werden sollen - stattdessen wurden alle drei Zonen aus Googles internem Routing entfernt. Bis der Fehler korrigiert war, dauerte es ganze sechs Stunden, betroffen waren BigQuery und Cloud Storage. In beiden Fällen konnten einige Nutzer gar nicht mehr auf ihre Daten zugreifen, allgemein war die Verfügbarkeit reduziert.

Lektionen für die Zukunft

Neben der Analyse hat Google fünf Punkte herausgearbeitet, um zukünftig besser auf ähnliche Probleme reagieren zu können. Zuerst sollen Fehler bei der Zonenumstellung einiger Dienste analysiert und die Mechanismen verbessert werden. Auch das thermische Lastmanagement soll überarbeitet werden, um in Zukunft bei Problemen am Kühlsystem nicht das ganze Rechenzentrum abschalten zu müssen. Auch laufen noch Analysen, um herauszufinden, weshalb mehrere Kühlsysteme gleichzeitig ausfielen. Andere Rechenzentren sollen auf ähnliche Schwachstellen untersucht werden, und auch die Wiederherstellung soll künftig schneller gehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Manipulierte Ausweise  
CCC macht Videoident kaputt

Hinter dem Stopp von Videoident-Verfahren bei den Krankenkassen steckt ein Hack des Chaos Computer Clubs. Der Verein fordert weitere Konsequenzen.

Manipulierte Ausweise: CCC macht Videoident kaputt
Artikel
  1. Elektrischer Sattelschlepper: Tesla Semi soll noch 2022 ausgeliefert werden
    Elektrischer Sattelschlepper
    Tesla Semi soll noch 2022 ausgeliefert werden

    Der elektrische Sattelschlepper Tesla Semi soll Ende 2022 auf den Markt kommen - nicht erst ein Jahr später. Das hat Elon Musk klargestellt.

  2. Betaprofiles.com und IPSW.dev: Apple geht wohl gegen Verbreitung von Entwickler-Betas vor
    Betaprofiles.com und IPSW.dev
    Apple geht wohl gegen Verbreitung von Entwickler-Betas vor

    Die Websites Betaprofiles.com und IPSW.dev sind nicht mehr erreichbar. Sie verbreiteten Entwicklerbetas von Apple.

  3. Nürburgring: Porsche Taycan erzielt Rekord auf Nordschleife
    Nürburgring
    Porsche Taycan erzielt Rekord auf Nordschleife

    Ein serienmäßiger Porsche Taycan Turbo S hat einen Rekord für die schnellste Durchfahrt der Nordschleife des Nürburgrings erzielt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Samsung SSD 2TB Heatsink (PS5) 219,99€ • ebay Re-Store bis -50% gg. Neupreis • Grafikkarten zu Tiefpreisen (Gigabyte RTX 3080 12GB 859€) • MSI-Sale: Gaming-Laptops/PCs bis -30% • Sharkoon PC-Gehäuse -53% • Philips Hue -46% • Der beste Gaming-PC für 2.000€ [Werbung]
    •  /