Rechenzentrum: Zerquetschtes Rad verursachte Serverproblem bei Google

Manchmal haben kleine Dinge großen Einfluss. Ein Motto: "Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein".

Artikel veröffentlicht am ,
Da hat jemand die preiswerten Rollen gekauft.
Da hat jemand die preiswerten Rollen gekauft. (Bild: Google)

Google hat vor kurzem einen Troubleshooting-Bericht geteilt, der zeigt, dass Fehler manchmal regelrecht auf dem Boden des Rechenzentrums zu finden sind. Das zeigt ein Fall, bei dem das Team eine ungewöhnlich hohe CPU-Last und Temperatur in einem Server-Rack festgestellt hat. Der Grund: Eine Rolle des Serverschranks wurde unter dem Gewicht der schweren installierten Hardware zerquetscht. Das gesamte Rack ist so nach vorn gekippt, dass der Fluss der Wasserkühlung beeinträchtigt und die Kühlleistung verringert wird. Daraus folgte, dass sich die Hardware gedrosselt hat, um nicht abzuschalten.

Stellenmarkt
  1. Mitarbeiter (m/w/d) First Level Support/IT-Service Desk
    WDR mediagroup digital GmbH, Köln
  2. ERP Consultant / Projektmanager (m/w/d)
    Rhenus Media Systems GmbH & Co. KG, Augsburg (Home-Office möglich)
Detailsuche

"Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein", lautet ein Ausspruch des Site-Reliability-Engineering-Teams des Unternehmens. Der Vorfall ist ein Aufhänger für Googles Prinzip, mehr Ressourcen als nötig zur Verfügung zu stellen. Das Unternehmen gibt an, dass die Drosselung eines Servers ein Ereignis ist, das innerhalb der Fehlertoleranz liegt. Diese Within-Error-Budget-Events seien eingeplant und sollten nicht dafür sorgen, dass Kunden eine Leistungsminderung mitbekämen.

Viele Schritte bis zum Fehler

Im Fall des beschädigten Serverschranks hatten Google-Entwickler das System direkt offline genommen, um Fehler durch die beeinträchtigte Hardware auf Softwareebene zu verhindern, was Kunden mitbekommen hätten. Danach konnte das zuständige Edge-Network-Team im Rechenzentrum Netzwerkprobleme und Paketverlust feststellen. Das ständige Wechseln von Netzwerkrouten durch BGP-Flapping gab den Admins den entscheidenden Hinweis: Der Fehler musste an der Hardware selbst liegen.

Weitere Untersuchungen ergaben, dass betroffene Hardware in einem einzelnen Rack installiert wurde. Google hat daraufhin einen Reparaturauftrag für die betroffene Hardware aufgegeben. Erst dann hat ein Techniker vor Ort bemerkt, dass nichts repariert werden musste - zumindest keine Hardware an sich. "Die Rollen an der Rückseite sind zerstört worden und die Maschinen überhitzen, weil sie dadurch angekippt wurden", hieß es in einer Nachricht an das Google-Team.

Golem Karrierewelt
  1. Deep Dive: Data Governance Fundamentals: virtueller Ein-Tages-Workshop
    22.02.2023, Virtuell
  2. Angular für Einsteiger: virtueller Zwei-Tage-Workshop
    26./27.01.2023, Virtuell
Weitere IT-Trainings

Googles These bestätigte sich also: Selbst die unwahrscheinlichsten Dinge können bei einer so großen Menge an Hardware eintreten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anonymer Nutzer 20. Mär 2020

Bei uns im RZ kann man diese gut erreichen. Aber wenn man den Platz dahinter spart und...

Eheran 19. Mär 2020

Gibt es dafür eine Quelle? Möglichst das Temperaturlimit ausnutzen ist ja schon logisch...

TW1920 19. Mär 2020

Und das hat mich erinnert meinen eigenen Vorrat aufzufüllen - hatte auch nur noch eine...

SchrubbelDrubbel 18. Mär 2020

Wer tot ist, brauchts nicht mehr ;-)



Aktuell auf der Startseite von Golem.de
Netztest
Telekom hat laut Connect das fast perfekte Mobilfunknetz

Bei der Reichweite der Breitbandversorgung überholt Telefónica den Konkurrenten Vodafone. Die Telekom erhält 952 von maximal 1.000 Punkten.

Netztest: Telekom hat laut Connect das fast perfekte Mobilfunknetz
Artikel
  1. Oceanic+: Apple Watch Ultra wird zum Tauchcomputer
    Oceanic+
    Apple Watch Ultra wird zum Tauchcomputer

    Die für die Apple Watch Ultra angekündigte App Oceanic+ ist erschienen. Damit wird die Smartwatch zum Tauchcomputer.

  2. Projekt Highland: Tesla plant neues Model 3 mit deutlichen Veränderungen
    Projekt Highland
    Tesla plant neues Model 3 mit deutlichen Veränderungen

    Tesla will offenbar das Innere und Äußere des Model 3 überarbeiten. 2023 könnte das neue Modell erscheinen.

  3. Netzwerkprotokoll: Was Admins und Entwickler über IPv6 wissen müssen
    Netzwerkprotokoll
    Was Admins und Entwickler über IPv6 wissen müssen

    Sogar für IT-Profis scheint das Netzwerkprotokoll IPv6 oft ein Buch mit sieben Siegeln - und stößt bei ihnen nicht auf bedingungslose Liebe. Wir überprüfen die Vorbehalte in der Praxis und geben Tipps.
    Von Jochen Demmer

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar: Intel Core i7 12700K 359€ • Gigabyte RX 6900 XT 799€ • Gamesplanet Winter Sale - neue Angebote • WD_BLACK SN850 1TB 129€ [Werbung]
    •  /