Original-URL des Artikels: https://www.golem.de/news/rechenzentrum-zerquetschtes-rad-sorgte-fuer-serverproblem-bei-google-2003-147320.html    Veröffentlicht: 18.03.2020 11:32    Kurz-URL: https://glm.io/147320

Rechenzentrum

Zerquetschtes Rad verursachte Serverproblem bei Google

Manchmal haben kleine Dinge großen Einfluss. Ein Motto: "Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein".

Google hat vor kurzem einen Troubleshooting-Bericht geteilt, der zeigt, dass Fehler manchmal regelrecht auf dem Boden des Rechenzentrums zu finden sind. Das zeigt ein Fall, bei dem das Team eine ungewöhnlich hohe CPU-Last und Temperatur in einem Server-Rack festgestellt hat. Der Grund: Eine Rolle des Serverschranks wurde unter dem Gewicht der schweren installierten Hardware zerquetscht. Das gesamte Rack ist so nach vorn gekippt, dass der Fluss der Wasserkühlung beeinträchtigt und die Kühlleistung verringert wird. Daraus folgte, dass sich die Hardware gedrosselt hat, um nicht abzuschalten.

"Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein", lautet ein Ausspruch des Site-Reliability-Engineering-Teams des Unternehmens. Der Vorfall ist ein Aufhänger für Googles Prinzip, mehr Ressourcen als nötig zur Verfügung zu stellen. Das Unternehmen gibt an, dass die Drosselung eines Servers ein Ereignis ist, das innerhalb der Fehlertoleranz liegt. Diese Within-Error-Budget-Events seien eingeplant und sollten nicht dafür sorgen, dass Kunden eine Leistungsminderung mitbekämen.

Viele Schritte bis zum Fehler

Im Fall des beschädigten Serverschranks hatten Google-Entwickler das System direkt offline genommen, um Fehler durch die beeinträchtigte Hardware auf Softwareebene zu verhindern, was Kunden mitbekommen hätten. Danach konnte das zuständige Edge-Network-Team im Rechenzentrum Netzwerkprobleme und Paketverlust feststellen. Das ständige Wechseln von Netzwerkrouten durch BGP-Flapping gab den Admins den entscheidenden Hinweis: Der Fehler musste an der Hardware selbst liegen.

Weitere Untersuchungen ergaben, dass betroffene Hardware in einem einzelnen Rack installiert wurde. Google hat daraufhin einen Reparaturauftrag für die betroffene Hardware aufgegeben. Erst dann hat ein Techniker vor Ort bemerkt, dass nichts repariert werden musste - zumindest keine Hardware an sich. "Die Rollen an der Rückseite sind zerstört worden und die Maschinen überhitzen, weil sie dadurch angekippt wurden", hieß es in einer Nachricht an das Google-Team.

Googles These bestätigte sich also: Selbst die unwahrscheinlichsten Dinge können bei einer so großen Menge an Hardware eintreten.  (on)


Verwandte Artikel:
PLCN: Seekabel von China in die USA bleibt dunkel   
(07.02.2020, https://glm.io/146512 )
Android-App: Google-Übersetzer fertigt Live-Abschriften an   
(18.03.2020, https://glm.io/147324 )
IT-Administration: Microsoft-Certified-Schulungen laufen aus und werden obsolet   
(02.03.2020, https://glm.io/146962 )
Coronavirus: Nur wenige Elektronikläden für Abholungen offen   
(18.03.2020, https://glm.io/147319 )
Coronavirus: RKI-Chef rechnet mit Handytracking von Infizierten   
(17.03.2020, https://glm.io/147300 )

© 1997–2020 Golem.de, https://www.golem.de/