• IT-Karriere:
  • Services:

Rechenzentrum: Zerquetschtes Rad verursachte Serverproblem bei Google

Manchmal haben kleine Dinge großen Einfluss. Ein Motto: "Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein".

Artikel veröffentlicht am ,
Da hat jemand die preiswerten Rollen gekauft.
Da hat jemand die preiswerten Rollen gekauft. (Bild: Google)

Google hat vor kurzem einen Troubleshooting-Bericht geteilt, der zeigt, dass Fehler manchmal regelrecht auf dem Boden des Rechenzentrums zu finden sind. Das zeigt ein Fall, bei dem das Team eine ungewöhnlich hohe CPU-Last und Temperatur in einem Server-Rack festgestellt hat. Der Grund: Eine Rolle des Serverschranks wurde unter dem Gewicht der schweren installierten Hardware zerquetscht. Das gesamte Rack ist so nach vorn gekippt, dass der Fluss der Wasserkühlung beeinträchtigt und die Kühlleistung verringert wird. Daraus folgte, dass sich die Hardware gedrosselt hat, um nicht abzuschalten.

Stellenmarkt
  1. Melitta Business Service Center GmbH & Co. KG, Minden
  2. Endress+Hauser Conducta GmbH+Co. KG, Gerlingen (bei Stuttgart)

"Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein", lautet ein Ausspruch des Site-Reliability-Engineering-Teams des Unternehmens. Der Vorfall ist ein Aufhänger für Googles Prinzip, mehr Ressourcen als nötig zur Verfügung zu stellen. Das Unternehmen gibt an, dass die Drosselung eines Servers ein Ereignis ist, das innerhalb der Fehlertoleranz liegt. Diese Within-Error-Budget-Events seien eingeplant und sollten nicht dafür sorgen, dass Kunden eine Leistungsminderung mitbekämen.

Viele Schritte bis zum Fehler

Im Fall des beschädigten Serverschranks hatten Google-Entwickler das System direkt offline genommen, um Fehler durch die beeinträchtigte Hardware auf Softwareebene zu verhindern, was Kunden mitbekommen hätten. Danach konnte das zuständige Edge-Network-Team im Rechenzentrum Netzwerkprobleme und Paketverlust feststellen. Das ständige Wechseln von Netzwerkrouten durch BGP-Flapping gab den Admins den entscheidenden Hinweis: Der Fehler musste an der Hardware selbst liegen.

Weitere Untersuchungen ergaben, dass betroffene Hardware in einem einzelnen Rack installiert wurde. Google hat daraufhin einen Reparaturauftrag für die betroffene Hardware aufgegeben. Erst dann hat ein Techniker vor Ort bemerkt, dass nichts repariert werden musste - zumindest keine Hardware an sich. "Die Rollen an der Rückseite sind zerstört worden und die Maschinen überhitzen, weil sie dadurch angekippt wurden", hieß es in einer Nachricht an das Google-Team.

Googles These bestätigte sich also: Selbst die unwahrscheinlichsten Dinge können bei einer so großen Menge an Hardware eintreten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 1.849€
  2. (u. a. 7 Days To Die für 9,49€, Green Hell für 6,99€, Dead by Daylight für 5,49€, Dying...
  3. (u. a. Pinnochio (4K UHD), Die Farbe aus dem All, Die Känguru-Chroniken, Robert the Bruce (4K...
  4. (u. a. Samsung GU43TU8079UXZG 43-Zoll-LED-TV für 354,95€ (Bestpreis!), Nintendo Switch Pro...

Anonymer Nutzer 20. Mär 2020

Bei uns im RZ kann man diese gut erreichen. Aber wenn man den Platz dahinter spart und...

Eheran 19. Mär 2020

Gibt es dafür eine Quelle? Möglichst das Temperaturlimit ausnutzen ist ja schon logisch...

TW1920 19. Mär 2020

Und das hat mich erinnert meinen eigenen Vorrat aufzufüllen - hatte auch nur noch eine...

SchrubbelDrubbel 18. Mär 2020

Wer tot ist, brauchts nicht mehr ;-)

Puschie 18. Mär 2020

Eine Sammlung von googles witzigsten Fehlern wäre schon ganz nice, aber ja es wird...


Folgen Sie uns
       


Viewsonic M2 - Test

Der kleine LED-Projektor eignet sich für Präsentationen und als flexibles Kino für unterwegs.

Viewsonic M2 - Test Video aufrufen
Vivo X51 im Test: Vivos gelungener Deutschland-Start hat eine Gimbal-Kamera
Vivo X51 im Test
Vivos gelungener Deutschland-Start hat eine Gimbal-Kamera

Das Vivo X51 hat eine gute Kamera mit starker Bildstabilisierung und eine vorbildlich zurückhaltende Android-Oberfläche. Der Startpreis in Deutschland könnte aber eine Herausforderung für den Hersteller sein.
Ein Test von Tobias Költzsch

  1. Software-Entwicklung Google veröffentlicht Android Studio 4.1
  2. Jetpack Compose Android bekommt neues UI-Framework
  3. Google Android bekommt lokale Sharing-Funktion

The Secret of Monkey Island: Ich bin ein übelriechender, groggurgelnder Pirat!
The Secret of Monkey Island
"Ich bin ein übelriechender, groggurgelnder Pirat!"

Das wunderbare The Secret of Monkey Island feiert seinen 30. Geburtstag. Golem.de hat einen neuen Durchgang gewagt - und wüst geschimpft.
Von Benedikt Plass-Fleßenkämper


    Big Blue Button: Das große blaue Sicherheitsrisiko
    Big Blue Button
    Das große blaue Sicherheitsrisiko

    Kritische Sicherheitslücken, die Golem.de dem Entwickler der Videochat-Software Big Blue Button meldete, sind erst nach Monaten geschlossen worden.
    Eine Recherche von Hanno Böck


        •  /