Rechenzentrum: Zerquetschtes Rad verursachte Serverproblem bei Google

Manchmal haben kleine Dinge großen Einfluss. Ein Motto: "Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein".

Artikel veröffentlicht am ,
Da hat jemand die preiswerten Rollen gekauft.
Da hat jemand die preiswerten Rollen gekauft. (Bild: Google)

Google hat vor kurzem einen Troubleshooting-Bericht geteilt, der zeigt, dass Fehler manchmal regelrecht auf dem Boden des Rechenzentrums zu finden sind. Das zeigt ein Fall, bei dem das Team eine ungewöhnlich hohe CPU-Last und Temperatur in einem Server-Rack festgestellt hat. Der Grund: Eine Rolle des Serverschranks wurde unter dem Gewicht der schweren installierten Hardware zerquetscht. Das gesamte Rack ist so nach vorn gekippt, dass der Fluss der Wasserkühlung beeinträchtigt und die Kühlleistung verringert wird. Daraus folgte, dass sich die Hardware gedrosselt hat, um nicht abzuschalten.

Stellenmarkt
  1. Projektmanager / innen(w/m/d)
    Statistisches Bundesamt, Wiesbaden
  2. Netzwerktechniker L1 (m/w/d)
    NTT Germany AG & Co. KG, Raum München und Berlin
Detailsuche

"Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein", lautet ein Ausspruch des Site-Reliability-Engineering-Teams des Unternehmens. Der Vorfall ist ein Aufhänger für Googles Prinzip, mehr Ressourcen als nötig zur Verfügung zu stellen. Das Unternehmen gibt an, dass die Drosselung eines Servers ein Ereignis ist, das innerhalb der Fehlertoleranz liegt. Diese Within-Error-Budget-Events seien eingeplant und sollten nicht dafür sorgen, dass Kunden eine Leistungsminderung mitbekämen.

Viele Schritte bis zum Fehler

Im Fall des beschädigten Serverschranks hatten Google-Entwickler das System direkt offline genommen, um Fehler durch die beeinträchtigte Hardware auf Softwareebene zu verhindern, was Kunden mitbekommen hätten. Danach konnte das zuständige Edge-Network-Team im Rechenzentrum Netzwerkprobleme und Paketverlust feststellen. Das ständige Wechseln von Netzwerkrouten durch BGP-Flapping gab den Admins den entscheidenden Hinweis: Der Fehler musste an der Hardware selbst liegen.

Weitere Untersuchungen ergaben, dass betroffene Hardware in einem einzelnen Rack installiert wurde. Google hat daraufhin einen Reparaturauftrag für die betroffene Hardware aufgegeben. Erst dann hat ein Techniker vor Ort bemerkt, dass nichts repariert werden musste - zumindest keine Hardware an sich. "Die Rollen an der Rückseite sind zerstört worden und die Maschinen überhitzen, weil sie dadurch angekippt wurden", hieß es in einer Nachricht an das Google-Team.

Golem Akademie
  1. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    13.–17. Dezember 2021, virtuell
  2. Advanced Python – Fortgeschrittene Programmierthemen: virtueller Zwei-Tage-Workshop
    27.–28. Januar 2022, Virtuell
Weitere IT-Trainings

Googles These bestätigte sich also: Selbst die unwahrscheinlichsten Dinge können bei einer so großen Menge an Hardware eintreten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anonymer Nutzer 20. Mär 2020

Bei uns im RZ kann man diese gut erreichen. Aber wenn man den Platz dahinter spart und...

Eheran 19. Mär 2020

Gibt es dafür eine Quelle? Möglichst das Temperaturlimit ausnutzen ist ja schon logisch...

TW1920 19. Mär 2020

Und das hat mich erinnert meinen eigenen Vorrat aufzufüllen - hatte auch nur noch eine...

SchrubbelDrubbel 18. Mär 2020

Wer tot ist, brauchts nicht mehr ;-)

Puschie 18. Mär 2020

Eine Sammlung von googles witzigsten Fehlern wäre schon ganz nice, aber ja es wird...



Aktuell auf der Startseite von Golem.de
Prozessoren
Intel lagert zehn Jahre alte Hardware in geheimem Lagerhaus

Tausende ältere CPUs und andere Hardware lagern bei Intel in einem Lagerhaus in Costa Rica. Damit lassen sich Probleme exakt nachstellen.

Prozessoren: Intel lagert zehn Jahre alte Hardware in geheimem Lagerhaus
Artikel
  1. Zu wenig Triebwerke: Musk warnt vor SpaceX-Pleite
    Zu wenig Triebwerke
    Musk warnt vor SpaceX-Pleite

    Elon Musk sieht sich der nächsten "Produktionshölle" ausgesetzt. Dieses Mal stockt die Fertigung im Raumfahrtunternehmen SpaceX.

  2. Chip Netztest: Netz in Fernzügen schlechter als im Vorjahr
    Chip Netztest
    Netz in Fernzügen schlechter als im Vorjahr

    Auf der Schiene sind die Ergebnisse des Netztests enttäuschend. Und Telekom hat in Großstädten nicht mehr überall die Führung.

  3. IT-Sicherheit: Sicherheitslücken in 150 Büro-Druckern von HP entdeckt
    IT-Sicherheit
    Sicherheitslücken in 150 Büro-Druckern von HP entdeckt

    Mit präparierten Druckaufträgen können 150 Multifunktionsdrucker von HP gehackt werden. Anschließend können Drucke und Scans mitgelesen werden.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Nur noch heute: Bis zu 75% auf Switch-Spiele • AOC 31,5" WQHD 165Hz 289,90€ • Gaming-Sale bei MediaMarkt • G.Skill 64GB Kit DDR4-3800 319€ • Bis zu 300€ Direktabzug: u. a. TVs, Laptops • WD MyBook HDD 18TB 329€ • Switch OLED 359,99€ • Xbox Series S 275,99€ [Werbung]
    •  /