• IT-Karriere:
  • Services:

Rechenzentrum: Zerquetschtes Rad verursachte Serverproblem bei Google

Manchmal haben kleine Dinge großen Einfluss. Ein Motto: "Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein".

Artikel veröffentlicht am ,
Da hat jemand die preiswerten Rollen gekauft.
Da hat jemand die preiswerten Rollen gekauft. (Bild: Google)

Google hat vor kurzem einen Troubleshooting-Bericht geteilt, der zeigt, dass Fehler manchmal regelrecht auf dem Boden des Rechenzentrums zu finden sind. Das zeigt ein Fall, bei dem das Team eine ungewöhnlich hohe CPU-Last und Temperatur in einem Server-Rack festgestellt hat. Der Grund: Eine Rolle des Serverschranks wurde unter dem Gewicht der schweren installierten Hardware zerquetscht. Das gesamte Rack ist so nach vorn gekippt, dass der Fluss der Wasserkühlung beeinträchtigt und die Kühlleistung verringert wird. Daraus folgte, dass sich die Hardware gedrosselt hat, um nicht abzuschalten.

Stellenmarkt
  1. InnoGames GmbH, Hamburg
  2. TenneT TSO GmbH, Würzburg

"Auf Google-Größe treten Ereignisse mit einer Chance von einer Million zu eins täglich ein", lautet ein Ausspruch des Site-Reliability-Engineering-Teams des Unternehmens. Der Vorfall ist ein Aufhänger für Googles Prinzip, mehr Ressourcen als nötig zur Verfügung zu stellen. Das Unternehmen gibt an, dass die Drosselung eines Servers ein Ereignis ist, das innerhalb der Fehlertoleranz liegt. Diese Within-Error-Budget-Events seien eingeplant und sollten nicht dafür sorgen, dass Kunden eine Leistungsminderung mitbekämen.

Viele Schritte bis zum Fehler

Im Fall des beschädigten Serverschranks hatten Google-Entwickler das System direkt offline genommen, um Fehler durch die beeinträchtigte Hardware auf Softwareebene zu verhindern, was Kunden mitbekommen hätten. Danach konnte das zuständige Edge-Network-Team im Rechenzentrum Netzwerkprobleme und Paketverlust feststellen. Das ständige Wechseln von Netzwerkrouten durch BGP-Flapping gab den Admins den entscheidenden Hinweis: Der Fehler musste an der Hardware selbst liegen.

Weitere Untersuchungen ergaben, dass betroffene Hardware in einem einzelnen Rack installiert wurde. Google hat daraufhin einen Reparaturauftrag für die betroffene Hardware aufgegeben. Erst dann hat ein Techniker vor Ort bemerkt, dass nichts repariert werden musste - zumindest keine Hardware an sich. "Die Rollen an der Rückseite sind zerstört worden und die Maschinen überhitzen, weil sie dadurch angekippt wurden", hieß es in einer Nachricht an das Google-Team.

Googles These bestätigte sich also: Selbst die unwahrscheinlichsten Dinge können bei einer so großen Menge an Hardware eintreten.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)

Agina 20. Mär 2020 / Themenstart

Bei uns im RZ kann man diese gut erreichen. Aber wenn man den Platz dahinter spart und...

Eheran 19. Mär 2020 / Themenstart

Gibt es dafür eine Quelle? Möglichst das Temperaturlimit ausnutzen ist ja schon logisch...

TW1920 19. Mär 2020 / Themenstart

Und das hat mich erinnert meinen eigenen Vorrat aufzufüllen - hatte auch nur noch eine...

SchrubbelDrubbel 18. Mär 2020 / Themenstart

Wer tot ist, brauchts nicht mehr ;-)

Puschie 18. Mär 2020 / Themenstart

Eine Sammlung von googles witzigsten Fehlern wäre schon ganz nice, aber ja es wird...

Kommentieren


Folgen Sie uns
       


Disney Plus - Test

Der Streamingdienst Disney Plus wurde am 24. März 2020 endlich auch in Deutschland gestartet. Golem.de hat die Benutzeroberfläche einem Test unterzogen und auch einen Blick auf das Film- und Serienangebot des Netflix-Mitbewerbers geworfen.

Disney Plus - Test Video aufrufen
Starsky Robotics: Woran ein Startup für autonome Lkw gescheitert ist
Starsky Robotics
Woran ein Startup für autonome Lkw gescheitert ist

Der Gründer eines Startups für selbstfahrende Lkw hält die Technik noch lange nicht für praxistauglich.
Ein Bericht von Friedhelm Greis

  1. Neue Prioritäten Daimler setzt beim autonomen Fahren zuerst auf Lkw
  2. Autonomes Fahren AutoX und Fiat planen autonome Taxis in China
  3. Human Drive Autonomer Nissan Leaf fährt durch Großbritannien

Microsoft Teams im Alltag: Perfektes Werkzeug, um Effizienz zu vernichten
Microsoft Teams im Alltag
Perfektes Werkzeug, um Effizienz zu vernichten

Wir verwenden Microsofts Chat-Dienst Teams seit vielen Monaten in der Redaktion. Im Alltag zeigen sich so viele Probleme, dass es eigentlich eine Belohnung für alle geben müsste, die das Produkt verwenden.
Von Ingo Pakalski

  1. Adobe-Fontbibliothek Font-Sicherheitslücke in Windows ohne Fix
  2. Microsoft Trailer zeigt neues Design von Windows 10
  3. Unternehmens-Chat Microsoft verbessert Teams

Datenschutz: Dürfen Ärzte, Lehrer und Anwälte Whatsapp beruflich nutzen?
Datenschutz
Dürfen Ärzte, Lehrer und Anwälte Whatsapp beruflich nutzen?

Das Coronavirus zwingt Ärzte, Lehrer und Rechtsanwälte zu digitaler Kommunikation mit und über ihre Patienten, Schüler und Mandanten. Viele setzen auf Whatsapp. Verstoßen sie damit gegen den Datenschutz oder machen sich gar strafbar?
Von Harald Büring

  1. Coronavirus Britische Soldaten müssen Whatsapp-Befehlen folgen
  2. Sicherheitslücke Dateien auslesen mit Whatsapp Desktop
  3. Messenger Whatsapp deaktiviert Chatexport in Deutschland

    •  /