Reddit: Stundenlanger Ausfall, weil niemand mehr den Code kennt

Die Analyse eines schwerwiegenden Ausfalls bei Reddit zeigt, wie kritisch institutionelles Wissen sein kann.

Artikel veröffentlicht am ,
Die Ursachenforschung bei einem Reddit-Ausfall verzögerte sich auch, weil es im Team an Fachwissen fehlte.
Die Ursachenforschung bei einem Reddit-Ausfall verzögerte sich auch, weil es im Team an Fachwissen fehlte. (Bild: Jakub Porzycki via Reuters Connect)

Das Entwicklungsteam der Social-Media-Plattform Reddit hat eine ausführliche Analyse zu einem stundenlangen Ausfall des Dienstes am 14. März dieses Jahres veröffentlicht. Interessant daran ist vor allem, dass der mehrstündige Ausfall nicht nur technische Gründe hatte, sondern dass das Beheben erheblich durch fehlendes Wissen über die eigenen Dienste verzögert wurde.

Auslöser des Ausfalls war demnach ein Update von Kubernetes 1.23 auf Version 1.24, das einen trotz zahlreicher Tests nie zuvor gesehenen Fehler auslöste. Erst nach Stunden entschied sich das Team schließlich dazu, ein Zurückrollen der Version und Einspielen eines Back-ups umzusetzen, um den Ausfall zu beheben. Dabei ging zwar auch einiges schief, letztlich funktionierte es aber. Die eigentliche Ursache für den Ausfall war damit allerdings noch nicht gefunden.

Die Suche danach in den Logs vergleicht das Team mit der Suche nach einer Nadel im Heuhaufen. Irgendwann fiel den Beteiligten schließlich auf, dass das Mesh-Netzwerk zwischen den Knoten im Cluster offline war, da sämtliche Routen zwischen den Knoten verworfen worden waren. Um diesen Aufbau zu skalieren, setzt das Reddit-Team auf sogenannte Route Reflectors, die als Alternative zu einem vollständigen Mesh zum Einsatz kommen. Ein Konfigurationsfehler dafür war die Ursache für den Fehler.

Fehlendes Wissen verzögert alles

Dazu heißt es in dem Blogpost: "Die Route Reflectors wurden vor einigen Jahren vom Vorgänger des heutigen Compute-Teams eingerichtet. Die Zeit verging, und mit der Fluktuation und dem Wachstum wechselten alle, die von deren Existenz wussten, in andere Funktionen oder andere Unternehmen. Nur unsere größten und ältesten Cluster verwenden sie noch. Es gab also niemanden, der über das Wissen verfügte, mit der Route-Reflector-Konfiguration zu interagieren, um überhaupt zu erkennen, dass etwas nicht in Ordnung sein könnte, oder der in der Lage war, sich zu melden und das Problem zu untersuchen."

Erschwerend kam für das Team hinzu, dass die Konfigurationen der Route-Reflector-Software Calico nur über die Kommandozeile und manuelle Eingaben verändert werden können. Zwar könne das durch eigene Werkzeuge vereinfacht werden, die hatte das Team aber nie selbst erstellt. Lediglich ein Entwickler konnte sich an das System sowie diese Funktion erinnern und so herausfinden, was geschehen war.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


lolmeister 14. Mai 2023

OP hat recht. Heutiges verteiltes Rechnen ist sehr komplex, und da viele Teams und...

janoP 27. Mär 2023

ALLE machen in Minor-Versionen Breaking Changes. Menschen machen Fehler, und zu...

davux 25. Mär 2023

Mir fällt da auf Anhieb auch eine ein, wo es jetzt eine derbe Lücke gibt, weil kein...

davux 25. Mär 2023

In dem Fall des vorangegangenen Kommentars scheinst du ja recht zu haben, aber die...



Aktuell auf der Startseite von Golem.de
Endzeit
Experten warnen vor der Ausrottung der Menschheit durch KI

Unternehmen wie Microsoft, Google und OpenAI stehen hinter einer sehr drastischen Stellungnahme. Die warnt vor der Auslöschung durch KI.

Endzeit: Experten warnen vor der Ausrottung der Menschheit durch KI
Artikel
  1. Blizzard: Erste Wertungen für Diablo 4 sind da
    Blizzard
    Erste Wertungen für Diablo 4 sind da

    Gamer stehen vor einem Großereignis: Blizzard veröffentlicht bald Diablo 4. Nun gibt es erste Wertungen der Fachpresse.

  2. Apple: iPhone 15 soll mit USB-C und neuem Mute-Button kommen
    Apple
    iPhone 15 soll mit USB-C und neuem Mute-Button kommen

    Erste Dummys der kommenden iPhone-15-Reihe verraten bereits ein paar interessante kleinere Details - der Mute-Button etwa wird ersetzt.

  3. Künstliche Intelligenz: So funktionieren KI-Bildgeneratoren
    Künstliche Intelligenz
    So funktionieren KI-Bildgeneratoren

    Im Netz wimmelt es mittlerweile von künstlich erzeugten Bildern reitender Astronauten, skateboardfahrender Teddys oder stylish gekleideter Päpste. Aber wie machen Dall-E, Stable Diffusion & Co. das eigentlich?
    Von Helmut Linde

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: 14 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • Amazon-Geräte für Alexa bis -50% • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ • HyperX Cloud II Headset 62,99€ [Werbung]
    •  /