Instant Messaging: Slack musste Ausfall im Blindflug beheben

Kein Monitoring und dann verschwinden auch noch die Server zur Fehlersuche. Ein Ausfall hat dem Slack-Team einige Probleme bereitet.

Artikel veröffentlicht am ,
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen.
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen. (Bild: Stephen Lam/Getty Images)

Pünktlich zum Arbeitsbeginn im neuen Jahr, am 4. Januar 2021, war der Kommunikationsdienst Slack von einem großen Ausfall betroffen, den das zuständige Team nun in einer ausführlichen Analyse betrachtet. Nach ersten internen Meldungen über erhöhte Fehlerraten, die wohl immer schlimmer wurden, musste das Team aber dem Bericht zufolge zunächst einmal gegen seine eigenen Systeme kämpfen. Denn die internen Benachrichtigungssysteme waren ebenfalls offline.

In dem Blogpost von Slack heißt es: "Während wir uns in einem frühen Stadium der Untersuchung befanden, waren unser Dashboard und Alarmierungsdienst nicht mehr verfügbar". Zwar seien dann noch einige interne Werkzeuge und vor allem das Monitoring-Backend online gewesen, Abfragen zur möglichen Ursache des Ausfalls musste das Team dann aber mühsam manuell durchführen. Währenddessen fielen offenbar immer mehr Netzwerkverbindungen aus.

Darüber hinaus stieg die Auslastung der Webserver um 7 Uhr morgens (PST) derart stark an, dass es zu vielen Paketverlusten kam, damit zu einer höheren Latenz und letztlich zu Verbindungsabbrüchen der Server zum Backend. "Slack war nicht mehr verfügbar", wie es in dem Blogpost schlicht heißt. In dieser denkbar schlimmsten Lage sorgten dann aber auch noch automatische Mechanismen dafür, dass Server ohne Kontakt zu ihrem Backend durch neue ersetzt wurden.

Darüber hinaus wurde das System automatisch herunterskaliert, da die Server wohl eben nur auf Antworten gewartet hatten, was die CPU-Auslastung reduzierte. Beides hatte zur Folge, dass SSH-Sitzungen des Teams zum Debugging auf den Server abrupt beendet wurden. Ein sinnvoller Einblick in die Systeme war so nicht mehr möglich.

Slack hatte zu viel Last auf einmal

Das Team setzte dann auf die naheliegende Lösung: möglichst schnell möglichst viele neue Server starten. Dabei reizte das Team die Grenze für die maximal mögliche Anzahl geöffneter Dateien unter Linux aus und stieß ebenso bei den AWS-Quota an unerwartete Grenzen. Erst nach rund einer Stunde waren diese Maßnahmen so weit im Griff, dass sich die Lage einigermaßen normalisierte. Erst fast vier Stunden nach dem Ausfall lief der Dienst wieder wie vorgesehen.

Die Verantwortlichen bestätigen darüber hinaus indirekt, dass wie bereits zuvor von vielen vermutet tatsächlich der erheblich höhere Traffic zum Jahresanfang die Ursache für den Ausfall war. Slack ist wie kaum eine andere Software vom typischen Büroalltag abhängig, so dass die Software etwa an Feiertagen nur sehr wenig genutzt wird. Die vielen Benachrichtigungen, neue Nachrichten und eventuell auch neue Kollegen im Homeoffice haben die Systeme wohl schlicht überfordert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Streaming
Netflix droht bei unerlaubtem Kontensharing mit Sperrung

Abonnenten von Netflix müssen sich in Deutschland darauf einstellen, dass das Konto gesperrt wird, falls es unerlaubt mit anderen geteilt wird.

Streaming: Netflix droht bei unerlaubtem Kontensharing mit Sperrung
Artikel
  1. Github Desktop & Atom: Signaturschlüssel von Github entwendet
    Github Desktop & Atom
    Signaturschlüssel von Github entwendet

    Auf Github wurden Signaturschlüssel entwendet, die bald zurückgerufen werden. Betroffen sind Github Desktop und Atom für Mac, die den Dienst einstellen.

  2. Militär: China gelingt Durchbruch bei Abwehr von Hyperschallraketen
    Militär
    China gelingt Durchbruch bei Abwehr von Hyperschallraketen

    Das Shanghai Institute of Mechanical and Electrical Engineering hat einen Durchbruch bei der Erforschung eines Abwehrsystems für Hyperschallwaffen erzielt.

  3. Sony: Verfügbarkeit der Playstation 5 bessert sich
    Sony
    Verfügbarkeit der Playstation 5 bessert sich

    Heute bestellen, in einigen Tagen zu Hause: Die Playstation 5 ist derzeit besser verfügbar als noch vor wenigen Wochen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • AMD CPU kaufen, SW Jedi Survivor gratis dazu • Philips LED TV 65" 120 Hz Ambilight 999€ • KF DDR4-3600 32GB 91,89€ • Asus Mainboard 279€ • Bosch Prof. bis -55% • PCGH Cyber Week • Acer Predator 32" WQHD 170Hz 529€ • Philips Hue bis -50% • Asus Gaming-Laptops bis -25% [Werbung]
    •  /