Instant Messaging: Slack musste Ausfall im Blindflug beheben

Kein Monitoring und dann verschwinden auch noch die Server zur Fehlersuche. Ein Ausfall hat dem Slack-Team einige Probleme bereitet.

Artikel veröffentlicht am ,
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen.
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen. (Bild: Stephen Lam/Getty Images)

Pünktlich zum Arbeitsbeginn im neuen Jahr, am 4. Januar 2021, war der Kommunikationsdienst Slack von einem großen Ausfall betroffen, den das zuständige Team nun in einer ausführlichen Analyse betrachtet. Nach ersten internen Meldungen über erhöhte Fehlerraten, die wohl immer schlimmer wurden, musste das Team aber dem Bericht zufolge zunächst einmal gegen seine eigenen Systeme kämpfen. Denn die internen Benachrichtigungssysteme waren ebenfalls offline.

Stellenmarkt
  1. (Junior) Integration Developer (m/w/d)
    Frankfurter Allgemeine Zeitung GmbH (F.A.Z.), Frankfurt am Main
  2. Junior Project Manager Product (m/w/d)
    GK Software SE, Schöneck, deutschlandweit (Home-Office)
Detailsuche

In dem Blogpost von Slack heißt es: "Während wir uns in einem frühen Stadium der Untersuchung befanden, waren unser Dashboard und Alarmierungsdienst nicht mehr verfügbar". Zwar seien dann noch einige interne Werkzeuge und vor allem das Monitoring-Backend online gewesen, Abfragen zur möglichen Ursache des Ausfalls musste das Team dann aber mühsam manuell durchführen. Währenddessen fielen offenbar immer mehr Netzwerkverbindungen aus.

Darüber hinaus stieg die Auslastung der Webserver um 7 Uhr morgens (PST) derart stark an, dass es zu vielen Paketverlusten kam, damit zu einer höheren Latenz und letztlich zu Verbindungsabbrüchen der Server zum Backend. "Slack war nicht mehr verfügbar", wie es in dem Blogpost schlicht heißt. In dieser denkbar schlimmsten Lage sorgten dann aber auch noch automatische Mechanismen dafür, dass Server ohne Kontakt zu ihrem Backend durch neue ersetzt wurden.

Darüber hinaus wurde das System automatisch herunterskaliert, da die Server wohl eben nur auf Antworten gewartet hatten, was die CPU-Auslastung reduzierte. Beides hatte zur Folge, dass SSH-Sitzungen des Teams zum Debugging auf den Server abrupt beendet wurden. Ein sinnvoller Einblick in die Systeme war so nicht mehr möglich.

Slack hatte zu viel Last auf einmal

Golem Akademie
  1. Cinema 4D Grundlagen: virtueller Drei-Tage-Workshop
    14.–16. März 2022, Virtuell
  2. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    28. Februar–4. März 2022, virtuell
Weitere IT-Trainings

Das Team setzte dann auf die naheliegende Lösung: möglichst schnell möglichst viele neue Server starten. Dabei reizte das Team die Grenze für die maximal mögliche Anzahl geöffneter Dateien unter Linux aus und stieß ebenso bei den AWS-Quota an unerwartete Grenzen. Erst nach rund einer Stunde waren diese Maßnahmen so weit im Griff, dass sich die Lage einigermaßen normalisierte. Erst fast vier Stunden nach dem Ausfall lief der Dienst wieder wie vorgesehen.

Die Verantwortlichen bestätigen darüber hinaus indirekt, dass wie bereits zuvor von vielen vermutet tatsächlich der erheblich höhere Traffic zum Jahresanfang die Ursache für den Ausfall war. Slack ist wie kaum eine andere Software vom typischen Büroalltag abhängig, so dass die Software etwa an Feiertagen nur sehr wenig genutzt wird. Die vielen Benachrichtigungen, neue Nachrichten und eventuell auch neue Kollegen im Homeoffice haben die Systeme wohl schlicht überfordert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Rocket 1
3D-Druck vom Kopf auf die Füße gestellt

Eine der interessantesten Crowdfunding-Kampagnen für 3D-Drucker seit Jahren lässt einige wichtige Fragen offen.
Von Elias Dinter

Rocket 1: 3D-Druck vom Kopf auf die Füße gestellt
Artikel
  1. Bonanza Mine (BZM2): Intel hat ersten Kunden für eigenen Bitcoin-Chip
    Bonanza Mine (BZM2)
    Intel hat ersten Kunden für eigenen Bitcoin-Chip

    Mit dem Bonanza Mine entwickelt Intel ein eigenes Bitcoin-ASIC, was besonders effizient beim Schürfen der Kryptowährung sein soll.

  2. Amazon Alexa: Neuer Echo Show 15 mit Personenerkennung kommt im Februar
    Amazon Alexa
    Neuer Echo Show 15 mit Personenerkennung kommt im Februar

    Mit dem Echo Show 15 will Amazon smarte Displays neu erfinden. Der Alexa-Neuling soll auf eine Nutzung durch mehrere Personen hin optimiert sein.

  3. Activision Blizzard: Was passiert mit Call of Duty, Diablo und Xbox Game Pass?
    Activision Blizzard
    Was passiert mit Call of Duty, Diablo und Xbox Game Pass?

    Playstation als Verlierer und Exklusivspiele für den Xbox Game Pass: Golem.de über die bislang größte Übernahme durch Microsoft.
    Eine Analyse von Peter Steinlechner

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED (2021) 40% günstiger (u.a. 65" 1.599€) • WD Black 1TB SSD 94,90€ • Gigabyte Mainboard 299,82€ • RTX 3090 2.399€ • Roccat Gaming-Tastatur 105€ • RTX 3060 Ti 799€ • MindStar (u.a. 32GB DDR5-6000 389€) • Alternate Deals (u.a. Samsung LED TV 50" 549€) [Werbung]
    •  /