Instant Messaging: Slack musste Ausfall im Blindflug beheben

Kein Monitoring und dann verschwinden auch noch die Server zur Fehlersuche. Ein Ausfall hat dem Slack-Team einige Probleme bereitet.

Artikel veröffentlicht am ,
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen.
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen. (Bild: Stephen Lam/Getty Images)

Pünktlich zum Arbeitsbeginn im neuen Jahr, am 4. Januar 2021, war der Kommunikationsdienst Slack von einem großen Ausfall betroffen, den das zuständige Team nun in einer ausführlichen Analyse betrachtet. Nach ersten internen Meldungen über erhöhte Fehlerraten, die wohl immer schlimmer wurden, musste das Team aber dem Bericht zufolge zunächst einmal gegen seine eigenen Systeme kämpfen. Denn die internen Benachrichtigungssysteme waren ebenfalls offline.

Stellenmarkt
  1. Verwaltungsmitarbeiter als Fachberater SGB IX (m/w/d)
    KVJS - Kommunalverband für Jugend und Soziales Baden-Württemberg, Karlsruhe
  2. Systems Engineer (m/w/d) - Microsoft SQL Server
    OEDIV KG, Bielefeld
Detailsuche

In dem Blogpost von Slack heißt es: "Während wir uns in einem frühen Stadium der Untersuchung befanden, waren unser Dashboard und Alarmierungsdienst nicht mehr verfügbar". Zwar seien dann noch einige interne Werkzeuge und vor allem das Monitoring-Backend online gewesen, Abfragen zur möglichen Ursache des Ausfalls musste das Team dann aber mühsam manuell durchführen. Währenddessen fielen offenbar immer mehr Netzwerkverbindungen aus.

Darüber hinaus stieg die Auslastung der Webserver um 7 Uhr morgens (PST) derart stark an, dass es zu vielen Paketverlusten kam, damit zu einer höheren Latenz und letztlich zu Verbindungsabbrüchen der Server zum Backend. "Slack war nicht mehr verfügbar", wie es in dem Blogpost schlicht heißt. In dieser denkbar schlimmsten Lage sorgten dann aber auch noch automatische Mechanismen dafür, dass Server ohne Kontakt zu ihrem Backend durch neue ersetzt wurden.

Darüber hinaus wurde das System automatisch herunterskaliert, da die Server wohl eben nur auf Antworten gewartet hatten, was die CPU-Auslastung reduzierte. Beides hatte zur Folge, dass SSH-Sitzungen des Teams zum Debugging auf den Server abrupt beendet wurden. Ein sinnvoller Einblick in die Systeme war so nicht mehr möglich.

Slack hatte zu viel Last auf einmal

Das Team setzte dann auf die naheliegende Lösung: möglichst schnell möglichst viele neue Server starten. Dabei reizte das Team die Grenze für die maximal mögliche Anzahl geöffneter Dateien unter Linux aus und stieß ebenso bei den AWS-Quota an unerwartete Grenzen. Erst nach rund einer Stunde waren diese Maßnahmen so weit im Griff, dass sich die Lage einigermaßen normalisierte. Erst fast vier Stunden nach dem Ausfall lief der Dienst wieder wie vorgesehen.

Die Verantwortlichen bestätigen darüber hinaus indirekt, dass wie bereits zuvor von vielen vermutet tatsächlich der erheblich höhere Traffic zum Jahresanfang die Ursache für den Ausfall war. Slack ist wie kaum eine andere Software vom typischen Büroalltag abhängig, so dass die Software etwa an Feiertagen nur sehr wenig genutzt wird. Die vielen Benachrichtigungen, neue Nachrichten und eventuell auch neue Kollegen im Homeoffice haben die Systeme wohl schlicht überfordert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Neues Betriebssystem von Microsoft
Wir probieren Windows 11 aus

Windows 11 ist bereits im Umlauf. Wir haben die Vorabversion ausprobiert und ein schickes OS durchstöbert. Im Kern ist es aber Windows 10.
Ein Hands-on von Oliver Nickel

Neues Betriebssystem von Microsoft: Wir probieren Windows 11 aus
Artikel
  1. Fußballmanager: Kalypso Media geht bei Anstoss 2022 vom Platz
    Fußballmanager
    Kalypso Media geht bei Anstoss 2022 vom Platz

    Seit Monaten keine Updates, die Community ist sauer. Nun verabschiedet sich Kalypso Media vom Kickstarter-finanzierten Anstoss 2022.

  2. Websicherheit: Wie KenFM von Anonymous gehackt wurde
    Websicherheit
    Wie KenFM von Anonymous gehackt wurde

    Die Webseite AnonLeaks berichtet, wie das Defacement von KenFM ablief: durch abrufbare Backupdaten und das Wordpress-Plugin Duplicator Pro.
    Von Hanno Böck

  3. Rückschau E3 2021: Galaktisch gute Spiele-Aussichten
    Rückschau E3 2021
    Galaktisch gute Spiele-Aussichten

    E3 2021 Es hat sich selten wie eine E3 angefühlt - dennoch haben Spiele- und Hardware-Ankündigungen Spaß gemacht. Meine persönlichen Highlights.
    Von Peter Steinlechner

TW1920 04. Feb 2021

Zulip ist eine gute Alternative - kann man auch selbst hosten und hat dann selbst die...


Folgen Sie uns
       


Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Dualsense Midnight Black + Ratchet & Clank Rift Apart 99,99€ • Saturn Super Sale (u. a. Samsung 65" QLED (2021) 1.294€) • MSI 27" FHD 144Hz 269€ • Razer Naga Pro Gaming-Maus 119,99€ • Apple iPad Pro 12,9" 256GB 909€ [Werbung]
    •  /