• IT-Karriere:
  • Services:

Instant Messaging: Slack musste Ausfall im Blindflug beheben

Kein Monitoring und dann verschwinden auch noch die Server zur Fehlersuche. Ein Ausfall hat dem Slack-Team einige Probleme bereitet.

Artikel veröffentlicht am ,
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen.
Slack hatte am Jahresanfang mit einem großen Ausfall zu kämpfen. (Bild: Stephen Lam/Getty Images)

Pünktlich zum Arbeitsbeginn im neuen Jahr, am 4. Januar 2021, war der Kommunikationsdienst Slack von einem großen Ausfall betroffen, den das zuständige Team nun in einer ausführlichen Analyse betrachtet. Nach ersten internen Meldungen über erhöhte Fehlerraten, die wohl immer schlimmer wurden, musste das Team aber dem Bericht zufolge zunächst einmal gegen seine eigenen Systeme kämpfen. Denn die internen Benachrichtigungssysteme waren ebenfalls offline.

Stellenmarkt
  1. Universitätsklinikum Münster, Münster
  2. Melitta Business Service Center GmbH & Co. KG, Minden

In dem Blogpost von Slack heißt es: "Während wir uns in einem frühen Stadium der Untersuchung befanden, waren unser Dashboard und Alarmierungsdienst nicht mehr verfügbar". Zwar seien dann noch einige interne Werkzeuge und vor allem das Monitoring-Backend online gewesen, Abfragen zur möglichen Ursache des Ausfalls musste das Team dann aber mühsam manuell durchführen. Währenddessen fielen offenbar immer mehr Netzwerkverbindungen aus.

Darüber hinaus stieg die Auslastung der Webserver um 7 Uhr morgens (PST) derart stark an, dass es zu vielen Paketverlusten kam, damit zu einer höheren Latenz und letztlich zu Verbindungsabbrüchen der Server zum Backend. "Slack war nicht mehr verfügbar", wie es in dem Blogpost schlicht heißt. In dieser denkbar schlimmsten Lage sorgten dann aber auch noch automatische Mechanismen dafür, dass Server ohne Kontakt zu ihrem Backend durch neue ersetzt wurden.

Darüber hinaus wurde das System automatisch herunterskaliert, da die Server wohl eben nur auf Antworten gewartet hatten, was die CPU-Auslastung reduzierte. Beides hatte zur Folge, dass SSH-Sitzungen des Teams zum Debugging auf den Server abrupt beendet wurden. Ein sinnvoller Einblick in die Systeme war so nicht mehr möglich.

Slack hatte zu viel Last auf einmal

Das Team setzte dann auf die naheliegende Lösung: möglichst schnell möglichst viele neue Server starten. Dabei reizte das Team die Grenze für die maximal mögliche Anzahl geöffneter Dateien unter Linux aus und stieß ebenso bei den AWS-Quota an unerwartete Grenzen. Erst nach rund einer Stunde waren diese Maßnahmen so weit im Griff, dass sich die Lage einigermaßen normalisierte. Erst fast vier Stunden nach dem Ausfall lief der Dienst wieder wie vorgesehen.

Die Verantwortlichen bestätigen darüber hinaus indirekt, dass wie bereits zuvor von vielen vermutet tatsächlich der erheblich höhere Traffic zum Jahresanfang die Ursache für den Ausfall war. Slack ist wie kaum eine andere Software vom typischen Büroalltag abhängig, so dass die Software etwa an Feiertagen nur sehr wenig genutzt wird. Die vielen Benachrichtigungen, neue Nachrichten und eventuell auch neue Kollegen im Homeoffice haben die Systeme wohl schlicht überfordert.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Kopfhörer, Watches und TVs von Samsung)
  2. (u. a. Anno 1800 für 26,99€, Railway Empire für 14,99€, Code Vein für 16,99€)
  3. 119,90€ (Bestpreis mit Amazon)
  4. (AMD Ryzen 9 5950X + Radeon RX 6900 XT)

TW1920 04. Feb 2021 / Themenstart

Zulip ist eine gute Alternative - kann man auch selbst hosten und hat dann selbst die...

Kommentieren


Folgen Sie uns
       


Automatische Untertitel in Premiere Pro Beta - Tutorial

Wir zeigen, wie sich Untertitel per KI-Spracherkennung erzeugen lassen.

Automatische Untertitel in Premiere Pro Beta - Tutorial Video aufrufen
    •  /