Rechenzentren und Redundanzen: Warum Twitter trotz Unterbesetzung weiterläuft

Ein ehemaliger Twitter-Admin erklärt, warum Twitter bisher stabil läuft, obwohl mehr als der Hälfte der Belegschaft gekündigt wurde.

Artikel veröffentlicht am ,
Twitter bleibt weiterhin online - durch Automation und Redundanz.
Twitter bleibt weiterhin online - durch Automation und Redundanz. (Bild: Pixabay.com)

Viele Teams bei Twitter sind nach Elon Musks Entlassungswellen und dem folgenden Ultimatum unterbesetzt oder gar nicht mehr existent. Trotzdem funktioniert die Plattform aktuell noch ohne Ausfälle und Probleme. Der ehemalige Site-Reliability-Engineer Matthew Tejo arbeitete fünf Jahre lang bei Twitter und erklärt in einem Blog-Post, warum die Seite weiterhin funktioniert - trotz wenig Personal.

Stellenmarkt
  1. Testingenieur Prüfplatzautomatisierung (m|w|d)
    Bertrandt Ingenieurbüro GmbH, Ingolstadt
  2. Systemadministrator (m/w/d)
    GRIMME Landmaschinenfabrik GmbH & Co. KG, Damme
Detailsuche

Die kurze Antwort: Twitter setzt auf Automatisierung, wo es geht. So repariert sich etwa der Seiten-Cache, der viele Anfragen und Assets mit möglichst wenig Latenz laden soll, von selbst. Sobald ein Server im zuständigen Cache-Cluster ausfällt, sucht sich der zuständige Dienst ein redundantes System aus der Reserve aus und integriert diesen automatisch wieder fürs Caching.

Der Cache ist ein Grund, warum Twitter-Anfragen relativ schnell und zuverlässig abgearbeitet werden können. Er lädt Daten von eigentlichen Ablageservern und speichert sie zwischen. Sollte es ein Problem mit dem Cache geben, würden das User direkt merken, da entsprechende Anfragen länger dauern. Caches sind bei großen Onlinediensten wie Twitter daher ein verbreitetes Mittel. Stabile Caches sind umso wichtiger.

Manuelle Arbeit beim Austausch von Hardware

Twitter nutzt für die Cache-Verwaltung die Dienste Apache Aurora und Apache Mesos. Aurora sucht sich Server aus einer Liste heraus, um darauf Anwendungen auszuführen. Der Dienst versucht zudem, gestartete Anwendungen auch am Laufen zu halten. "Wenn wir sagen, dass ein Cache-Cluster 100 Server benötigt, wird er sein Bestes tun, um 100 am Laufen zu halten", schreibt Tejo. "Wenn ein Server aus irgendeinem Grund vollständig ausfällt, erkennt Mesos dies, entfernt den Server aus seinem Pool. Aurora wird nun darüber informiert, dass nur 99 Caches ausgeführt werden, und weiß dann, dass es einen neuen Server von Aurora finden muss."

Golem Karrierewelt
  1. Airtable Grundlagen: virtueller Ein-Tages-Workshop
    17.02.2023, Virtuell
  2. Data Engineering mit Python und Spark: virtueller Zwei-Tage-Workshop
    18./19.01.2023, Virtuell
Weitere IT-Trainings

Die beiden Dienste sorgen zudem dafür, dass nicht zu viele Applikationen auf einem Server-Rack laufen. Sollte dies ausfallen, etwa weil der daran verbundene Switch oder ein Netzteil ausfällt, dann werden nicht zu viele Applikationen abgeschaltet. Zuvor wurde das manuell mittels Tabelle gelöst. Mittlerweile wird es automatisiert.

Großzügige Redundanzen

Allerdings kann Mesos wohl nicht alle Fehlerquellen erkennen, etwa RAM- oder Laufwerkschäden. Mittels Dashboard und Alerts können solche Fehler schnell erkannt und bei Bedarf von einem RZ-Admin vor Ort behoben werden. Automatische Sperren sollen zudem verhindern, dass zu viele Server auf einmal oder in kurzer Zeit von Applikationen neugestartet werden. Hier ist teilweise auch manuelle Arbeit gefragt.

Wichtig ist laut Tejo die generell großzügig ausgelegte Redundanz in Twitters Rechenzentren. Die maximal verfügbare Kapazität aller Server beträgt 200 Prozent für Desaster-Szenarien, verteilt auf zwei Rechenzentren. Im Normalbetrieb wird sichergestellt, dass die Rechenzentren jeweils nur mit maximal 50 Prozent Kapazität belastet werden. Entsprechend viel Spiel ist verfügbar, sollten Server ausfallen und diese kurzfristig nicht ersetzt werden können. Und das könnte mit dem aktuellen Mitarbeitermangel im Unternehmen wahrscheinlicher vorkommen.

Tejo verließ das Unternehmen im August 2022. Mittlerweile könnten sich einige Dinge also geändert haben. Elon Musk überlegte bereits im Vorfeld, eventuell auch bei kritischer Infrastruktur und den großzügig ausgelegten Redundanzen zu sparen. Ein kompletter Ausfall ist also nicht unwahrscheinlich, sollte dies wirklich umgesetzt werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


blubberer 25. Nov 2022 / Themenstart

Elon Musk == Dunning-Kruger-Effekt on steroids in action

ruphus 25. Nov 2022 / Themenstart

Puh, danke für die Infos! Da ist einiges an mir vorbei gegangen. Werd mir heute wohl ein...

Clown 23. Nov 2022 / Themenstart

Warum? Was macht Twitter technisch aus, das so entwicklungsintensiv ist? Ich würde sogar...

Konstante11 23. Nov 2022 / Themenstart

Vermutlich keine der beiden Gruppen; beide haben ihren Sinn. Vertrieben wird er wohl...

Kommentieren



Aktuell auf der Startseite von Golem.de
Cybermonday
CPU-Kaufberatung für Spieler

Wir erklären, wann sich ein neuer Prozessor wirklich lohnt und wann man doch lieber warten oder in eine Grafikkarte investieren sollte.
Von Martin Böckmann

Cybermonday: CPU-Kaufberatung für Spieler
Artikel
  1. 400.000 Ladepunkte: Audi startet Ladesäulen-Tarif mit bis zu 0,81 Euro pro kWh
    400.000 Ladepunkte
    Audi startet Ladesäulen-Tarif mit bis zu 0,81 Euro pro kWh

    Am 1. Januar 2023 will Audi seinen Ladedienst Audi Charging starten. Bis zu 0,81 Euro pro kWh werden verlangt.

  2. Netzwerkprotokoll: Was Admins und Entwickler über IPv6 wissen müssen
    Netzwerkprotokoll
    Was Admins und Entwickler über IPv6 wissen müssen

    Sogar für IT-Profis scheint das Netzwerkprotokoll IPv6 oft ein Buch mit sieben Siegeln - und stößt bei ihnen nicht auf bedingungslose Liebe. Wir überprüfen die Vorbehalte in der Praxis und geben Tipps.
    Von Jochen Demmer

  3. Wo Long Fallen Dynasty Vorschau: Souls-like mit Schwertkampf in China
    Wo Long Fallen Dynasty Vorschau
    Souls-like mit Schwertkampf in China

    Das nächste Souls-like heißt Wo Long: Fallen Dynasty und stammt von Team Ninja. Golem.de hat beim Anspielen mehr Gegner erledigt als erwartet.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Monday bei Media Markt & Saturn • Nur noch heute: Black Friday Woche bei Amazon & NBB • MindStar: Intel Core i7 12700K 359€ • Gigabyte RX 6900 XT 799€ • Xbox Series S 222€ • Gamesplanet Winter Sale - neue Angebote • WD_BLACK SN850 1TB 129€ [Werbung]
    •  /