• IT-Karriere:
  • Services:

Ausfall der Server: Amazon Web Services schaltete sich selbst ab

Ein ganzer Server-Cluster fiel bei AWS aus. US-Kunden konnten daher Dienste teils nicht mehr nutzen. AWS sieht die Schuld bei sich selbst.

Artikel veröffentlicht am ,
AWS-Dienste waren durch eigenes Verschulden nicht erreichbar.
AWS-Dienste waren durch eigenes Verschulden nicht erreichbar. (Bild: Pixabay.com/Pixabay License)

Am 25. November 2020 konnten viele US-Kunden ihre Amazon-Web-Services-Dienste nicht verwenden. Der Grund: Die Zone US East 1 war nicht erreichbar. AWS erklärt nun auch im Detail, wo der ausschlaggebende Fehler gefunden wurde, der für den Ausfall gesorgt hat: beim eigenen Team. Nachdem einige weitere Rechenressourcen für den Datenstreamingdienst Kinesis hinzugefügt wurden, stürzte der gesamte Servercluster ab.

Stellenmarkt
  1. über duerenhoff GmbH, Raum Mannheim
  2. Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH, Bagdad

Zunächst vermutete das untersuchende AWS-Team richtig und nahm die hinzugefügten Kapazitäten wieder offline. Allerdings erschienen weitere, damit nicht verbundene Fehler im Log. Schnell wurde klar, dass ein kompletter Neustart des Frontend-Clusters durchgeführt werden müsse, um das Problem komplett zu beheben. Dies erfordert ein etappenweises Vorgehen, da sich die Dienste für Datenabfragen und die Dienste zum Erstellen einer Shard-Map - einem Regelsatz, der Abhängigkeiten von einzelnen Teilservern voneinander definiert - Ressourcen teilen. Das Abschalten vieler Systeme auf einmal würde demnach auch den jeweils anderen Dienst beeinflussen.

Der finale Grund waren tatsächlich neue Kapazitäten, die AWS hinzugefügt hatte. Durch diese wurde die maximal zulässige Anzahl an parallelen Threads überschritten, die vom Betriebssystem unterstützt werden. Daraus konnten Caches nicht mehr erfolgreich konstruiert werden, was wiederum die auf den Servern liegenden Shard-Maps verfälschte. Einzelne Geräte konnten folglich nicht mehr untereinander kommunizieren und das Worst-Case-Szenario war programmiert: ein Totalausfall des gesamten Systems.

Never change a running system

Statt das Threadlimit einfach blind ohne vorherige Tests und Prüfungen innerhalb des Betriebssystems zu erhöhen, hat AWS die neuen Ressourcen erst einmal wieder offline genommen und anschließend einzelne Knoten innerhalb der Flotte in kleineren Gruppen neu gestartet. Daher dauerte es eine Zeit lang, bis das System wieder fehlerfrei und mit funktionierenden Shard-Maps hochgefahren wurde.

Von alledem erfuhren betroffene Kunden teils erst mit einer spürbaren Verzögerung. Das lag laut Amazon daran, dass das Service Health Dashboard für die Kommunikation mit Kunden auf den Dienst Cognito setzt. Dieser wiederum baut auf Kinesis-Datenströme, die vom Ausfall betroffen waren. Ein solcher Kaskadeneffekt zeigt, wie oft doch der in der IT-Branche geläufige Spruch "Never change a running system" auch bei großen Konzernen noch angewendet werden kann.

Die Region US East 1 sollte derweil wieder ordnungsgemäß funktionieren. Zumindest hat AWS laut eigenen Aussagen dazugelernt. "Wir werden alles tun, um aus diesem Event zu lernen und das zu nutzen, um unsere Verfügbarkeit noch weiter zu verbessern".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 459€ + 7,99€ Versand (Vergleichspreis ca. 520€ + Versand)
  2. 259,90€ inkl. Versand mit Gutschein: ASUS-VKFREI (Bestpreis!)
  3. (u. a. MSI Trident AS 10SD-1049 Gaming-PC für 1.399€ + 6,99€ Versand)

xUser 03. Dez 2020 / Themenstart

Die hatte ein Thread pro Instance um mit den anderen Instanzen zu reden , d.h. das mit...

xUser 03. Dez 2020 / Themenstart

Eine perfekte Architektur gibt es nicht. Amazon weiß schon was sie tun und die...

Mixermachine 02. Dez 2020 / Themenstart

Amazon wird dafür bezahlt in Sekunden riesige Rechenkapazitäten bereitzustellen. Die...

Kommentieren


Folgen Sie uns
       


Sprachsteuerung mit Apple Music im Vergleich

Eigentlich sollen smarte Lautsprecher den Musikkonsum auf Zuruf besonders bequem machen - aber das gelingt oftmals nicht. Überraschenderweise spielen Siri, Google Assistant und Alexa bei gleichen Sprachbefehlen andere Sachen, obwohl alle auf Apple Music zugreifen.

Sprachsteuerung mit Apple Music im Vergleich Video aufrufen
Neue Fire-TV-Oberfläche im Test: Noch mehr Nachteile für Prime-Video-Kunden
Neue Fire-TV-Oberfläche im Test
Noch mehr Nachteile für Prime-Video-Kunden

Eigentlich wollte Amazon die Oberfläche von Fire-TV-Geräten verbessern - das ist gründlich misslungen.
Ein Test von Ingo Pakalski

  1. Media Markt und Saturn Erster Smart-TV der Ok-Eigenmarke mit Fire-TV-Oberfläche
  2. Amazon Fire TV Cube wechselt TV-Programm auf Zuruf

Westküste 100: Wie die Energiewende an der Küste aussehen soll
Westküste 100
Wie die Energiewende an der Küste aussehen soll

An der Nordseeküste stehen die Windräder auch bei einer frischen Brise oft still. Besser ist, mit dem Strom Wasserstoff zu erzeugen. Das Reallabor Westküste 100 testet das.
Ein Bericht von Werner Pluta

  1. 450 MHz Energiewirtschaft gewinnt Streit um Funkfrequenzen
  2. Energiewende Statkraft baut Schwungradspeicher in Schottland

Star Trek: Discovery 3. Staffel: Zwischendurch schwer zu ertragen
Star Trek: Discovery 3. Staffel
Zwischendurch schwer zu ertragen

Die dritte Staffel von Star Trek: Discovery beginnt und endet stark - zwischendrin müssen sich Zuschauer mit grottenschlechten Dialogen, sinnlosem Storytelling und Langeweile herumschlagen. Achtung, Spoiler!
Eine Rezension von Tobias Költzsch

  1. Amazon Star Trek: Lower Decks kommt im Januar nach Deutschland
  2. Star Trek Discovery Harte Landung im 32. Jahrhundert
  3. Star Trek Prodigy Captain Janeway spielt in Star-Trek-Cartoonserie mit

    •  /