Zum Hauptinhalt Zur Navigation

Cloud-Panne: AWS führt weltweite Ausfälle auf eine Race Condition zurück

Die Race Condition ist in einem fehlerhaften DNS -Eintrag gemündet – mit den bekannten Auswirkungen, die sich weltweit bemerkbar machten.
/ Marc Stöckel
Kommentare News folgen (öffnet im neuen Fenster)
AWS hat offenbar die Verwaltung seiner DNS-Einträge nicht im Griff. (Bild: Noah Berger/Getty Images)
AWS hat offenbar die Verwaltung seiner DNS-Einträge nicht im Griff. Bild: Noah Berger/Getty Images

Ein Ausfall beim Cloudanbieter AWS (Amazon Web Services) hat am Montag für mehrere Stunden große Teile des Internets beeinträchtigt. Jetzt veröffentlichte das Unternehmen einen Bericht(öffnet im neuen Fenster) , in dem es die Hintergründe erläutert. Auslöser war demnach eine Race Condition im DynamoDB-DNS-Verwaltungssystem. Die Folge war ein fehlerhafter DNS-Eintrag, der eine Kettenreaktion in Gang setzte.

Eigentlich sollten solche Fehler automatisch korrigiert werden. AWS konzipierte nach eigenen Angaben eine Automatisierung, welche Hunderttausende von DNS-Einträgen von Diensten wie DynamoDB verwaltet. "Diese Automatisierung wurde im Hinblick auf Ausfallsicherheit konzipiert, so dass sich der Dienst von einer Vielzahl von Betriebsproblemen erholen kann" , schreibt der Konzern.

Den genannten Fehler mit der Race Condition konnte das System aber wohl nicht reparieren. Infolgedessen kam es ab 8:48 Uhr deutscher Zeit zu Ausfällen in der im US-Bundesstaat Virginia beheimateten Cloud-Region US-EAST-1. Zunächst gab es bei DynamoDB vermehrt API-Fehler. Später kamen Verbindungsprobleme bei mehreren Network Load Balancern (NLB) sowie Start- und Konnektivitätsprobleme mit EC2-Instanzen hinzu.

Kaum übersehbare Auswirkungen

Die Folgen sind bekannt: Zahlreiche von AWS abhängige Dienste auf der ganzen Welt funktionierten am Montag für mehrere Stunden nicht . Zu den betroffenen Unternehmen und Tools zählten Signal, Epic Games, Canva, Perplexity, Zoom, Slack, Ubisoft, Steam, Playstation Network, Coinbase, Atlassian und Jira. Selbst smarte Matratzenauflagen von Eight Sleep machten während des Ausfalls Probleme und raubten Anwendern den Schlaf .

Ursache noch nicht beseitigt

AWS versichert, den Vorfall zum Anlass zu nehmen, die Systeme zu optimieren und die Wiederherstellungszeit für zukünftige Ausfälle zu verkürzen. Problematische Dienste habe der Konzern vorerst deaktiviert. Nun arbeite man daran, die Race Condition zu beseitigen.

Überdies werde AWS zusätzliche Schutzmaßnahmen ergänzen, um etwa die Anwendung fehlerhafter DNS-Einträge künftig effektiv zu verhindern. Auch die Folgefehler bei den Load Balancern sowie den EC2-Instanzen will der Konzern durch zusätzliche Fehlerprüfungen und Tests angehen.

"Wir entschuldigen uns für die Auswirkungen, die dieses Ereignis für unsere Kunden hatte" , schreibt AWS abschließend. "Wir sind uns bewusst, dass dieses Ereignis viele Kunden erheblich beeinträchtigt hat. Wir werden alles in unserer Macht Stehende tun, um aus diesem Ereignis zu lernen und unsere Verfügbarkeit noch weiter zu verbessern."


Relevante Themen