Cloud Computing: Zu viel interner Traffic Ursache des massiven AWS-Ausfalls
Der langanhaltende Ausfall einer AWS-Region sei durch eine interne Network Congestion verursacht worden, sagt das Unternehmen.

Der Cloud-Anbieter Amazon Web Services (AWS) hat eine Analyse seines Ausfalls in der Region US-East-1 veröffentlicht, der in der vergangenen Woche zum Ausfall zahlreicher Dienste von Kunden sowie auch bei Amazon selbst geführt hat. Demnach wurde durch einen Fehler schlicht zu viel Traffic erzeugt, der einen großen Teil des internen Netzwerks blockierte.
In der Analyse heißt es, dass AWS ein internes Netzwerk für Dienste wie Monitoring, DNS, Autorisierung und Weiteres verwende. Dieses interne Netzwerk sei mit vielen verschiedenen Netzwerkgeräten verbunden, um es global skalieren zu können, und darüber hinaus auch mit dem eigentlichen AWS-Netzwerk.
In der Auswertung heißt es: "Eine automatisierte Aktivität zur Skalierung der Kapazität eines der im AWS-Hauptnetzwerk gehosteten AWS-Dienste löste bei einer großen Anzahl von Clients im internen Netzwerk ein unerwartetes Verhalten aus. Dies führte zu einem starken Anstieg der Verbindungsaktivität, der die Netzwerkgeräte zwischen dem internen Netzwerk und dem AWS-Hauptnetzwerk überforderte, was zu Verzögerungen bei der Kommunikation zwischen diesen Netzwerken führte."
Automatisierung wird vorerst nicht genutzt
Davon betroffen waren auch die eigenen Monitoring-Werkzeuge. Dies habe das Auffinden der Ursache für das AWS-Team selbst erschwert, heißt es. Die Beteiligten hätten dann versucht, sich mit Hilfe von Log-Dateien sowie der DNS-Fehler ein besseres Bild des Problems zu verschaffen. Schrittweise seien dann einzelne Probleme sowie letztlich auch die Ursache des Fehlers erkannt und behoben worden.
AWS hat eigenen Angaben zufolge auch Vorkehrungen entworfen, damit sich ein solcher Fehler nicht wiederholt. Bis die Maßnahmen komplett umgesetzt sind, werde die automatisierte Skalierung aber nicht mehr verwendet.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Meine Erfahrung mit Amazon: Ticket erzeugen und warten bis zum nächsten Meeting. Keine...
Zu welchem Anwendungszweck?