Cloud-Storage: Tippfehler für AWS-S3-Ausfall verantwortlich
Menschliches Versagen hat zum Ausfall zahlreicher Internetdienste geführt: Ein falsch eingegebenes Kommando legte die Metadatenverwaltung des AWS-S3-Speichers lahm.

Amazon hat nach dem Ausfall seiner S3-Cloud-Storage-Dienste in einem Rechenzentrum im US-Bundesstaat Virginia erstmals Angaben zur Ausfallursache gemacht. Einer der Administratoren nahm versehentlich zu viele Server vom Netz, was dann eine Art Kettenreaktion auslöste.
Verantwortlich dafür war ein Tippfehler oder, wie Amazon schreibt, "eines der Kommandos wurde falsch eingegeben und ein größeres Set von Servern als beabsichtigt wurde aus dem S3-Subsystem herausgelöst." Eigentlich sollte nur ein zu Abrechnungszwecken genutztes Subsystem heruntergefahren werden, der Fehler sorgte aber dafür, dass zwei weitere Subsysteme offline genommen wurden.
Eines dieser Systeme wurde als Index eingesetzt, war also für die Verwaltung der Metadaten und Ablageinformationen im S3-Storage-System verantwortlich. Dieses System ist nach Angaben von Amazon notwendig, um alle GET-, LIST-, PUT- und DELETE-Befehle auszuführen. Das zweite betroffene System wurde als eine Art Load-Balancer für das verteilte Ablegen von Daten eingesetzt.
Neustart braucht Zeit
Nach dem erfolgreichen Neustart der Systeme brauchten andere AWS-Dienste, die auf S3 aufbauen, noch etwas Zeit, um wieder normal zu laufen. Zu diesen Diensten gehörten Amazon Elastic Computer Cloud (EC2), das Starten neuer Instanzen, Amazon Elastic Block Store (EBS) und AWS Lambda.
Man sei zwar darauf eingerichtet, auch größere Teile des S3-Subsystems kurzfristig ohne Störung abzuschalten. Einen kompletten Neustart des Index-Subsystems habe man aber seit Jahren nicht mehr vorgenommen. Ein überarbeitetes Administratorenwerkzeug soll künftig dafür sorgen, dass nicht mehr so viel Kapazität auf einen Schlag entfernt werden kann.
The Register zitiert die Analysefirma Cyence mit der Einschätzung, dass der Ausfall bei S&P 500 Firmen aus den USA einen Schaden von rund 150 Millionen US-Dollar verursacht habe, im Finanzbereich soll der Schaden etwa 160 Millionen US-Dollar betragen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
% find . -name "_build" -exec "rm -rf" find: missing argument to `-exec' % find . -name...
Es ist schon erstaunlich da wächst vor unseren Augen das Web 3.0 und kaum jemand bemerkt...
BWL ist trotzdem teilweise echt bescheuert :D
DAs bestreitet ja auch keiner. Aber die Wolke beherbergt das halbe Internet und die...