• IT-Karriere:
  • Services:

Cloud-Storage: Tippfehler für AWS-S3-Ausfall verantwortlich

Menschliches Versagen hat zum Ausfall zahlreicher Internetdienste geführt: Ein falsch eingegebenes Kommando legte die Metadatenverwaltung des AWS-S3-Speichers lahm.

Artikel veröffentlicht am ,
Amazon hat den Grund für den AWS-Ausfall bekanntgegeben.
Amazon hat den Grund für den AWS-Ausfall bekanntgegeben. (Bild: Amazon)

Amazon hat nach dem Ausfall seiner S3-Cloud-Storage-Dienste in einem Rechenzentrum im US-Bundesstaat Virginia erstmals Angaben zur Ausfallursache gemacht. Einer der Administratoren nahm versehentlich zu viele Server vom Netz, was dann eine Art Kettenreaktion auslöste.

Stellenmarkt
  1. ICon GmbH & Co. KG, Pforzheim
  2. Dürr Systems AG, Bietigheim-Bissingen

Verantwortlich dafür war ein Tippfehler oder, wie Amazon schreibt, "eines der Kommandos wurde falsch eingegeben und ein größeres Set von Servern als beabsichtigt wurde aus dem S3-Subsystem herausgelöst." Eigentlich sollte nur ein zu Abrechnungszwecken genutztes Subsystem heruntergefahren werden, der Fehler sorgte aber dafür, dass zwei weitere Subsysteme offline genommen wurden.

Eines dieser Systeme wurde als Index eingesetzt, war also für die Verwaltung der Metadaten und Ablageinformationen im S3-Storage-System verantwortlich. Dieses System ist nach Angaben von Amazon notwendig, um alle GET-, LIST-, PUT- und DELETE-Befehle auszuführen. Das zweite betroffene System wurde als eine Art Load-Balancer für das verteilte Ablegen von Daten eingesetzt.

Neustart braucht Zeit

Nach dem erfolgreichen Neustart der Systeme brauchten andere AWS-Dienste, die auf S3 aufbauen, noch etwas Zeit, um wieder normal zu laufen. Zu diesen Diensten gehörten Amazon Elastic Computer Cloud (EC2), das Starten neuer Instanzen, Amazon Elastic Block Store (EBS) und AWS Lambda.

Man sei zwar darauf eingerichtet, auch größere Teile des S3-Subsystems kurzfristig ohne Störung abzuschalten. Einen kompletten Neustart des Index-Subsystems habe man aber seit Jahren nicht mehr vorgenommen. Ein überarbeitetes Administratorenwerkzeug soll künftig dafür sorgen, dass nicht mehr so viel Kapazität auf einen Schlag entfernt werden kann.

The Register zitiert die Analysefirma Cyence mit der Einschätzung, dass der Ausfall bei S&P 500 Firmen aus den USA einen Schaden von rund 150 Millionen US-Dollar verursacht habe, im Finanzbereich soll der Schaden etwa 160 Millionen US-Dollar betragen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Seagate BarraCuda Compute 8 TB für 158,90€ + 6,79€ Versand und Edifier Studio 1280T...
  2. 60,99€ (Vergleichspreis 77,81€)
  3. (u. a. MX500 1 TB für 93,10€ mit Gutschein: NBBCRUCIALDAYS)
  4. (u. a. ASUS TUF Gaming VG32VQ1B WQHD/165 Hz für 330,45€ statt 389€ im Vergleich und Tastaturen...

Sascha Klandestin 06. Mär 2017

% find . -name "_build" -exec "rm -rf" find: missing argument to `-exec' % find . -name...

ShinGouki 04. Mär 2017

Es ist schon erstaunlich da wächst vor unseren Augen das Web 3.0 und kaum jemand bemerkt...

plutoniumsulfat 04. Mär 2017

BWL ist trotzdem teilweise echt bescheuert :D

DerDy 03. Mär 2017

DAs bestreitet ja auch keiner. Aber die Wolke beherbergt das halbe Internet und die...

DerDy 03. Mär 2017

Dann schreib doch eine E-Mail an den Support und schildere dein Problem auf einem...


Folgen Sie uns
       


24-zu-10-Monitor LG 38GL950G - Test

LGs 21:9-Monitor 38GL950G überzeugt durch gute Farben und sehr gute Leistung in Spielen und beim Filmeschauen. Allerdings gibt es einige Probleme beim Übertakten des Panels.

24-zu-10-Monitor LG 38GL950G - Test Video aufrufen
    •  /