Cloud-Ausfall: Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.

Ein Bericht von veröffentlicht am
Der AWS-Ausfall zeigt die Schwächen der Cloud.
Der AWS-Ausfall zeigt die Schwächen der Cloud. (Bild: Jakub Porzycki via Reuters Connect)

Bei einem Wechsel in die Cloud sollten sich Kunden kein Gedanken mehr um Ausfälle machen müssen. Und selbst wenn etwas ausfällt, können die Dienste leicht woanders neu gestartet und wieder benutzt werden - so zumindest das üblicherweise vorgetragene Versprechen vieler Anbieter. Ein massiver und stundenlanger Ausfall der Amazon Web Services (AWS) gestern Abend (MEZ) zeigt jedoch, dass an derartigen Versprechen oft nicht viel dran ist und auch Amazon selbst offenbar massive Probleme damit hatte.

Stellenmarkt
  1. (Wirtschafts-)Informatikerin als IT-Serviceverantwortliche (m/w/d) für den Bereich Netzwerk
    Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V., München
  2. Experte / Inhouse Consultant Cyber Security Product Governance (m/w/d)
    DRÄXLMAIER Group, Vilsbiburg bei Landshut
Detailsuche

Größere Ausfälle von Cloud-Systemen sind für Unternehmenskunden und deren Endverbraucher nichts Neues. Interessant an dem aktuellen Vorfall von AWS ist, dass er laut Unternehmensangaben zwar nur die Region US-East-1 betraf. Zahlreiche zentrale Dienste von AWS selbst sowie seiner Kunden liefen wohl aber ausschließlich in dieser Region, was letztlich zu weltweiten Einschränkungen führte. Der gesamte Ausfall dauerte den Status-Meldungen zufolge rund sieben Stunden.

Bereits in seiner ersten Status-Information zu dem Ausfall schreibt AWS, dass von dem Ausfall seine Werkzeuge zur Überwachung und zum Reagieren auf Ausfälle betroffen seien. So sei es schwierig gewesen, überhaupt Updates zum Status der Arbeiten verbreiten zu können.

Kunden weltweit betroffen

Darüber hinaus hieß es kurze Zeit später: "Root-Anmeldungen für Konsolen in allen AWS-Regionen sind von diesem Problem betroffen." Gemeint ist damit die Managementkonsole, mit der Kunde sämtliche gebuchten Dienste in der AWS-Cloud steuern können. Trotz der weltweit verteilten Rechenzentren von AWS war dieser zentrale Dienst wohl also nicht redundant ausgelegt. Kunden konnten ihre Dienste daher nur noch über Umwege verwalten, selbst wenn sie nicht selbst von dem Ausfall in der US-Region betroffen waren.

Golem Akademie
  1. Jira für Systemadministratoren: virtueller Zwei-Tage-Workshop
    24.–25. Januar 2022, virtuell
  2. Scrum Product Owner: Vorbereitung auf den PSPO I (Scrum.org): virtueller Zwei-Tage-Workshop
    3.–4. März 2022, virtuell
Weitere IT-Trainings

Auf Twitter schrieben Kunden darüber hinaus, dass dies so ähnlich wohl auch für das Support- und Ticket-System galt, das offenbar ebenfalls nur zentral über die betroffene Region gesteuert wurde. Mögliche Probleme im Zusammenhang mit dem Ausfall konnten demnach also auch nicht bearbeitet werden. Der wohl denkbar schlimmste Fall für Admins.

Ausfälle bei Großkunden und Amazon selbst

Welche zentrale Rolle die ausgefallenen Dienste der AWS-Region einnehmen, zeigt sich am Ausmaß der betroffenen Dienste, die AWS verwenden. Medienberichten zufolge betraf dies unter anderem Slack, Ticketmaster, die Trading-App Robinhood, die Kryptobörse Coinbase oder auch Tinder. Aber auch große Streaminganbieter wie Netflix und Disney+ sollen massive Probleme gehabt haben, ebenso wie Online-Games wie PUBG, League of Legends und Valorant.

Auch Amazon selbst war wohl schwerwiegend von dem Ausfall in einer einzelnen Region betroffen. So hatten Kunden Medienberichten zufolge Probleme mit dem Zugriff auf den Alexa-KI-Assistenten, die Kindle-E-Books, Amazon Music oder die smarten Überwachungskameras von Ring.

Die Shopping-Webseite Amazon.com soll ebenfalls Probleme gehabt haben, ebenso das eigene Liefergeschäft von Amazon, das teilweise lahmgelegt gewesen sein soll. Medienberichten zufolge sollen sowohl die zum Ausliefern genutzte Flex-App als auch die Dolphin-App, die der Zeiterfassung dient, nicht einsetzbar gewesen sein. In einigen der Amazon-Lagerhäuser sei es deshalb zu einem Stillstand gekommen, berichten etwa das Magazin Motherboard und die Detroit News.

Ursache für den Fehler seien Probleme mit Netzwerk-Equipment gewesen, also genau jener Technik, die wegen ihrer zentralen Bedeutung eigentlich ausgiebig getestet werden sollte. Erst vor wenigen Wochen sorgte ein Netzwerkfehler bei Facebook im Zusammenhang mit BGP dafür, dass die eigenen Entwickler keinen Zugriff mehr auf die Server hatten. Ob bei Amazon Ähnliches geschehen ist, ist noch nicht bekannt.

Der Autor meint dazu:

Offenbar hat Amazon selbst die vermeintlichen Vorteile seiner Cloud nicht oder zumindest nicht richtig genutzt und sich selbst sowie seine Kunden durch eine zu zentral angelegte Infrastruktur sabotiert. Das ist mehr als peinlich für den Konzern, der Weltmarktführer ist und Jahrzehnte Erfahrung im Cloud-Geschäft hat. Solche Fehler dürften nicht passieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


berritorre 11. Dez 2021 / Themenstart

So sieht es aus.

patka 09. Dez 2021 / Themenstart

Es ist erstaundlich mit anzusehen. Das Internet wurde einst ersonnen, um einen nuklearen...

Maddix 09. Dez 2021 / Themenstart

Das kann ich nur zu 100% so bestätigen, ist bei mir genau das Gleiche. Wer selbst als...

Maddix 09. Dez 2021 / Themenstart

Finde ich auch spannend. Wir haben einen guten Mix aus On-Prem und Cloud. Aber gerade...

Maddix 09. Dez 2021 / Themenstart

Sehe ich auch 100% so. Der Autor des Artikels hat Recht, wenn er schreibt, dass Amazon...

Kommentieren



Aktuell auf der Startseite von Golem.de
Sam Zeloof
Student baut Chip mit 1.200 Transistoren

In seiner Garage hat Sam Zeloof den Z2 fertiggestellt und merkt scherzhaft an, Moore's Law schneller umgesetzt zu haben als Intel selbst.

Sam Zeloof: Student baut Chip mit 1.200 Transistoren
Artikel
  1. Xbox Cloud Gaming: Wenn ich groß bin, möchte ich gerne Netflix werden
    Xbox Cloud Gaming
    Wenn ich groß bin, möchte ich gerne Netflix werden

    Call of Duty, Fallout oder Halo: Neue Spiele bequem am Business-Laptop via Stream zocken, klingt zu gut, um wahr zu sein. Ist auch nicht wahr.
    Ein Erfahrungsbericht von Benjamin Sterbenz

  2. IBM: Watson Health anteilig für 1 Mrd. US-Dollar verkauft
    IBM
    Watson Health anteilig für 1 Mrd. US-Dollar verkauft

    Mit Francisco Partners greift eine große Investmentgruppe zu, das Geschäft mit Watson Health soll laut IBM darunter aber nicht leiden.

  3. Lego Star Wars UCS AT-AT aufgebaut: Das ist kein Mond, das ist ein Lego-Modell
    Lego Star Wars UCS AT-AT aufgebaut
    "Das ist kein Mond, das ist ein Lego-Modell"

    Ganz wie der Imperator es wünscht: Der Lego UCS AT-AT ist riesig und imposant - und eines der besten Star-Wars-Modelle aus Klemmbausteinen.
    Ein Praxistest von Oliver Nickel

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MediaMarkt & Saturn: Heute alle Produkte versandkostenfrei • Corsair Vengeance RGB RT 16-GB-Kit DDR4-4000 114,90€ • Alternate (u.a. DeepCool AS500 Plus 61,89€) • Acer XV282K UHD/144 Hz 724,61€ • MindStar (u.a. be quiet! Pure Power 11 CM 600W 59€) • Sony-TVs heute im Angebot [Werbung]
    •  /