Cloud-Ausfall: Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.

Ein Bericht von veröffentlicht am
Der AWS-Ausfall zeigt die Schwächen der Cloud.
Der AWS-Ausfall zeigt die Schwächen der Cloud. (Bild: Jakub Porzycki via Reuters Connect)

Bei einem Wechsel in die Cloud sollten sich Kunden kein Gedanken mehr um Ausfälle machen müssen. Und selbst wenn etwas ausfällt, können die Dienste leicht woanders neu gestartet und wieder benutzt werden - so zumindest das üblicherweise vorgetragene Versprechen vieler Anbieter. Ein massiver und stundenlanger Ausfall der Amazon Web Services (AWS) gestern Abend (MEZ) zeigt jedoch, dass an derartigen Versprechen oft nicht viel dran ist und auch Amazon selbst offenbar massive Probleme damit hatte.

Stellenmarkt
  1. Senior SAP Consultant SD/MM
    AKASOL AG, Darmstadt
  2. Mitarbeiter im Datenmanagement (m/w/d)
    Flughafen Düsseldorf GmbH, Düsseldorf
Detailsuche

Größere Ausfälle von Cloud-Systemen sind für Unternehmenskunden und deren Endverbraucher nichts Neues. Interessant an dem aktuellen Vorfall von AWS ist, dass er laut Unternehmensangaben zwar nur die Region US-East-1 betraf. Zahlreiche zentrale Dienste von AWS selbst sowie seiner Kunden liefen wohl aber ausschließlich in dieser Region, was letztlich zu weltweiten Einschränkungen führte. Der gesamte Ausfall dauerte den Status-Meldungen zufolge rund sieben Stunden.

Bereits in seiner ersten Status-Information zu dem Ausfall schreibt AWS, dass von dem Ausfall seine Werkzeuge zur Überwachung und zum Reagieren auf Ausfälle betroffen seien. So sei es schwierig gewesen, überhaupt Updates zum Status der Arbeiten verbreiten zu können.

Kunden weltweit betroffen

Darüber hinaus hieß es kurze Zeit später: "Root-Anmeldungen für Konsolen in allen AWS-Regionen sind von diesem Problem betroffen." Gemeint ist damit die Managementkonsole, mit der Kunde sämtliche gebuchten Dienste in der AWS-Cloud steuern können. Trotz der weltweit verteilten Rechenzentren von AWS war dieser zentrale Dienst wohl also nicht redundant ausgelegt. Kunden konnten ihre Dienste daher nur noch über Umwege verwalten, selbst wenn sie nicht selbst von dem Ausfall in der US-Region betroffen waren.

Golem Akademie
  1. Einführung in Unity: virtueller Ein-Tages-Workshop
    17. Februar 2022, Virtuell
  2. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    21.–25. Februar 2022, Virtuell
Weitere IT-Trainings

Auf Twitter schrieben Kunden darüber hinaus, dass dies so ähnlich wohl auch für das Support- und Ticket-System galt, das offenbar ebenfalls nur zentral über die betroffene Region gesteuert wurde. Mögliche Probleme im Zusammenhang mit dem Ausfall konnten demnach also auch nicht bearbeitet werden. Der wohl denkbar schlimmste Fall für Admins.

Ausfälle bei Großkunden und Amazon selbst

Welche zentrale Rolle die ausgefallenen Dienste der AWS-Region einnehmen, zeigt sich am Ausmaß der betroffenen Dienste, die AWS verwenden. Medienberichten zufolge betraf dies unter anderem Slack, Ticketmaster, die Trading-App Robinhood, die Kryptobörse Coinbase oder auch Tinder. Aber auch große Streaminganbieter wie Netflix und Disney+ sollen massive Probleme gehabt haben, ebenso wie Online-Games wie PUBG, League of Legends und Valorant.

Auch Amazon selbst war wohl schwerwiegend von dem Ausfall in einer einzelnen Region betroffen. So hatten Kunden Medienberichten zufolge Probleme mit dem Zugriff auf den Alexa-KI-Assistenten, die Kindle-E-Books, Amazon Music oder die smarten Überwachungskameras von Ring.

Die Shopping-Webseite Amazon.com soll ebenfalls Probleme gehabt haben, ebenso das eigene Liefergeschäft von Amazon, das teilweise lahmgelegt gewesen sein soll. Medienberichten zufolge sollen sowohl die zum Ausliefern genutzte Flex-App als auch die Dolphin-App, die der Zeiterfassung dient, nicht einsetzbar gewesen sein. In einigen der Amazon-Lagerhäuser sei es deshalb zu einem Stillstand gekommen, berichten etwa das Magazin Motherboard und die Detroit News.

Ursache für den Fehler seien Probleme mit Netzwerk-Equipment gewesen, also genau jener Technik, die wegen ihrer zentralen Bedeutung eigentlich ausgiebig getestet werden sollte. Erst vor wenigen Wochen sorgte ein Netzwerkfehler bei Facebook im Zusammenhang mit BGP dafür, dass die eigenen Entwickler keinen Zugriff mehr auf die Server hatten. Ob bei Amazon Ähnliches geschehen ist, ist noch nicht bekannt.

Der Autor meint dazu:

Offenbar hat Amazon selbst die vermeintlichen Vorteile seiner Cloud nicht oder zumindest nicht richtig genutzt und sich selbst sowie seine Kunden durch eine zu zentral angelegte Infrastruktur sabotiert. Das ist mehr als peinlich für den Konzern, der Weltmarktführer ist und Jahrzehnte Erfahrung im Cloud-Geschäft hat. Solche Fehler dürften nicht passieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


berritorre 11. Dez 2021 / Themenstart

So sieht es aus.

patka 09. Dez 2021 / Themenstart

Es ist erstaundlich mit anzusehen. Das Internet wurde einst ersonnen, um einen nuklearen...

Maddix 09. Dez 2021 / Themenstart

Das kann ich nur zu 100% so bestätigen, ist bei mir genau das Gleiche. Wer selbst als...

Maddix 09. Dez 2021 / Themenstart

Finde ich auch spannend. Wir haben einen guten Mix aus On-Prem und Cloud. Aber gerade...

Maddix 09. Dez 2021 / Themenstart

Sehe ich auch 100% so. Der Autor des Artikels hat Recht, wenn er schreibt, dass Amazon...

Kommentieren



Aktuell auf der Startseite von Golem.de
Bundesservice Telekommunikation  
Die dubiose Adresse in Berlin-Treptow

Angeblich hat das Innenministerium nichts mit dem Bundesservice Telekommunikation zu tun. Doch beide teilen sich offenbar ein Bürogebäude.
Ein Bericht von Friedhelm Greis

Bundesservice Telekommunikation: Die dubiose Adresse in Berlin-Treptow
Artikel
  1. Spielebranche: Microsoft will Activision Blizzard übernehmen
    Spielebranche
    Microsoft will Activision Blizzard übernehmen

    Diablo und Call of Duty gehören bald zu Microsoft: Der Softwarekonzern will Activision Blizzard für rund 70 Milliarden US-Dollar kaufen.

  2. E-Mail: Outlook-Suche in MacOS 12.1 ist noch immer kaputt
    E-Mail
    Outlook-Suche in MacOS 12.1 ist noch immer kaputt

    Seit Wochen ärgern sich Outlook-User darüber, dass die E-Mail-Suche unter MacOS 12.1 nicht mehr richtig funktioniert. Ein Fix ist in Arbeit.

  3. Reddit: IT-Arbeiter automatisiert seinen Job angeblich vollständig
    Reddit
    IT-Arbeiter automatisiert seinen Job angeblich vollständig

    Ein anonymer IT-Spezialist will unbemerkt seinen Job vollständig automatisiert haben. Dem Arbeitgeber sei dies seit einem Jahr nicht aufgefallen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 Digital inkl. 2. Dualsense bestellbar • RTX 3080 12GB bei Mindfactory 1.699€ • Samsung Gaming-Monitore (u.a. G5 32" WQHD 144Hz Curved 299€) • MindStar (u.a. GTX 1660 6GB 499€) • Sony Fernseher & Kopfhörer • Samsung Galaxy A52 128GB 299€ • CyberGhost VPN 1,89€/Monat [Werbung]
    •  /