Anzeige

EC2 und RDS

Amazon erklärt Ausfall seiner Cloud-Server

Ein Routingfehler im Rahmen eines Netzwerkupgrades ist für den Ausfall von Amazons Cloud-Servern verantwortlich. Der kleine Fehler führte zu einer Kettenreaktion, langen Ausfällen und bei einigen Kunden sogar zu Datenverlust.

Anzeige

Amazon hat den Ausfall seiner Cloud-Server in den USA am Osterwochenende ausführlich erläutert und erklärt, wie dies in Zukunft verhindert werden soll. Ausgangspunkt war ein Routingfehler im Rahmen eines Netzwerkupgrades für den Cloud-Speicherdienst Amazon Elastic Block Store (EBS). Dieser verfügt über zwei Netzwerke, ein primäres mit hoher Kapazität und ein sekundäres mit verringerter Kapazität. Darüber kommunizieren die einzelnen Cluster-Nodes einer EBS-Zone miteinander. Statt den Netzwerkverkehr für das Update auf einen redundanten Router des primäres Netzes umzuleiten, wurde der Traffic einiger Nodes des EBS-Clusters auf das sekundäre Netz geleitet, was dafür nicht ausgelegt ist. Dies setzte eine Kettenreaktion in Gang, die durch Mechanismen verstärkt wurde, die Datenverlust verhindern sollen.

Infolge des Routingfehlers war eine größere Zahl an EBS-Nodes komplett von den übrigen EBS-Nodes abgeschnitten, da sowohl das primäre als auch das sekundäre Netz wegfielen. Da die einzelnen Nodes ihre Daten immer auf andere Nodes replizieren, verloren die abgeschnittenen Nodes auch die Verbindung zu ihren Replikationspartnern. Nachdem der Rountingfehler korrigiert war, taten diese Nodes, was eigentlich Datenverlust verhindern soll: Sie suchten neue Replikationspartner mit freiem Speicherplatz. Was in einem normal funktionierenden Cluster nur einige Millisekunden dauert, nahm in diesem Fall aber viel Zeit in Anspruch, denn aufgrund der vielen Anfragen stand so schnell kein freier Speicherplatz im Cluster zur Verfügung. Dadurch blieben rund 13 Prozent der EBS-Nodes in dieser Zone hängen, beantworteten also weder Schreib- noch Leseanfragen.

Das EBS-Kontrollsystem wurde ebenfalls in Mitleidenschaft gezogen, so dass in dem Cluster keine neuen Volumes mehr angelegt werden konnten.

Verschlimmert wurde alles noch durch zwei weitere Faktoren: Die ausgefallenen Nodes hörten nicht auf, nach freiem Speicherplatz zu suchen und es trat eine Race-Condition im EBS-Code zutage, was zu weiteren Ausfällen von EBS-Nodes führte.

Amazons EC2-Server greifen auf EBS zu, um ihre Daten zu speichern und waren dadurch ebenfalls betroffen. Wenn ein Node seinen Replikationspartner wechselt, dann muss dies der zugehörigen EC2-Instanz gemeldet werden. Das sorgt für hohe Konsistenz der EBS-Volumes, in diesem Fall aber auch dafür, dass der dazugehörige Kontrolldienst unter hohe Last geriet, was den Anfragestau nochmals erhöhte und sich das auch auf andere Zonen auswirkte.

Auch Amazon Relational Database Service betroffen

Besonders hart traf der Ausfall allerdings Amazons Relational Database Service (RDS), der auf EBS zugreift, um dort Datenbanken und Logfiles zu speichern. Fällt nur ein EBS-Volume aus, bleibt die gesamte RDS-Instanz hängen. Da RDS-Instanzen in aller Regel auf mehrere EBS-Volumes zugreifen, waren in der betroffenen Zone bis zu 45 der RDS-Instanzen betroffen.

Um ähnliche Vorfälle in Zukunft zu vermeiden, will Amazon an mehreren Punkten ansetzen: Erstens sollen Veränderungen genauer geprüft und stärker automatisiert werden, so dass ein Rountingfehler, wie im aktuellen Fall, nicht mehr auftritt. Zweitens soll EBS fehlertoleranter werden. Amazon will zudem mehr freie Kapazitäten vorhalten, damit künftig auch bei solch großen Ausfällen ausreichend Ressourcen zur Verfügung stehen. Auch das Verhalten der Nodes in Fehlerfällen soll verändert werden, damit sich eine Kettenreaktion, wie im vorliegenden Fall, nicht wiederholen kann. Und auch die aufgetretene Race-Condition wurde identifiziert und eine Korrektur wird getestet.

Eine Sache können auch die Amazon-Kunden machen, um die Auswirkungen solcher Ausfälle auf ihr Geschäft zu verringern: Amazon bietet die Möglichkeit, Dienste über mehrere Verfügbarkeitszonen zu verteilen. Wer das getan hat, sollte im aktuellen Fall kaum Auswirkungen gespürt haben, da die Problematik weitgehend auf eine solche Verfügbarkeitszone beschränkt war. Allerdings ist die Nutzung mehrerer Verfügbarkeitszonen mit etwas Aufwand auf Applikationsseite verbunden. Das will Amazon künftig reduzieren, damit mehr Kunden ihre Angebote auf mehrere Zonen verteilen können.

Kunden, deren Server oder Datenbanken auf EBS-Volumes in der betroffenen Zone zugegriffen haben, gewährt Amazon zehn Tage kostenlose Nutzung, ganz gleich, ob ihre Server oder Datenbanken von den Problemen direkt betroffen waren oder nicht.


SunnyS 01. Mai 2011

Ich würde sagen, man hat zwar eine gute Idee gehabt aber eben nicht an alles gedacht. So...

Hotohori 30. Apr 2011

Das stimmt, die Offenheit hilft sicherlich zum einen ein paar Kunden doch halten zu...

Kommentieren


hannes kainzbauer / 02. Mai 2011



Anzeige

  1. IT-Spezialist (m/w) Infrastruktur und Anwendungsbetreuung
    Madeleine Mode GmbH, Zirndorf (bei Nürnberg/Fürth)
  2. IT Inhouse SAP Einkaufslogistik SRM (m/w)
    Media-Saturn IT-Services GmbH, Ingolstadt
  3. Teamleiter (m/w) Functional Test
    T-Systems Multimedia Solutions GmbH, Dresden
  4. Frontend Developer (m/w) JavaScript / AngularJS
    über personal total GmbH München-Riem, München

Detailsuche


Spiele-Angebote
  1. VORBESTELLBAR: World of Warcraft: Legion (Add-On) - Collector's Edition
    79,99€ (Vorbesteller-Preisgarantie)
  2. GRATIS: The Witcher 2 für Xbox One
  3. Xbox-360-Spiele für je 6,99€
    (u. a. Halo 4, Fable Anniversary, Dance Central 3, Kinectimals mit Bären)

Weitere Angebote


Folgen Sie uns
       


  1. Die Woche im Video

    Raider heißt jetzt Twix ...

  2. Alpenföhn

    Der Olymp soll 340 Watt an Leistung abführen

  3. Eurocom X9E

    Monster-Notebook nutzt Diamant- und Flüssigmetallpaste

  4. Willkürliche Festsetzung

    Schwedische Regierung spottet über Assange

  5. IoT statt Smartphones

    Mozilla gibt Firefox OS schneller auf als erwartet

  6. Rise of the Tomb Raider

    Update schafft Klarheit

  7. Time Machine VR angespielt

    Wir tauchen mit den Monstern der Tiefe

  8. KEF

    Kommission empfiehlt Senkung des Rundfunkbeitrags

  9. Helio X20

    Mediatek bestreitet Hitzeprobleme des Smartphone-Chips

  10. Container

    CoreOS setzt mit rkt 1.0 weiter auf Sicherheit



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Künstliche Intelligenz: Alpha Go spielt wie ein Japaner
Künstliche Intelligenz
Alpha Go spielt wie ein Japaner
  1. Nachruf KI-Pionier Marvin Minsky mit 88 Jahren gestorben
  2. CNTK Microsoft gibt Deep-Learning-Toolkit frei
  3. OpenAI Elon Musk unterstützt Forschung an gemeinnütziger KI

Tails 2.0 angeschaut: Die Linux-Distribution zum sicheren Surfen neu aufgelegt
Tails 2.0 angeschaut
Die Linux-Distribution zum sicheren Surfen neu aufgelegt

Asus Strix Soar im Test: Wenn die Soundkarte vom Pixelbeschleuniger bespielt wird
Asus Strix Soar im Test
Wenn die Soundkarte vom Pixelbeschleuniger bespielt wird
  1. Geforce GT 710 Nvidias Einsteigerkarte soll APUs überflüssig machen
  2. Theremin Geistermusik mit dem Arduino
  3. Musikdienst Sonos soll ab Mitte Dezember Apple Music streamen können

  1. Re: wir halten das schlicht für Unfug...

    Muellersmann | 10:21

  2. Re: Netscape scheint immer noch durch

    Tylon | 10:14

  3. Re: Demokratie? Rechtsstaatlichkeit? Am Arsch!

    raphaelo00 | 10:11

  4. Re: Bei E-Plus gibts doch eh nur Edge

    iToms | 10:11

  5. Re: Anbieter bescheißen auch bei Drosselung

    Dragos | 10:09


  1. 09:01

  2. 21:49

  3. 16:04

  4. 15:45

  5. 15:18

  6. 15:02

  7. 14:03

  8. 13:30


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel