• IT-Karriere:
  • Services:

Probleme wirken sich auf andere Zonen aus

Dann breiteten sich die Probleme weiter aus. Ab 11:05 Uhr verzeichnete Amazon API-Fehler in allen Verfügbarkeitszonen in der westlichen EU. Das EC2-Verwaltungssystem nutzt Server in allen Verfügbarkeitszonen und routete auch Aufgaben an Verwaltungsserver in den ausgefallen Zonen, die nicht erreichbar waren. Zudem nahm das Verwaltungssystem weiterhin Aufträge zur Ausführung von EC2-Instanzen in der ausgefallenen Verfügbarkeitszone an, die in eine Warteschlange gestellt und nicht abgelehnt wurden. Dadurch verlängerte sich die Startzeit für EC2-Instanzen. Erst nachdem Amazon den Start von EC2-Instanzen in der ausgefallenen Zone gegen 12:00 Uhr deaktiviert hatte, normalisierte sich die Startzeit für EC2-Instanzen in den anderen Zonen wieder.

Stellenmarkt
  1. M-net Telekommunikations GmbH, München
  2. Stadtverwaltung Bocholt, Bocholt

Zwar konnte Amazon die Stromversorgung vieler EC2- und EBS-Systeme gegen 11:54 Uhr wiederherstellen, doch erst um 1:49 Uhr war auch das Netzwerk ausreichend mit Strom versorgt, so dass die Zone wieder ans Internet angebunden werden konnte. Dadurch waren viele Systeme in der Zone wieder verfügbar. Doch die Probleme waren damit nicht gelöst.

Amazons Elastic Block Storage ging der Speicher aus

Amazons EC2 nutzt Amazons EBS, um Daten zu speichern, und das Speichersystem Elastic Block Storage bereitete größere Probleme. Sie waren in der Art und Weise begründet, wie EBS funktioniert: Die einzelnen Nodes spiegeln ihre Daten auf andere Nodes, um einem Datenverlust bei Ausfällen vorzubeugen. Verliert eine EBS-Node die Verbindung zu einem anderen EBS-Server, auf den er Daten repliziert, sucht sich dieser Server einen anderen, um seine Daten dort zu spiegeln. Bis ein neuer Partner gefunden ist, werden aber keine Daten geschrieben.

Da zahlreiche EBS-Nodes in der betroffenen Zone ausgefallen waren, ging Amazon der Speicherplatz aus, bevor alle Speicher-Volumes neu gespiegelt werden konnten.

Für eine EC2-Instanz ist der Ausfall seines EBS-Nodes ein Problem, denn es kann dann keine Daten mehr schreiben und bleibt stehen. Im Normalfall sucht sich eine EC2-Instanz einen neuen EBS-Server, doch in diesem Fall blieb die Suche zum Teil ohne Erfolg; die betroffenen EC2-Server blieben stehen. Und da viele EBS-Nodes mangels Speicherplatz ihre Daten nicht spiegeln konnten, blockierten sie die Schreibzugriffe.

Um die EC-Systeme wieder zum Laufen zu bringen, musste Amazon für zusätzliche Speicherkapazität sorgen. Das aber brauchte Zeit, da in der Nacht zunächst zusätzliche Systeme aus einem anderen Rechenzentrum herangeschafft werden mussten. Sobald der zusätzliche Speicher online war, beruhigte sich die Situation.

Datenverlust nicht ausgeschlossen

Amazon kann aber nicht ausschließen, dass es in einigen Fällen Datenverluste gegeben hat. Falls eine EC2-Instanz und sämtliche EBS-Nodes, auf denen ihre Daten lagen, ausgefallen sind, kann Amazon nicht sicherstellen, dass alle Daten auf allen Nodes konsistent sind. Wird ein inkonsistentes Volume wieder hochgefahren, könnte es zu größeren Problemen durch unentdeckte, latent vorhandene Datenfehler kommen, erklärte Amazon. Kann Amazon nicht sicherstellen, dass die Daten auf den EBS-Servern konsistent sind, wird ein Recovery-Snapshot erstellt, aus dem Kunden eine neue Instanz erzeugen und auf Konsistenz prüfen können.

Diese Snapshot-Erstellung aber dauerte eine Weile, da zunächst die Daten aller Nodes auf Amazons Cloud-Speicher S3 kopiert, dann ins Recovery-Snapshot-Format umgewandelt und erneut kopiert werden mussten, damit die Kunden Zugriff auf die Snapshots hatten. Um 6:04 Uhr am 9. August 2011, also knapp zwei Tage nach dem Beginn des Ausfalls, standen erst 38 Prozent der Recovery-Snapshots bereit, am 10. August um 2:37 Uhr waren es 85 Prozent und um 20:25 Uhr am selben Tag 98 Prozent.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Cloud-Computing: Amazons Speichersystem ging der Platz ausAuch Datenbanken fielen aus 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Anzeige
Top-Angebote
  1. 29,90€ + Versand oder kostenlose Marktabholung (Bestpreis!)
  2. (u. a. Anno 1800 für 26,99€, Railway Empire für 14,99€, Code Vein für 16,99€)
  3. 119,90€ (Bestpreis mit Amazon)

abfallwoscht 15. Aug 2011

Naja, wären nur ein paar einzelne Server ausgefallen, hätte alles wunderbar funktioniert...

Loolig 15. Aug 2011

Sehr gut.. YMMD 2!

Threat-Anzeiger 15. Aug 2011

Irgendwie scheint es dass wenn immer bei Amazon etwas ausfällt, dass der ganze rest...

misterunknown 15. Aug 2011

... hätte ich in der dritten Klasse, wegen der vielen Wortwiederholungen, nur ne 3...

matthias.reissner 15. Aug 2011

Zitat aus dem Artikel: Auch hier wurde offensichtlich die Software nicht getestet.


Folgen Sie uns
       


Assassin's Creed Valhalla - Fazit

Im Video stellt Golem.de das Action-Rollenspiel Assassins's Creed Valhalla vor, das Spieler als Wikinger nach England schickt.

Assassin's Creed Valhalla - Fazit Video aufrufen
Bill Gates: Mit Technik gegen die Klimakatastrophe
Bill Gates
Mit Technik gegen die Klimakatastrophe

Bill Gates' Buch über die Bekämpfung des Klimawandels hat Schwächen, es lohnt sich aber trotzdem, dem Microsoft-Gründer zuzuhören.
Eine Rezension von Hanno Böck

  1. Microsoft-Gründer Bill Gates startet Podcast

Wissen für ITler: 11 tolle Tech-Podcasts
Wissen für ITler
11 tolle Tech-Podcasts

Die Menge an Tech-Podcasts ist schier unüberschaubar. Wir haben ein paar Empfehlungen, die die Zeit wert sind.
Von Dennis Kogel


    XPS 13 (9310) im Test: Dells Ultrabook ist besser denn je
    XPS 13 (9310) im Test
    Dells Ultrabook ist besser denn je

    Wir dachten ja, bis auf den Tiger-Lake-Chip habe Dell am XPS 13 nichts geändert. Doch es gibt einige willkommene Änderungen.
    Ein Test von Marc Sauter

    1. Dell-Ultrabook XPS 13 mit weniger vertikalen Pixeln
    2. Notebooks Dells XPS 13 mit Intels Tiger Lake kommt
    3. XPS 13 (9300) im Test Dells i-Tüpfelchen

      •  /