Auch Datenbanken fielen aus
Auch Amazons Cloud-Datenbank RDS (Relational Database Service) war von dem Ausfall der EBS-Nodes betroffen. RDS-Instanzen, die nur in einer Verfügbarkeitszone liefen, fielen fast alle schlagartig aus. Sobald die EBS-Server wieder verfügbar waren, liefen auch die RDS-Systeme weitgehend wieder. Waren die EBS-Volumes aber nicht konsistent, mussten die Kunden auf Backups zurückgreifen, die Amazon automatisch erstellt, wenn die Kunden dies nicht abschalten.
Allerdings waren die Probleme bei RDS nicht auf die eine Zone beschränkt: Auch einige Datenbanken, die auf mehrere Verfügbarkeitszonen verteilt wurden, hatten Probleme, wenige davon auch länger anhaltende. Eigentlich sollte beim Ausfall eines primären Datenbanksystems automatisch auf das Backup umgeschaltet werden. Bevor dies aber passiert, wird eine "Gesundheistprüfung" des anderen Systems vorgenommen, um zu vermeiden, dass sich beide Instanzen für die primäre halten. Diese Abfrage aber schlug aufgrund eine DNS-Problems, ausgelöst durch den Stromausfall, in einigen Fällen fehl, so dass nicht automatisch umgeschaltet wurde.
Die DNS-Probleme waren zwar in vier Minuten behoben und nach spätestens 14 Minuten waren die Backups aller betroffenen Systeme eingesprungen, bei einigen Kunden führte ein Softwarebug aber zu weiteren Verzögerungen.
Amazon will Systeme verbessern
Damit ein solches Problem in Zukunft nicht mehr auftritt, will Amazon verschiedene Maßnahmen ergreifen: So sollen die PLCs zur Synchronisation der Phasen redundant ausgelegt und stärker isoliert werden.
Das EC2-Verwaltungssystem soll verbessert werden, damit es durch einzelne Ausfälle nicht mehr zu Verzögerungen in andern Zonen kommt. Bis alle geplanten Änderungen umgesetzt sind, könne es aber einige Monate dauern, erklärte Amazon.
Bei EBS soll die Zeit zur Wiederherstellung stehengebliebener Systeme erheblich reduziert werden. Künftig soll es nicht mehr notwendig sein, Daten auf S3 zu kopieren, um einen Recovery-Snapshot zu installieren.
Nutzern, deren Systeme in der betroffenen Zone liefen, gewährt Amazon zehn Tage kostenlose Nutzung, ganz gleich, ob es zu Problemen kam oder nicht.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Probleme wirken sich auf andere Zonen aus |
Naja, wären nur ein paar einzelne Server ausgefallen, hätte alles wunderbar funktioniert...
Sehr gut.. YMMD 2!
Irgendwie scheint es dass wenn immer bei Amazon etwas ausfällt, dass der ganze rest...
... hätte ich in der dritten Klasse, wegen der vielen Wortwiederholungen, nur ne 3...