Instabile Stromversorgung: Microsoft bestätigt Ausfall von Azure-Diensten

Microsoft hat bestätigt, dass ein Problem mit der Energieversorgung am vergangenen Freitag einen Teil der Infrastruktur des Konzerns in Westeuropa beeinträchtigt habe. Wie das Unternehmen in einem Statusbericht(öffnet im neuen Fenster) erklärte, kam es in der betroffenen Region zu Ausfällen, die verschiedene Azure-Dienste betrafen – darunter die App Service, Cosmos DB, SQL DB, Speicherdienste und virtuelle Maschinen.
Die Auswirkungen des Problems zeigten sich demnach am 20. Oktober 2023 ab 07:31 Uhr (UTC). Infolge einer Instabilität des Stromnetzes in Form von Spannungsabfällen in einem von Microsofts Rechenzentren der physischen Availability Zone AZ-01 habe sich der Konzern entschieden, die Last auf die Notstromgeneratoren zu verlagern. Dabei sei es jedoch zu einem kritischen Ausfall in einem Teil des Stromverteilungssystems gekommen.
"Infolge dieses Ausfalls war etwa ein Prozent unserer Server-Racks in dieser Availability Zone ohne Strom" , erklärte Microsoft weiter. Einen Großteil der Auswirkungen habe das Unternehmen bis 09:15 Uhr eindämmen können, die Wiederherstellung für "eine kleine Untergruppe von Speicherdiensten" habe jedoch bis 17:10 Uhr angedauert.
Defekte Hardwarekomponenten verzögerten Wiederherstellung
Lösen konnten Mitarbeiter von Microsoft das Problem, nachdem sich die Netzstromversorgung im Laufe der Zeit wieder stabilisiert hatte, sodass sich die Last gegen 08:00 Uhr wieder vom Notstromsystem auf die reguläre Energieversorgung übertragen ließ. Danach habe der Konzern die ausgefallenen Systeme wieder in Betrieb genommen, sodass ein Großteil der beeinträchtigten Azure-Dienste bis 09:15 Uhr wieder zur Verfügung gestanden habe.
"Insgesamt waren fünf Storage Scale Units von diesem Vorfall betroffen. Nach der Wiederherstellung der Stromversorgung waren vier von ihnen bis 09:10 Uhr vollständig wiederhergestellt, während bei der fünften eine Hardware-Diagnose und der Austausch von Teilen bei etwa 5 Prozent der Storage-Nodes erforderlich waren" , erklärte Microsoft hinsichtlich der Verzögerung bei der Wiederherstellung einiger Speicherkonten.
Details zu dem Vorfall will der Konzern in den kommenden Tagen in einem ausführlichen Bericht erläutern. Kunden empfiehlt Microsoft, ihre Dienste unter Verwendung von Availability Zones auf physisch voneinander getrennte Standorte innerhalb einer Azure-Region zu verteilen, um die Verfügbarkeit beim Ausfall eines Rechenzentrums weiterhin zu gewährleisten. Weitere Informationen dazu sind in einer Dokumentation(öffnet im neuen Fenster) auf der Webseite des Unternehmens zu finden.