Railway: Google sperrt Kundenkonto und legt ganze Cloudplattform lahm
Bei der Cloud-Deployment-Plattform Railway hat es in der Nacht auf den 20. Mai einen mehrstündigen Ausfall gegeben. Ursache war laut Statusmeldung des Betreibers(öffnet im neuen Fenster) ein völlig unerwartet gesperrtes Google-Cloud-Konto. Mittlerweile sind die Dienste von Railway wieder online. Gut für die Geschäftsbeziehungen zwischen Google und Railway dürfte der Vorfall aber nicht gewesen sein.
Eine erste Statusmeldung zu dem Ausfall veröffentlichte Railway gegen 00:29 Uhr deutscher Zeit. Begonnen haben soll er aber schon rund 20 Minuten früher. Die Rede ist von einer "weitreichenden Dienststörung" mit Anmeldefehlern und Problemen beim Zugriff auf die API und das Dashboard des Anbieters.
Um 01:37 Uhr schrieb Railway, Google Cloud habe das Konto des Unternehmens gesperrt. Zwar hatte Railway wohl recht schnell wieder Zugriff auf den Account, aufgrund einiger Folgeeffekte dauerte es jedoch noch bis etwa 06:00 Uhr, bis alle Dienste wieder verfügbar waren. Als vollständig behoben markiert wurde der Vorfall um 09:57 Uhr deutscher Zeit.
Totalausfall Made by Google
Wer sich für weitere Details zu der Störung interessiert, findet diese im Post-Mortem-Bericht von Railway(öffnet im neuen Fenster). Demnach betraf der Ausfall auch Datenbanken und Teile der internen Netzwerkinfrastruktur des Unternehmens. Nutzer des Dienstes wurden wohl mit Fehlermeldungen wie "no healthy upstream" und "unconditional drop overload" konfrontiert und konnten sich nicht anmelden.
"Zum Höhepunkt der Störung waren alle Railway-Workloads in allen Regionen nicht mehr erreichbar", heißt es im Bericht. Nach Wiederherstellung des Google-Cloud-Kontos soll es noch zu Rückstaus bei bisher unverarbeiteten Deployments gekommen sein, die schrittweise abgebaut werden mussten.
Zudem habe Github die OAuth- und Webhook-Integrationen von Railway gedrosselt, was wohl zu weiteren Verzögerungen geführt hat. "Als Nebeneffekt wurden auch die Aufzeichnungen zur Zustimmung zu den Nutzungsbedingungen zurückgesetzt, so dass die Nutzer bei ihrem nächsten Besuch des Dashboards erneut ihre Zustimmung geben mussten", schreibt Railway weiter.
Railway gelobt Besserung
Die Sperrung des Google-Cloud-Kontos erfolgte den Angaben zufolge automatisiert. Auch andere Accounts sollen davon betroffen gewesen sein. "Da es sich um eine plattformweite Maßnahme handelte, erfolgte vor der Sperrung keine Benachrichtigung der einzelnen Kunden", erklärt Railway. Was genau die Ursache dafür war, ist noch unklar, jedoch wäre das für Google Cloud gewiss nicht die erste Panne, die Kunden des Konzerns weitreichende Ausfälle beschert.
Railway betont in seinem Bericht, dass die Systeme des Unternehmens auf eine hohe Ausfallsicherheit ausgelegt seien. "Das Netzwerk von Railway ist ein Mesh-Ring, der aus hochverfügbaren Glasfaserverbindungen zwischen Metal, GCP und AWS besteht", heißt es im Vorfallsbericht.
"In diesem Ring bestand jedoch eine starke Abhängigkeit von der Workload-Erkennbarkeit, die an die Netzwerk-Control-Plane-API gebunden war, welche auf den bei Google Cloud laufenden Maschinen gehostet wurde." Das Mesh sei nach der Kontosperrung zwar weitergelaufen, "aber als der Routen-Cache ablief, konnten die Routing-Tabellen nicht neu gefüllt werden".
Diese Abhängigkeit will Railway künftig beseitigen, "so dass auch bei Ausfall einer der Verbindungen stets ein Pfad zwischen den Clouds besteht". Zudem will sich das Unternehmen speziell von Google Cloud weniger abhängig machen. Google-Cloud-Dienste sollen bei Railway künftig "nur noch für sekundäre Zwecke bzw. als Failover-Lösung" genutzt werden.
- Anzeige Hier geht es zum Eero Pro 6 bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



