Atlassian: CTO gibt Details zum Ausfall von Jira und Confluence bekannt
Nicht nur sei ein Script schuld am Ausfall bei Atlassian gewesen, sondern auch schlechte Kommunikation zwischen Teams. CTO Sri Viswanath klärt auf.

Nachdem Atlassian sich bereits in einer Stellungnahme zum Ausfall von Jira, Confluence und weiteren Diensten geäußert hat, meldet sich nun auch CTO Sri Viswanath zu Wort. Er erklärt die vorgefallenen Ereignisse noch einmal etwas genauer. Außerdem entschuldigt er sich bei betroffenen Kunden: "Lassen Sie mich zunächst sagen, dass dieser Vorfall und unsere Reaktionszeit darauf nicht unserem Niveau entsprechen, und ich entschuldige mich im Namen von Atlassian."
Der Vorfall trug sich überhaupt erst zu, weil das Team die Legacy-App der Software Insight Asset Management auf Kundenkonten deaktivieren wollte, auf denen das Programm bereits läuft. Asset Management ist nämlich fest in Kernprodukte wie Jira und Confluence integriert. Für diesen Zweck hatte das Team bereits zuvor ein Script geschrieben, welches mehrere Instanzen einer Software durch Angabe von IDs deaktivieren kann.
Falsche IDs übergeben
Allerdings kam es zu Kommunikationsproblemen: Das Team, welches die Deaktivierung beauftragte, gab die IDs des gesamten Cloud-Standortes einzelner Kunden an das Lösch-Team weiter, statt die IDs für die einzelnen Apps herauszusuchen. Das Script selbst wurde zudem im falschen Ausführungsmodus gestartet. Es ermöglicht die Markierung von zu löschenden Daten, damit diese eventuell wiederhergestellt werden können.
Alternativ gibt es den Modus zur permanenten Löschung von Daten, etwa um Datenschutz- und Compliance-Richtlinien zu entsprechen. "Das Script wurde also mit dem falschen Ausführungsmodus und der falschen Liste von IDs ausgeführt. Das Ergebnis war, dass ganze Sites für ungefähr 400 Kunden unsachgemäß gelöscht wurden.", schreibt Viswanath.
Manuelle Wiederherstellung dauert fünf Tage
Der Wiederherstellungsprozess für die 400 betroffenen Kunden ist nach mehr als einer Woche erst zu 45 Prozent abgeschlossen. Laut Atlassian kann das noch bis zu zwei weitere Wochen dauern. Das Problem: Es ist zwar möglich, Daten einzelner Kunden durch Backups der letzten dreißig Tage schnell wiederherzustellen. Allerdings hat das Unternehmen noch keinen Prozess implementiert, um die Daten mehrerer Kunden gleichzeitig zurückzuspielen.
Atlassian legt die Daten mehrerer Kunden auf einem Datenspeicher ab. Entsprechend werden diese Speicher, auf denen die Backups der betroffenen Kunden liegen, weiterhin von anderen Kunden genutzt. Das Restore-Team muss nun manuell einzelne Teile der zerstörten Cloud-Sites extrahieren und aus unterschiedlichen Datenspeichern zusammenfügen. Wiederhergestellte Standorte müssen zudem validiert und von Kunden abgenommen werden, was weitere Zeit kostet.
Einige dieser Schritte hat Atlassian wohl bereits stärker automatisiert, etwa das Reaktivieren der Metadaten innerhalb des Orchestrierungssystems, die Wiederherstellung von Userkonten und Rechten für die Site und die Reaktivierung von Apps und Zahlungsinformationen, die nicht direkt mit vom Kunden generierten Daten verbunden sind. Insgesamt soll es so etwa vier bis fünf Tage dauern, bis ein Standort wieder an Kunden übergeben werden kann.
Viswanath verspricht Besserung und will Kunden mit täglichen Updates auf dem Laufenden halten: "Wir werden rund um die Uhr weiterarbeiten, bis die Site jedes einzelnen Kunden wiederhergestellt ist." Außerdem soll es später eine Nachbesprechung geben, die den Vorfall zusammenfasst und Details öffentlich kommuniziert.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Du wärst überrascht, was für eine starke Rolle Jira und Confluence in der internen...
...oder einfach eine Mail an den Autor schreiben. Die bekommt der auch.
wenn sie auch den letzten Kunden in die Cloud gezwungen haben, alle On-Prems remote...
Mich würde mal ein ERM interessieren, sowie das Format der ID-Felder. Warum sind IDs von...