Zum Hauptinhalt Zur Navigation

Atlassian: CTO gibt Details zum Ausfall von Jira und Confluence bekannt

Nicht nur sei ein Script schuld am Ausfall bei Atlassian gewesen, sondern auch schlechte Kommunikation zwischen Teams. CTO Sri Viswanath klärt auf.
/ Oliver Nickel
10 Kommentare News folgen (öffnet im neuen Fenster)
Atlassian entschuldigt sich für den Ausfall. (Bild: Pixabay.com)
Atlassian entschuldigt sich für den Ausfall. Bild: Pixabay.com / Pixabay License

Nachdem Atlassian sich bereits in einer Stellungnahme zum Ausfall von Jira, Confluence und weiteren Diensten geäußert hat, meldet sich nun auch CTO Sri Viswanath(öffnet im neuen Fenster) zu Wort. Er erklärt die vorgefallenen Ereignisse noch einmal etwas genauer. Außerdem entschuldigt er sich bei betroffenen Kunden: "Lassen Sie mich zunächst sagen, dass dieser Vorfall und unsere Reaktionszeit darauf nicht unserem Niveau entsprechen, und ich entschuldige mich im Namen von Atlassian."

Der Vorfall trug sich überhaupt erst zu, weil das Team die Legacy-App der Software Insight Asset Management auf Kundenkonten deaktivieren wollte, auf denen das Programm bereits läuft. Asset Management ist nämlich fest in Kernprodukte wie Jira und Confluence integriert. Für diesen Zweck hatte das Team bereits zuvor ein Script geschrieben, welches mehrere Instanzen einer Software durch Angabe von IDs deaktivieren kann.

Falsche IDs übergeben

Allerdings kam es zu Kommunikationsproblemen: Das Team, welches die Deaktivierung beauftragte, gab die IDs des gesamten Cloud-Standortes einzelner Kunden an das Lösch-Team weiter, statt die IDs für die einzelnen Apps herauszusuchen. Das Script selbst wurde zudem im falschen Ausführungsmodus gestartet. Es ermöglicht die Markierung von zu löschenden Daten, damit diese eventuell wiederhergestellt werden können.

Alternativ gibt es den Modus zur permanenten Löschung von Daten, etwa um Datenschutz- und Compliance-Richtlinien zu entsprechen. "Das Script wurde also mit dem falschen Ausführungsmodus und der falschen Liste von IDs ausgeführt. Das Ergebnis war, dass ganze Sites für ungefähr 400 Kunden unsachgemäß gelöscht wurden." , schreibt Viswanath.

Manuelle Wiederherstellung dauert fünf Tage

Der Wiederherstellungsprozess für die 400 betroffenen Kunden ist nach mehr als einer Woche erst zu 45 Prozent abgeschlossen. Laut Atlassian kann das noch bis zu zwei weitere Wochen dauern. Das Problem: Es ist zwar möglich, Daten einzelner Kunden durch Backups der letzten dreißig Tage schnell wiederherzustellen. Allerdings hat das Unternehmen noch keinen Prozess implementiert, um die Daten mehrerer Kunden gleichzeitig zurückzuspielen.

Reklame

Handbuch für Softwareentwickler: Das Standardwerk für professionelles Software Engineering

Jetzt bestellen bei Amazon (öffnet im neuen Fenster)

Atlassian legt die Daten mehrerer Kunden auf einem Datenspeicher ab. Entsprechend werden diese Speicher, auf denen die Backups der betroffenen Kunden liegen, weiterhin von anderen Kunden genutzt. Das Restore-Team muss nun manuell einzelne Teile der zerstörten Cloud-Sites extrahieren und aus unterschiedlichen Datenspeichern zusammenfügen. Wiederhergestellte Standorte müssen zudem validiert und von Kunden abgenommen werden, was weitere Zeit kostet.

Einige dieser Schritte hat Atlassian wohl bereits stärker automatisiert, etwa das Reaktivieren der Metadaten innerhalb des Orchestrierungssystems, die Wiederherstellung von Userkonten und Rechten für die Site und die Reaktivierung von Apps und Zahlungsinformationen, die nicht direkt mit vom Kunden generierten Daten verbunden sind. Insgesamt soll es so etwa vier bis fünf Tage dauern, bis ein Standort wieder an Kunden übergeben werden kann.

Viswanath verspricht Besserung und will Kunden mit täglichen Updates auf dem Laufenden halten: "Wir werden rund um die Uhr weiterarbeiten, bis die Site jedes einzelnen Kunden wiederhergestellt ist." Außerdem soll es später eine Nachbesprechung geben, die den Vorfall zusammenfasst und Details öffentlich kommuniziert.


Relevante Themen