Jira und Confluence: Detaillierter Bericht gibt Einblick in Ausfall bei Atlassian

Der große Ausfall ist vorbei: Atlassian berichtet vom Problem, das 775, statt wie bisher angenommen 400 Kunden betraf. Aus Fehlern soll gelernt werden.

Artikel veröffentlicht am ,
Im April 2022 ist bei Atlassian viel schiefgelaufen. (Symbolbild)
Im April 2022 ist bei Atlassian viel schiefgelaufen. (Symbolbild) (Bild: Pixabay.com/Pixabay License)

Wie bereits zuvor angekündigt hat Atlassian einen detaillierten Nachbericht zum Cloud-Vorfall vom 5. April 2022 verfasst, durch den einige Kunden nicht mehr auf Produkte wie Atlassian und Jira zugreifen und so nicht mehr richtig arbeiten konnten. Der Hersteller stellt bereits direkt klar, dass nicht nur 400, sondern insgesamt 775 Kunden, die 883 Sites nutzten, davon betroffen waren. Für einige dieser Kunden dauerte der Ausfall 14 Tage. Am 18. April 2022 galt er als behoben.

Stellenmarkt
  1. Software Compliance and Asset Management (m/w/d)
    Dürr IT Service GmbH, Bietigheim-Bissingen
  2. SharePoint System Engineering Consultant (w/m/d)
    HanseVision GmbH, Bielefeld, Hamburg, Karlsruhe, Neckarsulm, Mobiles Arbeiten
Detailsuche

Ein fehlerhaft geschriebenes Script war, wie bekannt, am Fehler Schuld. Dieses nahm IDs von einzelnen Apps oder ganzen Sites an und löschte diese ohne eine zweite Nachfrage. Das wurde allerdings erst später klar: In einem zuvor laufenden Testrun wurden nämlich 30 Sites ohne Probleme bearbeitet.

Dort kam es auch noch nicht zu einer Misskommunikation, bei der statt App-IDs ganze Site-IDs von einer Arbeitsgruppe zur nächsten übergeben und anschließend im Script eingetragen wurden. 13 Minuten dauerte es, bis das Script die 883 Sites löschte - zu schnell, um zu intervenieren. Dabei wurden nicht nur Sites, sondern auch Cloud-URLs und Kundendaten gelöscht. Betroffene konnten so nicht auf offiziellem Weg mit dem Atlassian-Kundensupport in Kontakt treten.

Team-Meetings alle drei Stunden

Um den Vorfall rückgängig zu machen, arbeitete ein Notteam 24 Stunden am Tag. Alle drei Stunden trafen sich Teamleiter, um die Lage zu besprechen und die nächsten Schritte abzuklären. Die Teams setzten sich aus diversen Spezialisten aus Kundenservice, Programmmanagement, Entwicklung und Kommunikation zusammen. Entwicklungsarbeiten an neuen und laufenden Projekten wurden durch einen sogenannten Code Freeze eingestellt. Die gesamte Aufmerksamkeit des Konzerns galt der Wiederherstellung von Kundendaten.

Golem Karrierewelt
  1. DP-203 Data Engineering on Microsoft Azure: virtueller Vier-Tage-Workshop
    12.-15.09.2022, virtuell
  2. LDAP Identitätsmanagement Fundamentals: virtueller Drei-Tage-Workshop
    18.-20.10.2022, Virtuell
Weitere IT-Trainings

Atlassian teilte die Wiederherstellung in drei Workstreams auf und parallelisierte so die Arbeit am Problem. Workstream 1 stellte Wiederherstellungsschritte für einzelne Mengen an Sites fest und schrieb Automatisierungssoftware für die Wiederherstellung. Workstream 2 erstellte je eine neue Site für gelöschte Sites. Dann mussten alle darauf laufenden Produkte und Dienste wiederhergestellt werden. Neue Sites erhielten neue Identifier, woraufhin diverse mit Sites verknüpfte Daten mit den neuen IDs aktualisiert werden mussten.

Workstream 3 verbesserte die ursprüngliche Automatisierungsmethode. Zuvor hätte die Wiederherstellung laut Atlassian wohl drei Wochen gedauert. Aus diesem Grund schätzte das Unternehmen anfangs auch den Ausfallzeitraum weitaus länger ein, als er letztlich dauerte. Unter anderem wurden im neuen Prozess die alten IDs der gelöschten Sites wiederverwertet. So mussten verknüpfte Daten nicht mehr aktualisiert werden, was enorm viel Zeit sparte. Zudem wurde der neue Ansatz zunächst getestet. Das zuständige Team musste also zeitweise beide Vorgänge parallel bearbeiten.

Bei der Wiederherstellung half Atlassians eigene Backupstrategie. Das Unternehmen hält diverse Full-Backups und inkrementelle Datensicherungen der letzten 30 Tage vor. Bei vielen Kunden konnten so Backups noch fünf Minuten vor dem Ausfall genutzt werden. Bei 57 Kunden fehlten konsistente Snapshots und es kam zu größerem Datenverlust.

Aus Fehlern soll gelernt werden

Atlassian zieht diverse Konsequenzen aus dem Vorfall. Zuallererst wurde das Löschen mehrerer Sites auf einmal komplett unterbunden. Zudem sollen sogenannte Soft-Deletes über alle Produkte eingeführt werden. Das ist im Prinzip ein weiterer Schritt, der getan werden muss, bis Daten endgültig von der Hardware entfernt werden. Bei Soft Deletes werden normalerweise nur Zeiger und Verweise gelöscht, die eigentlichen Daten aber (noch) nicht.

Der Konzern will einen Automatisierungsprozess einführen, um im Fall einer Löschung mehrerer Sites besagte Daten so schnell wie möglich und auf einen Schlag wiederherzustellen. Es soll zudem ein Leitfaden entstehen, nach dem große Vorfälle wie dieser schneller und effizienter durch die - laut eigenen Aussagen nicht dafür ausgelegten - Teams bearbeitet werden können.

Gleiches gilt für den Kommunikationsprozess mit den Kunden: Es sollen Schlüsselkontakte besser mit Backups gesichert werden. Zudem wird es klarere Regeln geben, nach denen Atlassian mit betroffenen Kunden kommuniziert - möglichst um Missverständnisse zu vermeiden.

Zudem bedankt sich Atlassians CTO Sri Viswanath bei der Community und schließt ab: "Atlassian ist eine lernende Organisation, und unsere Teams haben aus dieser Erfahrung sicherlich viele harte Lektionen gelernt. Wir nutzen diese Lektionen, um unser Geschäft nachhaltig zu verändern."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Windows XP
Janet Jacksons Popsong brachte Laptops zum Absturz

Einmal laut Rhythm Nation gehört, schon stürzte Windows XP ab: Microsoft-Entwickler Chen erzählt vom skurillen Verhalten alter Notebooks.

Windows XP: Janet Jacksons Popsong brachte Laptops zum Absturz
Artikel
  1. Mercedes-Benz EQE im Praxistest: Im Wendekreis des Polo
    Mercedes-Benz EQE im Praxistest
    Im Wendekreis des Polo

    Die Businesslimousine EQE von Mercedes-Benz überzeugt im Praxistest mit hoher Reichweite und Komfort. Doch welchen Schnickschnack braucht man wirklich?
    Ein Praxistest von Friedhelm Greis

  2. Post-Quanten-Kryptografie: Die neuen Kryptoalgorithmen gegen Quantencomputer
    Post-Quanten-Kryptografie
    Die neuen Kryptoalgorithmen gegen Quantencomputer

    Die US-Behörde NIST standardisiert neue Public-Key-Algorithmen - um vor zukünftigen Quantencomputern sicher zu sein.
    Eine Analyse von Hanno Böck

  3. Boom Supersonic: American Airlines bestellt Überschallflugzeuge
    Boom Supersonic
    American Airlines bestellt Überschallflugzeuge

    Die größte Fluggesellschaft der Welt hat 20 Überschallflugzeuge von Boom Supersonic bestellt. Overture soll Ende des Jahrzehnts regulär im Einsatz sein.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 bestellbar bei Amazon & Co. • MSI Geburtstags-Rabatte auf Gaming-Monitore & PCs • Neuer Saturn-Flyer • Game of Thrones reduziert • MindStar (MSI RTX 3070 599€) • Günstig wie nie: Zotac RTX 3080 12GB 829€, Samsung SSD 1TB/2TB (PS5) 111€/199,99€ • Bester 2.000€-Gaming-PC[Werbung]
    •  /