Jira und Confluence: Detaillierter Bericht gibt Einblick in Ausfall bei Atlassian

Der große Ausfall ist vorbei: Atlassian berichtet vom Problem, das 775, statt wie bisher angenommen 400 Kunden betraf. Aus Fehlern soll gelernt werden.

Artikel veröffentlicht am ,
Im April 2022 ist bei Atlassian viel schiefgelaufen. (Symbolbild)
Im April 2022 ist bei Atlassian viel schiefgelaufen. (Symbolbild) (Bild: Pixabay.com/Pixabay License)

Wie bereits zuvor angekündigt hat Atlassian einen detaillierten Nachbericht zum Cloud-Vorfall vom 5. April 2022 verfasst, durch den einige Kunden nicht mehr auf Produkte wie Atlassian und Jira zugreifen und so nicht mehr richtig arbeiten konnten. Der Hersteller stellt bereits direkt klar, dass nicht nur 400, sondern insgesamt 775 Kunden, die 883 Sites nutzten, davon betroffen waren. Für einige dieser Kunden dauerte der Ausfall 14 Tage. Am 18. April 2022 galt er als behoben.

Stellenmarkt
  1. IT-Systemadministrator (m/w/d)
    WHO'S PERFECT, München
  2. Data Analyst (m/w/d) Engineering Support / Maschinenbau
    NVL B.V. & Co. KG, Bremen, Lemwerder
Detailsuche

Ein fehlerhaft geschriebenes Script war, wie bekannt, am Fehler Schuld. Dieses nahm IDs von einzelnen Apps oder ganzen Sites an und löschte diese ohne eine zweite Nachfrage. Das wurde allerdings erst später klar: In einem zuvor laufenden Testrun wurden nämlich 30 Sites ohne Probleme bearbeitet.

Dort kam es auch noch nicht zu einer Misskommunikation, bei der statt App-IDs ganze Site-IDs von einer Arbeitsgruppe zur nächsten übergeben und anschließend im Script eingetragen wurden. 13 Minuten dauerte es, bis das Script die 883 Sites löschte - zu schnell, um zu intervenieren. Dabei wurden nicht nur Sites, sondern auch Cloud-URLs und Kundendaten gelöscht. Betroffene konnten so nicht auf offiziellem Weg mit dem Atlassian-Kundensupport in Kontakt treten.

Team-Meetings alle drei Stunden

Um den Vorfall rückgängig zu machen, arbeitete ein Notteam 24 Stunden am Tag. Alle drei Stunden trafen sich Teamleiter, um die Lage zu besprechen und die nächsten Schritte abzuklären. Die Teams setzten sich aus diversen Spezialisten aus Kundenservice, Programmmanagement, Entwicklung und Kommunikation zusammen. Entwicklungsarbeiten an neuen und laufenden Projekten wurden durch einen sogenannten Code Freeze eingestellt. Die gesamte Aufmerksamkeit des Konzerns galt der Wiederherstellung von Kundendaten.

Golem Karrierewelt
  1. LDAP Identitätsmanagement Fundamentals: virtueller Drei-Tage-Workshop
    18.-20.07.2022, Virtuell
  2. Linux-Systeme absichern und härten: virtueller Drei-Tage-Workshop
    07.-09.06.2022, Virtuell
Weitere IT-Trainings

Atlassian teilte die Wiederherstellung in drei Workstreams auf und parallelisierte so die Arbeit am Problem. Workstream 1 stellte Wiederherstellungsschritte für einzelne Mengen an Sites fest und schrieb Automatisierungssoftware für die Wiederherstellung. Workstream 2 erstellte je eine neue Site für gelöschte Sites. Dann mussten alle darauf laufenden Produkte und Dienste wiederhergestellt werden. Neue Sites erhielten neue Identifier, woraufhin diverse mit Sites verknüpfte Daten mit den neuen IDs aktualisiert werden mussten.

Workstream 3 verbesserte die ursprüngliche Automatisierungsmethode. Zuvor hätte die Wiederherstellung laut Atlassian wohl drei Wochen gedauert. Aus diesem Grund schätzte das Unternehmen anfangs auch den Ausfallzeitraum weitaus länger ein, als er letztlich dauerte. Unter anderem wurden im neuen Prozess die alten IDs der gelöschten Sites wiederverwertet. So mussten verknüpfte Daten nicht mehr aktualisiert werden, was enorm viel Zeit sparte. Zudem wurde der neue Ansatz zunächst getestet. Das zuständige Team musste also zeitweise beide Vorgänge parallel bearbeiten.

Bei der Wiederherstellung half Atlassians eigene Backupstrategie. Das Unternehmen hält diverse Full-Backups und inkrementelle Datensicherungen der letzten 30 Tage vor. Bei vielen Kunden konnten so Backups noch fünf Minuten vor dem Ausfall genutzt werden. Bei 57 Kunden fehlten konsistente Snapshots und es kam zu größerem Datenverlust.

Aus Fehlern soll gelernt werden

Atlassian zieht diverse Konsequenzen aus dem Vorfall. Zuallererst wurde das Löschen mehrerer Sites auf einmal komplett unterbunden. Zudem sollen sogenannte Soft-Deletes über alle Produkte eingeführt werden. Das ist im Prinzip ein weiterer Schritt, der getan werden muss, bis Daten endgültig von der Hardware entfernt werden. Bei Soft Deletes werden normalerweise nur Zeiger und Verweise gelöscht, die eigentlichen Daten aber (noch) nicht.

Der Konzern will einen Automatisierungsprozess einführen, um im Fall einer Löschung mehrerer Sites besagte Daten so schnell wie möglich und auf einen Schlag wiederherzustellen. Es soll zudem ein Leitfaden entstehen, nach dem große Vorfälle wie dieser schneller und effizienter durch die - laut eigenen Aussagen nicht dafür ausgelegten - Teams bearbeitet werden können.

Gleiches gilt für den Kommunikationsprozess mit den Kunden: Es sollen Schlüsselkontakte besser mit Backups gesichert werden. Zudem wird es klarere Regeln geben, nach denen Atlassian mit betroffenen Kunden kommuniziert - möglichst um Missverständnisse zu vermeiden.

Zudem bedankt sich Atlassians CTO Sri Viswanath bei der Community und schließt ab: "Atlassian ist eine lernende Organisation, und unsere Teams haben aus dieser Erfahrung sicherlich viele harte Lektionen gelernt. Wir nutzen diese Lektionen, um unser Geschäft nachhaltig zu verändern."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
30 Jahre Alone in the Dark
Als der Horror filmreif wurde

Alone in the Dark feiert Geburtstag. Das Horrorspiel war ein Meilenstein bei der filmreifen Inszenierung von Games. Wie spielt es sich heute?
Von Andreas Altenheimer

30 Jahre Alone in the Dark: Als der Horror filmreif wurde
Artikel
  1. Bundesverkehrsministerium: Begleitende Marktforschung zum 9-Euro-Ticket geplant
    Bundesverkehrsministerium
    Begleitende Marktforschung zum 9-Euro-Ticket geplant

    Das Bundesverkehrsministerium beabsichtigt, mit Nutzungsdaten zum 9-Euro-Ticket den öffentlichen Personennahverkehr zu verbessern.

  2. Update-Installation dauert: Störungen bei Kartenzahlungen im Einzelhandel bleiben
    Update-Installation dauert
    Störungen bei Kartenzahlungen im Einzelhandel bleiben

    Es gibt ein Update, um die Zahlungsstörungen mit Giro- oder Kreditkarte zu beseitigen. Die Verteilung des Updates braucht aber noch Zeit.

  3. Optibike: E-Bike mit 480 km Reichweite kostet 17.000 Euro
    Optibike
    E-Bike mit 480 km Reichweite kostet 17.000 Euro

    Das E-Bike Optibike R22 Everest setzt mit seinen zwei Akkus auf Reichweite.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Alternate (ASUS VG30VQL1A QHD/200 Hz 329€ statt 400€ im Vergleich) • Prime Video: Filme leihen für 0,99€ • Gigabyte RTX 3080 12 GB ab 1.024€ • Mindstar (u. a. AMD Ryzen 5 5600 179€, Palit RTX 3070 GamingPro 669€) [Werbung]
    •  /