Vertrauen in die Cloud: Atlassian und Hetzner zeigen, wie es nicht geht
Die Cloud ist wohl doch nicht so ausfallsicher, wie Unternehmen gern suggerieren. Das zeigen Atlassian und Hetzner eindrucksvoll.

Viele Unternehmen verkaufen ihre Cloud-Angebote als möglichst hochverfügbare und ausfallsichere Plattformen. Dabei müssen Kunden nicht einmal ihre eigene Hardware betreiben und können die Verantwortung bei Dritten abgeben. In der Theorie ist das verlockend und auch in der Praxis läuft es meist rund.
- Vertrauen in die Cloud: Atlassian und Hetzner zeigen, wie es nicht geht
- Ein wichtiger Schritt ist es, eigene Fehler einzugestehen
Allerdings zeigen aktuelle Vorfälle beim Hoster Hetzner Cloud und dem Softwareunternehmen Atlassian, wie schnell das blinde Vertrauen bestraft werden kann.
Mitte April 2022 meldeten mehrere Kunden von Atlassian, dass sie auf Programme wie Jira und Confluence nicht mehr zugreifen könnten. Das bestätigte das Unternehmen auch in einer offiziellen E-Mail an die Betroffenen. Durch interne Fehlkommunikation und ein schlecht verfasstes Skript können viele der Kunden noch immer nicht richtig arbeiten.
Entwickler können nicht arbeiten
Gerade Jira wird in der täglichen Arbeit von Entwicklerteams als Organisationstool eingesetzt. Kunden vertrauen also auf die Cloud-basierte Software im Unternehmen. Teilweise haben sie auch keine andere Wahl: Seit Februar 2021 werden keine Lizenzen mehr für On-Premises-Server verkauft. Die Cloud ist für Atlassian und Kunden der zwangsläufige Weg in die Zukunft.
Sicher ist das für Atlassian auch eine Geldfrage. Cloud-Lizenzen und damit zusammenhängende Serviceangebote bringen auf lange Sicht mehr Umsatz ein. Gleichzeitig kann am Servicepersonal gespart werden, da eine zentrale Verwaltung aller Instanzen und die Auslagerung in die AWS-Cloud weniger aufwendig ist.
Offensichtlich hat die Firma an der falschen Stelle gespart. Wie CTO Sri Viswanath bestätigte, kam es in gleich zwei Situationen zu Problemen: Um Zeit zu sparen, wurde ein offensichtlich ungeeignetes Automatisierungsskript verwendet, das durch seine Löschfunktion sehr viel Schaden anrichten kann. Bereits hier hätten mehrere Ebenen prüfen müssen, ob wirklich der richtige Schritt durchgeführt wurde.
Kommunikation ist der Schlüssel
Dazu kommt, dass sich zwei am Prozess beteiligte Arbeitsgruppen schlecht abgesprochen haben. Normalerweise hat dies mehrere Gründe, die auch kombiniert auftreten können: Die Teams haben aus Zeit- und damit Kostengründen zu hastig agiert oder Kommunikationswege sind intransparent oder komplex. Die Teams könnten zudem die Auswirkungen ihrer Arbeit auf aktive Kundenplattformen unterschätzt haben. Zudem könnten bei der Arbeit einmal mehr Kontrollinstanzen fehlen, die sich den Prozess noch einmal genau anschauen.
Wenn ein Unternehmen die Kundschaft zu einem Wechsel in die Cloud-Infrastruktur zwingt, sollte davon ausgegangen werden, dass so etwas nicht vorkommt. Wenn es doch passiert, was natürlich nie ausgeschlossen werden kann, sollten Kunden nicht drei Wochen lang auf eine Lösung warten müssen. CTO Viswanath sagte selbst, dass bisher noch kein automatisierter und schneller Prozess für diesen Fall im Unternehmen existiere.
Bei Hetzner ist es etwas anders: Durch den aktuellen Vorfall sind lediglich Snapshots existierender Daten betroffen, also im Prinzip die Wiederherstellungspunkte vergangener Zustände. Daher kam es nicht zum unmittelbaren Datenverlust und Kunden können teilweise aufatmen.
Wenn Geld sparen nach hinten losgeht
Auch hier liegt es größtenteils an Geldeinsparungen, dass so etwas überhaupt vorkommt. Snapshots auf nur einer Ebene am gleichen Standort abzulegen, ist ein kalkulierter Risikofaktor. Nach Unternehmensangaben durften zudem nur zwei Festplatten gleichzeitig ausfallen. Je nach Anzahl der genutzten Laufwerke im durch Erasure Coding geschützten Cluster kann das sehr wenig sein. Nun ist also der Worst Case eingetroffen und 1.500 Snapshots wurden irreparabel zerstört.
Zusätzliche Replikas der Backups an anderen Orten kosten eben Ressourcen - und die konnte oder wollte Hetzner nicht in die eigene Infrastruktur investieren. Schließlich geht das Unternehmen durch relativ günstige Abopreise auf Kundensuche.
Wie die Golem.de-Community bereits richtig festgestellt hat, kann dann nicht allzu viel von der Datensicherheit erwartet werden. Zudem ersetzen einmalige Snapshots keine richtige Backup-Strategie mit mehreren Rückfallebenen.
Trotzdem: Weniger versierte Menschen erwarten von einem Cloud-System in jedem Fall Zuverlässigkeit und Sicherheit, ohne sich über die Funktionsweise Gedanken machen zu müssen. Dieses Vertrauen wurde klar gebrochen.
Wenigstens sind sowohl Atlassian als auch Hetzner transparent und ehrlich.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ein wichtiger Schritt ist es, eigene Fehler einzugestehen |
- 1
- 2
Das sehe ich aehnlich. Ich finde wenn ein (praktischer) cloud-only Anbieter wie Atlassian...
Ich nutze das Cloud-Angebot ganz gern. Aber Snapshots verwende ich für das, wofür sie...
Du glaubst also, dass eine Firma mit ein paar IT-Fachleuten eine Loesung hinbekommt die...
Du kannst in confluence jeden space einzeln als xml exportieren. Von Cloud zu Cloud hat...