Disaster Recovery: Dropbox nimmt Rechenzentren als Test komplett offline
Was passiert, wenn das wichtigste Rechenzentrum plötzlich ausfällt und vom Netz geht? Dropbox weiß, es gibt nur einen Weg, das herauszufinden.

Ein aktueller Blog-Post des Tech-Teams von Dropbox beginnt mit einer ungewöhnlichen Nachricht: "Am Donnerstag, 18. November 2021, ist Dropbox nicht ausgefallen". Was wie eine Selbstverständlichkeit für einen derart großen und weltweit agierenden Dienst klingt, ist es aber nicht. Denn das Team hat an diesem Tag sein größtes eigenes Rechenzentrum und den Hauptstandort physisch vom Rest des Internets getrennt - zur Probe.
Dropbox selbst bezeichnet es als "Riesensache", dass bei der Desaster-Übung eben nichts passiert ist und die Dienste weiter laufen konnten. Dass der Anbieter überhaupt eine derart drastische Übung in Erwägung zieht, liegt auch an der Lage seines wichtigsten Rechenzentrums: San José im Süden Kaliforniens. Hier seien etwa Naturkatastrophen häufiger als anderswo. Ein Erdbeben, ausgelöst durch die San-Andreas-Verwerfung, betrachtet das Unternehmen dabei als kritisch.
Wie das Team nun schreibt, sind letztlich mehrere Jahre Arbeit und Vorbereitung in die nun erfolgreiche Übung geflossen. Begonnen hat dies mit der Abkehr von AWS seit dem Jahr 2015, was dem Unternehmen Millionen gespart haben soll. Zwar seien damals Daten und Metadaten weltweit repliziert worden, die meisten eigenen Dienste liefen aber eben exklusiv in San José.
Metadaten als Knackpunkt
Das größte Problem waren dabei aber nicht die von den Nutzern gespeicherten Daten selbst. Denn diese sind bereits seit langem über einen redundant ausgelegten Dienst verteilt worden. Die Umsetzung eines Failovers für die Metadaten sei dagegen als "einmalige Aufgabe" gedacht gewesen, aber mit jedem weiteren Schritt daran sei dem Team klar geworden, "wie schwierig es sein würde, dieses Ziel zu erreichen."
Wie es in dem Blog heißt, seien die Arbeiten an diesem Ziel im Jahr 2017 zwischenzeitlich sogar eingestellt worden, weil es aufgrund verschiedener Annahmen und vorhergehender Infrastrukturentscheidungen schlicht zu kompliziert war, daran weiter zu arbeiten.
Statt dem ursprünglich geplanten Aktiv/Aktiv-Cluster wendete sich das Team letztlich aber einer Aktiv/Passiv-Konfiguration zu, die nicht nur vergleichsweise schnell umgesetzt werden konnte, sondern auch regelmäßig getestet worden ist. Doch ein kompletter Ausfall im Mai 2020 über 47 Minuten zeigte dem Team die Grenzen seines Systems auf.
Um den Failover-Fall dann letztlich doch noch zufriedenstellend umsetzen zu können, hat das Team die dafür zuständige Technik komplett neu geschrieben. "Mit dieser neuen Architektur war es einfach, Einblick in den Ausführungsstatus unseres Failover-Ablaufs zu erhalten", schreibt das Team dazu.
Es folgten viel weitere Tests und Detailverbesserungen bis zu dem eingangs erwähnten Tag, an dem die Standorte in San José physisch vom Netzwerk getrennt worden sind, in dem schlicht die Glasfaserverbindung gezogen worden ist. Das hatte aber letztlich keinerlei Auswirkungen auf die weltweite Verfügbarkeit von Dropbox.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ja, das kommt schon gut hin.
Das ist ja Teil des Ganzen. Aber wenn man niemals den Ernstfall probiert, weiß man halt...
Ich habe zumindest noch nie eine Software an Kunden ausgeliefert, bei der ich zugesagte...