Disaster Recovery: Dropbox nimmt Rechenzentren als Test komplett offline

Was passiert, wenn das wichtigste Rechenzentrum plötzlich ausfällt und vom Netz geht? Dropbox weiß, es gibt nur einen Weg, das herauszufinden.

Artikel veröffentlicht am ,
Bei dem Dropbox-Test ist letztlich alles gut gegangen.
Bei dem Dropbox-Test ist letztlich alles gut gegangen. (Bild: Jakub Porzycki via Reuters Connect)

Ein aktueller Blog-Post des Tech-Teams von Dropbox beginnt mit einer ungewöhnlichen Nachricht: "Am Donnerstag, 18. November 2021, ist Dropbox nicht ausgefallen". Was wie eine Selbstverständlichkeit für einen derart großen und weltweit agierenden Dienst klingt, ist es aber nicht. Denn das Team hat an diesem Tag sein größtes eigenes Rechenzentrum und den Hauptstandort physisch vom Rest des Internets getrennt - zur Probe.

Stellenmarkt
  1. Projektmanager (m/w/d) im technischen Produktmanagement
    CCV GmbH, Au in der Hallertau
  2. IT Project Architect / Scrum Master (gn)
    Getriebebau NORD GmbH & Co. KG, Bargteheide bei Hamburg
Detailsuche

Dropbox selbst bezeichnet es als "Riesensache", dass bei der Desaster-Übung eben nichts passiert ist und die Dienste weiter laufen konnten. Dass der Anbieter überhaupt eine derart drastische Übung in Erwägung zieht, liegt auch an der Lage seines wichtigsten Rechenzentrums: San José im Süden Kaliforniens. Hier seien etwa Naturkatastrophen häufiger als anderswo. Ein Erdbeben, ausgelöst durch die San-Andreas-Verwerfung, betrachtet das Unternehmen dabei als kritisch.

Wie das Team nun schreibt, sind letztlich mehrere Jahre Arbeit und Vorbereitung in die nun erfolgreiche Übung geflossen. Begonnen hat dies mit der Abkehr von AWS seit dem Jahr 2015, was dem Unternehmen Millionen gespart haben soll. Zwar seien damals Daten und Metadaten weltweit repliziert worden, die meisten eigenen Dienste liefen aber eben exklusiv in San José.

Metadaten als Knackpunkt

Das größte Problem waren dabei aber nicht die von den Nutzern gespeicherten Daten selbst. Denn diese sind bereits seit langem über einen redundant ausgelegten Dienst verteilt worden. Die Umsetzung eines Failovers für die Metadaten sei dagegen als "einmalige Aufgabe" gedacht gewesen, aber mit jedem weiteren Schritt daran sei dem Team klar geworden, "wie schwierig es sein würde, dieses Ziel zu erreichen."

Golem Akademie
  1. Linux-Shellprogrammierung: virtueller Vier-Tage-Workshop
    04.-07.07.2022, Virtuell
  2. Blender Grundkurs: virtueller Drei-Tage-Workshop
    07.-09.06.2022, Virtuell
Weitere IT-Trainings

Wie es in dem Blog heißt, seien die Arbeiten an diesem Ziel im Jahr 2017 zwischenzeitlich sogar eingestellt worden, weil es aufgrund verschiedener Annahmen und vorhergehender Infrastrukturentscheidungen schlicht zu kompliziert war, daran weiter zu arbeiten.

Statt dem ursprünglich geplanten Aktiv/Aktiv-Cluster wendete sich das Team letztlich aber einer Aktiv/Passiv-Konfiguration zu, die nicht nur vergleichsweise schnell umgesetzt werden konnte, sondern auch regelmäßig getestet worden ist. Doch ein kompletter Ausfall im Mai 2020 über 47 Minuten zeigte dem Team die Grenzen seines Systems auf.

Um den Failover-Fall dann letztlich doch noch zufriedenstellend umsetzen zu können, hat das Team die dafür zuständige Technik komplett neu geschrieben. "Mit dieser neuen Architektur war es einfach, Einblick in den Ausführungsstatus unseres Failover-Ablaufs zu erhalten", schreibt das Team dazu.

Es folgten viel weitere Tests und Detailverbesserungen bis zu dem eingangs erwähnten Tag, an dem die Standorte in San José physisch vom Netzwerk getrennt worden sind, in dem schlicht die Glasfaserverbindung gezogen worden ist. Das hatte aber letztlich keinerlei Auswirkungen auf die weltweite Verfügbarkeit von Dropbox.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Oktavian 02. Mai 2022 / Themenstart

Ja, das kommt schon gut hin.

lestard 30. Apr 2022 / Themenstart

Das ist ja Teil des Ganzen. Aber wenn man niemals den Ernstfall probiert, weiß man halt...

Oktavian 30. Apr 2022 / Themenstart

Ich habe zumindest noch nie eine Software an Kunden ausgeliefert, bei der ich zugesagte...

Kommentieren



Aktuell auf der Startseite von Golem.de
Cariad
Aufsichtsrat greift bei VWs Softwareentwicklung durch

Die Sorge um die Volkswagen-Softwarefirma Cariad hat den Aufsichtsrat veranlasst, ein überarbeitetes Konzept für die ehrgeizigen Pläne vorzulegen.

Cariad: Aufsichtsrat greift bei VWs Softwareentwicklung durch
Artikel
  1. Delfast Top 3.0: Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein
    Delfast Top 3.0
    Ukrainische Armee setzt E-Motorräder zur Panzerjagd ein

    Ukrainische Infanteristen nutzen E-Motorräder, um leise und schnell zum Einsatz zu gelangen und die Panzerabwehrlenkwaffe NLAW zu transportieren.

  2. Überwachung: Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein
    Überwachung
    Polizei setzt Handy-Erkennungskamera gegen Autofahrer ein

    In Rheinland-Pfalz werden Handynutzer am Steuer eines Autos automatisch erkannt. Dazu wird das System Monocam aus den Niederlanden genutzt.

  3. Love, Death + Robots 3: Mal spannend, mal tragisch, mal gelungen, mal nicht so
    Love, Death + Robots 3
    Mal spannend, mal tragisch, mal gelungen, mal nicht so

    Die abwechslungsreichste Science-Fiction-Serie unserer Zeit ist wieder da - mit acht neuen Folgen der von David Fincher produzierten Anthologie-Reihe.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Borderlands 3 gratis • CW: Top-Rabatte auf PC-Komponenten • Inno3D RTX 3070 günstig wie nie: 614€ • Ryzen 9 5900X 398€ • Top-Laptops zu Tiefpreisen • Edifier Lautsprecher 129€ • Kingston SSD 2TB günstig wie nie: 129,90€ • Samsung Soundbar + Subwoofer günstig wie nie: 228,52€ [Werbung]
    •  /