Disaster Recovery: Dropbox nimmt Rechenzentren als Test komplett offline

Was passiert, wenn das wichtigste Rechenzentrum plötzlich ausfällt und vom Netz geht? Dropbox weiß, es gibt nur einen Weg, das herauszufinden.

Artikel veröffentlicht am ,
Bei dem Dropbox-Test ist letztlich alles gut gegangen.
Bei dem Dropbox-Test ist letztlich alles gut gegangen. (Bild: Jakub Porzycki via Reuters Connect)

Ein aktueller Blog-Post des Tech-Teams von Dropbox beginnt mit einer ungewöhnlichen Nachricht: "Am Donnerstag, 18. November 2021, ist Dropbox nicht ausgefallen". Was wie eine Selbstverständlichkeit für einen derart großen und weltweit agierenden Dienst klingt, ist es aber nicht. Denn das Team hat an diesem Tag sein größtes eigenes Rechenzentrum und den Hauptstandort physisch vom Rest des Internets getrennt - zur Probe.

Stellenmarkt
  1. IT Business Analyst*in
    Sport-Thieme, Grasleben (Remote möglich)
  2. Backend Developer* (m/w/d)
    EDAG Engineering GmbH, verschiedene Standorte
Detailsuche

Dropbox selbst bezeichnet es als "Riesensache", dass bei der Desaster-Übung eben nichts passiert ist und die Dienste weiter laufen konnten. Dass der Anbieter überhaupt eine derart drastische Übung in Erwägung zieht, liegt auch an der Lage seines wichtigsten Rechenzentrums: San José im Süden Kaliforniens. Hier seien etwa Naturkatastrophen häufiger als anderswo. Ein Erdbeben, ausgelöst durch die San-Andreas-Verwerfung, betrachtet das Unternehmen dabei als kritisch.

Wie das Team nun schreibt, sind letztlich mehrere Jahre Arbeit und Vorbereitung in die nun erfolgreiche Übung geflossen. Begonnen hat dies mit der Abkehr von AWS seit dem Jahr 2015, was dem Unternehmen Millionen gespart haben soll. Zwar seien damals Daten und Metadaten weltweit repliziert worden, die meisten eigenen Dienste liefen aber eben exklusiv in San José.

Metadaten als Knackpunkt

Das größte Problem waren dabei aber nicht die von den Nutzern gespeicherten Daten selbst. Denn diese sind bereits seit langem über einen redundant ausgelegten Dienst verteilt worden. Die Umsetzung eines Failovers für die Metadaten sei dagegen als "einmalige Aufgabe" gedacht gewesen, aber mit jedem weiteren Schritt daran sei dem Team klar geworden, "wie schwierig es sein würde, dieses Ziel zu erreichen."

Golem Karrierewelt
  1. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    29./30.08.2022, virtuell
  2. First Response auf Security Incidents: Ein-Tages-Workshop
    14.11.2022, Virtuell
Weitere IT-Trainings

Wie es in dem Blog heißt, seien die Arbeiten an diesem Ziel im Jahr 2017 zwischenzeitlich sogar eingestellt worden, weil es aufgrund verschiedener Annahmen und vorhergehender Infrastrukturentscheidungen schlicht zu kompliziert war, daran weiter zu arbeiten.

Statt dem ursprünglich geplanten Aktiv/Aktiv-Cluster wendete sich das Team letztlich aber einer Aktiv/Passiv-Konfiguration zu, die nicht nur vergleichsweise schnell umgesetzt werden konnte, sondern auch regelmäßig getestet worden ist. Doch ein kompletter Ausfall im Mai 2020 über 47 Minuten zeigte dem Team die Grenzen seines Systems auf.

Um den Failover-Fall dann letztlich doch noch zufriedenstellend umsetzen zu können, hat das Team die dafür zuständige Technik komplett neu geschrieben. "Mit dieser neuen Architektur war es einfach, Einblick in den Ausführungsstatus unseres Failover-Ablaufs zu erhalten", schreibt das Team dazu.

Es folgten viel weitere Tests und Detailverbesserungen bis zu dem eingangs erwähnten Tag, an dem die Standorte in San José physisch vom Netzwerk getrennt worden sind, in dem schlicht die Glasfaserverbindung gezogen worden ist. Das hatte aber letztlich keinerlei Auswirkungen auf die weltweite Verfügbarkeit von Dropbox.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
James Webb Space Telescope
Das Weltraumteleskop wird mit Javascript betrieben

Die in der Raumfahrt verwendete Software ist manchmal kurios. Im Fall des JWST wird das ISIM mit Javascript kontrolliert und betrieben.

James Webb Space Telescope: Das Weltraumteleskop wird mit Javascript betrieben
Artikel
  1. ADAC-Test: Elektroautos als Zugmaschinen - was bringt's?
    ADAC-Test
    Elektroautos als Zugmaschinen - was bringt's?

    Der ADAC hat den Stromverbrauch von Elektroautos mit Anhängern und Fahrradgepäckträgern gemessen. Gute Noten gibt es dabei keine.

  2. Macbook Air M2 im Test: Das Macbook ohne Lüfter, aber mit Notch und Magsafe
    Macbook Air M2 im Test  
    Das Macbook ohne Lüfter, aber mit Notch und Magsafe

    Im Vergleich zum Apple Macbook Pro ist das Air mit M2-Chip eine Generation weiter. Auch ohne Lüfter ist es ein leistungsstarkes Notebook.
    Ein Test von Oliver Nickel

  3. DDR5: Samsung plant 1-TByte-Speichermodul
    DDR5
    Samsung plant 1-TByte-Speichermodul

    2022 sollen 512-GByte-Riegel verfügbar sein, später die doppelte Kapazität. Davon profitieren Server-CPUs wie AMDs Epyc mit zwölf Kanälen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (MSI RTX 3090 Gaming 1.269€, Seagate Festplatte ext. 18 TB 295€) • PS5-Deals (Uncharted Legacy of Thieves 15,38€, Horzizon FW 39,99€) • HP HyperX Gaming-Maus -51% • Alternate (Kingston Fury DDR5-6000 32GB 219,90€ statt 246€) • Samsung Galaxy S22+ 5G 128 GB 839,99€ [Werbung]
    •  /