Github: 43 Sekunden ohne Netzwerk führen zu 24 Stunden Ausfall

Bei einer Routinewartung in einem der Rechenzentren von Github ist kurzzeitig die Netzwerkverbindung weggebrochen, was zu einem Ausfall und schlechter Verfügbarkeit einiger Github-Dienste über 24 Stunden sorgte. Das Team konnte zwischendrin deshalb nicht mal seine Nutzer informieren.

Artikel veröffentlicht am ,
Ein Server von Github
Ein Server von Github (Bild: Github)

Der Technologiechef von Github, Jason Warner, beschreibt im Blog des Unternehmens recht ausführlich den Ablauf eines Vorfalls in der vergangenen Woche, der durch die unglückliche Verknüpfung verschiedener Umstände zu einem Teilausfall der Github-Dienste über 24 Stunden geführt hat. Ausgangspunkt war demnach der routinemäßige Wechsel einer 100-GBit-Glasfaserverbindung in einem der Github-Rechenzentren. Der Wechsel führte jedoch für die Dauer von 43 Sekunden zum Abbruch der Netzwerkverbindung, was große Folgen haben sollte.

Stellenmarkt
  1. Projektmanagerin / Projektmanager - Schwerpunkt Herz- und Gefäßmedizin
    Universitätsklinikum Frankfurt, Frankfurt am Main
  2. Informatiker*in / Netzwerk-Engineer (w/m/d)
    Stadt Norderstedt, Norderstedt
Detailsuche

Denn der kurzzeitige Netzwerkausfall verursachte Inkonsistenzen in den MySQL-Datenbanken des Betreibers. Zur Verwaltung seiner verschiedenen MySQL-Cluster nutzt Github die eigene Software Orchestrator, die beim Ausfall des Netzwerks genau das machte, was zu erwarten war: Die Orchestrator-Software veranlasste einen Failover der Schreibzugriffe von dem nicht mehr erreichbaren Rechenzentrum an der US-Ostküste zu jenem an der US-Westküste.

Sobald die Netzwerkverbindung jedoch wiederhergestellt worden war, registrierte das System Schreibzugriffe im Rechenzentrum an der US-Ostküste, die nicht an der US-Westküste repliziert worden waren und umgekehrt. Diese Inkonsistenz führte unter anderem zu einigen Problemen mit internen Diensten. Darüber hinaus überlastete die Latenz zwischen den Rechenzentren den Cluster an der Westküste, da nun alle Dienste in dem Rechenzentrum der Ostküste ihre Daten in den Westküsten-Cluster geschrieben hatten.

Sicherung der Daten hat Priorität

Um die Integrität der Nutzerdaten nicht zu gefährden, hat sich das Team schließlich entschlossen, einige Dienste von Github so herunterzufahren, dass diese keine weiteren Daten in den Datenbank-Cluster schreiben können. Betroffen davon waren unter anderem die Webhooks und die Möglichkeit Github-Pages zu erstellen.

Golem Karrierewelt
  1. Data Engineering mit Python und Spark: virtueller Zwei-Tage-Workshop
    19./20.10.2022, Virtuell
  2. Deep Dive: Data Architecture mit Spark und Cloud Native: virtueller Ein-Tages-Workshop
    09.11.2022, Virtuell
Weitere IT-Trainings

Github informierte seine Nutzer zwar kurz über Twitter und die hauseigene Statusseite, konnte allerdings erst Stunden später im eigenen Blog auf das Ereignis näher eingehen. Der Grund dafür ist, dass Github für seinen Blog intern ebenfalls auf die Pages setzt, deren Veröffentlichung aber eigentlich ausgesetzt worden war. Es bedurfte also einer "größeren Anstrengung" den Blog-Post zu veröffentlichen. In Zukunft will Github Vorkehrungen treffen, um schneller reagieren zu können.

Mühsame Wiederherstellung

Das zuständige Team hat zwar einen Plan erstellt, um die Inkonsistenzen in den Datenbanken zu beheben, die Daten ordnungsgemäß zu replizieren und die ursprüngliche Topologie wieder aufzubauen. Doch während dies umgesetzt wurde, begann der Arbeitstag in Europa und später in den USA, so dass die Cluster dann eine deutlich größere Anzahl an Schreibzugriffen verarbeiten mussten. Das wiederum verlangsamte jedoch den Wiederherstellungsprozess.

Betroffen waren davon laut dem Blogeintrag etwa fünf Millionen Webhook-Ereignisse und rund 80.000 Pages-Builds. Erst etwas mehr als 24 Stunden nach dem Beginn des Ausfalls waren sämtliche ausstehenden Wiederherstellungsarbeiten abgeschlossen und die Github-Dienste konnten wieder normal arbeiten.

Derzeit untersucht das Team noch knapp 1000 Schreibzugriffe, die möglicherweise nicht richtig von Github verarbeitet worden sind und so zu einem Datenverlust geführt haben könnten. Davon betroffene Nutzer haben ihre Aktionen jedoch zwischenzeitlich einfach wiederholt und so sicher durchführen können. Durch eine detaillierte Analyse will das Team außerdem noch herausfinden, welche dieser Zugriffe noch automatisiert wiederhergestellt werden können und für welche das Team betroffene Nutzer explizit kontaktieren muss.

Darüber hinaus will Github künftig systematisch verschiedene Fehlerszenarien testen und in sogenanntes Chaos-Engineering investieren.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


dominikp 24. Dez 2018

Dann würde ja gar nichts mehr bei denen funktionieren ^^ - Verbidnung fehlgeschlagen...

Baladur 12. Dez 2018

Du hast eher nicht so verstanden was überhaupt passiert ist, und das die Erwähnung von...

mhstar 08. Nov 2018

Ja, das gibts. Ja, das ist ein gelöstes Problem (STONITH / Fencing). Blöd nur wenn man...



Aktuell auf der Startseite von Golem.de
Bundesgerichtshof
Ebay-Bewertungen dürfen auch ungerecht sein

Ein Käufer, der sich über gängige Portokosten beschwert hat, kann weiter "Ware gut, Versandkosten Wucher" erklären. Der Bundesgerichtshof sieht dies nicht als Schmähkritik, sondern durch die Meinungsfreiheit geschützt.

Bundesgerichtshof: Ebay-Bewertungen dürfen auch ungerecht sein
Artikel
  1. Kindle Scribe: Amazons größter E-Book-Reader hat einen Stift
    Kindle Scribe
    Amazons größter E-Book-Reader hat einen Stift

    Amazons neuer E-Book-Reader der Kindle-Reihe hat ein besonders großes Display und erlaubt es, digitale Notizen etwa in E-Books mit einem Stift vornehmen zu können.

  2. Berufsschule für die IT-Branche: Leider nicht mal ausreichend
    Berufsschule für die IT-Branche
    Leider nicht mal "ausreichend"

    Lehrmaterial wie aus einem Schüleralbtraum, ein veralteter Rahmenlehrplan und nette Lehrer, denen aber die Praxis fehlt - mein Fazit aus drei Jahren als Berufsschullehrer.
    Ein Erfahrungsbericht von Rene Koch

  3. Verwirrendes USB: Trennt die Klassengesellschaft!
    Verwirrendes USB
    Trennt die Klassengesellschaft!

    USB ist ziemlich verwirrend geworden, daran werden auch neue Logos nichts ändern. Das Problem ist konzeptuell.
    Ein IMHO von Johannes Hiltscher

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Controller GoW Ragnarök Edition vorbestellbar • Saturn Technik-Booster • Viewsonic Curved 27" FHD 240 Hz günstig wie nie: 179,90€ • MindStar (Gigabyte RTX 3060 Ti 499€, ASRock RX 6800 579€) • AMD Ryzen 7000 jetzt bestellbar • Alternate (KF DDR5-5600 16GB 96,90€) [Werbung]
    •  /