Fehler 502: Cloudflare schämt sich für den vergangenen Ausfall

Cloudflare erzählt in einem ausführlichen Blogpost die Geschichte des vergangenen Ausfalls, der einen Teil der Internetinfrastruktur belastete und sogar das eigene Team bei der Fehlersuche behinderte. Das Unternehmen schämt sich für den Fehler.

Artikel veröffentlicht am ,
Cloudflare erklärt, wie es zum 502-Fehler kam.
Cloudflare erklärt, wie es zum 502-Fehler kam. (Bild: Pixabay.com/Montage: Golem.de/CC0 1.0)

Der Internetdienstleister Cloudflare klärt auf, warum ein Teil des Internets Anfang Juli nicht erreichbar war. Im Blog-Post ist sich Cloudflare zudem des Schadens für seine Kunden bewusst. "Wir schämen uns dafür, dass das passiert ist", schreibt der Anbieter. Viele Nutzer haben ein paar Minuten lang einen 502-Bad-Gateway-Fehler statt einer Webseite erhalten. Der Grund: Ein falsch definierter regulärer Ausdruck hat die CPU-Kerne von Servern für die Bereitstellung von HTTPS und HTTP überlastet. Sie wurde unbeabsichtigt zusammen mit einer neuen Regel für die Web Application Firewall (Waf) des Herstellers eingeführt.

Stellenmarkt
  1. IT Solutions Architect S / 4HANA - Technical Innovation (m/w/d)
    Schaeffler Technologies AG & Co. KG, Nürnberg
  2. (Junior) IT Business Partner / Demand Manager - Sales Units (m/w/d)
    Jungheinrich AG, Hamburg
Detailsuche

"Wir verbessern ständig unsere gesetzten Regeln für unsere Waf, um auf neue Sicherheitslücken und Bedrohungen zu reagieren", sagt Entwickler und CTO John Graham-Cumming. Allerdings sei laut ihm der Ausfall wohl nicht nur einem schlecht implementierten Ausdruck zuzuschreiben, nachdem sich der Fehler auch bei Cloudflare gezeigt hatte, indem etwa 80 Prozent des Traffics zusammenbrach. Die weltweit verteilten Testprogramme, die Cloudflare-Server auf ihre Funktionalität prüfen, gaben viele Fehler aus. Daraufhin sammelte sich das Londoner Entwicklerteam zu einem Meeting. Zuerst wurde angenommen, es handele sich um "einen Angriff, den wir nie zuvor gesehen haben", schreibt Graham-Cumming. Es stellte sich aber heraus, dass es ein interner Fehler war.

Um das System zum Laufen zu bringen, musste das Team die Waf abschalten. Das geschieht über ein von überall ausführbares Kommando, "Global Waf Kill". Allerdings konnte Cloudflare durch den eigenen Ausfall nicht auf die eigenen Produkte zugreifen. Die Entwickler konnten sich nicht auf dem internen Steuerungspanel einloggen. Über einen ungenannten Überbrückungsmechanismus konnte ein Teammitglied die Firewall abschalten. Sie konnte dann offline auf den Fehler überprüft werden.

Die Störung ereignete sich am 2. Juli 2019 und hatte den Ausfall mehrerer Internetseiten zur Folge. Schon damals hat Cloudflare zugegeben: Die eigenen Testmechanismen sind ungenügend. Diesen Fehler will das Unternehmen nicht wiederholen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Geistesgegenwart 16. Jul 2019

Naja CF hat schon eine höhere Downtime als der Durchschnittserver/RZ. Aber diese...

px 16. Jul 2019

Danke für die Info! :-)

nexo1960 15. Jul 2019

Es ist der zweite größere Ausfall in den letzten zwei Monaten. Allerdings waren sie an...

on(Golem.de) 15. Jul 2019

Hallo mdxdave, "Marty! Wir müssen zurück... in die Zukunft!". :D Danke für den Hinweis...



Aktuell auf der Startseite von Golem.de
Cloudgaming
Google Stadia scheiterte nur an sich selbst

Die Technik war nicht das Problem von Alphabets ambitioniertem Cloudgaming-Dienst. Das Problem liegt bei Google. Ein Nachruf.
Eine Analyse von Daniel Ziegener

Cloudgaming: Google Stadia scheiterte nur an sich selbst
Artikel
  1. Tiktok-Video: Witz über große Brüste kostet Apple-Manager den Job
    Tiktok-Video
    Witz über große Brüste kostet Apple-Manager den Job

    Er befummle von Berufs wegen großbrüstige Frauen, hatte ein Apple Vice President bei Tiktok gewitzelt. Das kostete ihn den Job.

  2. Copilot, Java, RISC-V, Javascript, Tor: KI macht produktiver und Rust gewinnt wichtige Unterstützer
    Copilot, Java, RISC-V, Javascript, Tor
    KI macht produktiver und Rust gewinnt wichtige Unterstützer

    Dev-Update Die Diskussion um die kommerzielle Verwertbarkeit von Open Source erreicht Akka und Apache Flink, OpenAI macht Spracherkennung, Facebook hilft Javascript-Enwicklern und Rust wird immer siegreicher.
    Von Sebastian Grüner

  3. 40 Jahre nach dem Tod von Philip K. Dick: Die Filmwelten eines visionären Autors
    40 Jahre nach dem Tod von Philip K. Dick
    Die Filmwelten eines visionären Autors

    Vor 40 Jahren starb Philip K. Dick. Das Vermächtnis des visionären Science-Fiction-Autors lebt mit vielen Filmen und Serien fort.
    Von Peter Osteried

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • LG OLED TV 2022 65" 120 Hz 1.799€ • ASRock Mainboard f. Ryzen 7000 319€ • MindStar (G.Skill DDR5-6000 32GB 299€, Mega Fastro SSD 2TB 135€) • Alternate (G.Skill DDR5-6000 32GB 219,90€) • Xbox Series S + FIFA 23 259€ • PCGH-Ratgeber-PC 3000€ Radeon Edition 2.500€ [Werbung]
    •  /