Größter IT-Ausfall aller Zeiten: Crowdstrike veröffentlicht Ursachenanalyse

Weltweit ließen sich am 19. Juli Millionen von Windows-Systemen von Fluggesellschaften, Krankenhäusern, Behörden und anderen Organisationen plötzlich nicht mehr starten . Die Cybersicherheitsfirma Crowdstrike, die für diese Panne verantwortlich war, hat nun eine Ursachenanalyse (PDF)(öffnet im neuen Fenster) zu dem Vorfall veröffentlicht. Darin ergänzt das Unternehmen seine Angaben vom 24. Juli um weitere Details.
Wie Crowdstrike schon im Juli erklärt hatte, wurden die Systemausfälle durch ein Konfigurationsupdate für die Software Falcon Sensor ausgelöst. Verteilt wurde das Update durch ein Verfahren namens Rapid Response Content, das es dem Hersteller ermöglicht, schnell auf neue Cyberbedrohungen zu reagieren und Kundensysteme zeitnah mit neuen Erkennungsdaten zu versorgen.
Mit einem im Februar eingeführten neuen Vorlagentyp namens Inter Process Communication (IPC) für den Falcon Sensor wollte Crowdstrike bestimmte neue Angriffstechniken erkennen können. Neue Erkennungsdaten wurden seitdem mehrfach über per Rapid Response Content verteilte IPC-Vorlageninstanzen bereitgestellt. Zu Problemen kam es dabei nicht.
Ein Parameter zu viel
Dass es am 19. Juli zum großen Desaster kam, war darauf zurückzuführen, dass ein an diesem Tag ausgeliefertes Update erstmals 21 Eingabeparameter lieferte, von denen der Sensor jedoch nur 20 verarbeiten konnte. Die 21 Parameter seien zwar im neuen IPC-Vorlagentyp definiert gewesen, "der Integrationscode, der den Content Interpreter mit den Vorlageninstanzen der Channel-Datei 291 aufrief, lieferte jedoch nur 20 Eingabewerte zum Abgleich" , erklärt Crowdstrike.
Bei früheren Updates sei der 21. Parameter schlichtweg nicht verwendet worden. Und auch während der Sensor-Freigabetests und Belastungstests des neuen Vorlagentyps sei die Diskrepanz der Parameteranzahl nicht aufgefallen.
Erst durch eine neue Channel-Datei, die am 19. Juli verteilt wurde, sei es durch Verwendung dieses Parameters im Content Interpreter zu einem Out-of-Bounds-Speicherzugriff über das Ende des Eingabedatenarrays hinaus gekommen, was schließlich zum Systemabsturz geführt habe. Die Folge waren bekanntlich Millionen von Windows-Systemen, die nicht mehr booten konnten und den Dienst mit einem Bluescreen quittierten. Beheben ließ sich dies nur durch manuelle Eingriffe an jedem einzelnen Rechner .
Crowdstrike setzt Maßnahmen um
Wiederholen kann sich das beschriebene Problem laut Crowdstrike künftig nicht mehr. Der Hersteller verspricht, eine Reihe von Verbesserungen umzusetzen, um die Widerstandsfähigkeit seiner Software zu stärken. Einige dieser Arbeiten hat das Unternehmen nach eigenen Angaben bereits abgeschlossen - darunter etwa die Erstellung weiterer Tests für die neuen Vorlagentypen sowie das Hinzufügen zusätzlicher Bereitstellungsebenen für eine gestaffelte Verteilung neuer Vorlageninstanzen.
Darüber hinaus hat Crowdstrike wohl schon einige Funktionen implementiert, die es seinen Kunden ermöglichen, die Bereitstellung von Rapid Response Content auf ihren Systemen selbst zu einem gewissen Grad zu steuern. Weitere Funktionen dieser Art sollen noch folgen.
Zudem versichert Crowdstrike, das Unternehmen habe zwei unabhängige Software-Sicherheitsanbieter damit beauftragt, den Code des Falcon Sensor, die End-to-End-Qualitätskontrolle sowie die Freigabeprozesse von Crowdstrike zu untersuchen. "Beide Anbieter haben mit Überprüfungen begonnen, die sich unmittelbar auf den vom 19. Juli betroffenen Code und Prozess konzentrieren" , so der Hersteller.
Das Unternehmen gibt außerdem an, dass etwa 99 Prozent aller von dem Ausfall betroffenen Windows-Systeme am 29. Juli wieder online waren. Da die Anzahl der verbundenen Systeme laut Crowdstrike von Woche zu Woche um etwa ein Prozent schwankt, ist folglich davon auszugehen, dass mittlerweile so gut wie alle Systeme wieder einsatzbereit sind.



