Zum Hauptinhalt Zur Navigation

Covid-19: So funktioniert die Corona-Vorhersage am FZ Jülich

Das Forschungszentrum Jülich hat ein Vorhersagetool für Corona -Neuinfektionen programmiert. Projektleiter Gordon Pipa hat uns erklärt, wie es funktioniert.
/ Boris Mayer
7 Kommentare News folgen (öffnet im neuen Fenster)
Links die Meldedaten, rechts die Vorhersage (Bild: Screenshot von der Website des FZ Jülich)
Links die Meldedaten, rechts die Vorhersage Bild: Screenshot von der Website des FZ Jülich

Seit der letzten Septemberwoche ist sie für die Öffentlichkeit auf einer Webseite(öffnet im neuen Fenster) des Forschungszentrums Jülich einsehbar: die Fünf-Tages-Prognose für Neuinfektionen mit Covid-19, abrufbar für jeden einzelnen Landkreis der Bundesrepublik. Tagesaktuell werden die Prognosen neu berechnet. Wie aufwendig diese täglichen Berechnungen sind, wie schwierig die Modellerstellung war und welche Methoden verwendet werden, hat uns der Vorsitzende der Abteilung Neuroinformatik am Institut für Kognitionswissenschaft der Universität Osnabrück, Gordon Pipa, erklärt. Er ist der wissenschaftliche Kopf des Vorhersageprojekts.

Ganz schön rechenintensiv

Die grundsätzliche Funktionsweise der Vorhersage klingt recht einfach: Aus den Daten des Robert-Koch-Instituts (RKI) über Neuinfektionen werden mit einem wahrscheinlichkeitsgewichteten Modell der Osnabrücker Neuroinformatiker auf den Maschinen des Supercomputing Centres in Jülich (JSC) die Prognosedaten tagesaktuell berechnet. Auf den ersten Blick wirkt das eigentlich nicht sonderlich kompliziert.

Aber: "Die Ermittlung des Vorhersagehorizonts ist äußerst rechenintensiv, da wir dazu auf sehr viele Modellvariationen angewiesen sind. Daher braucht die statische Modellierung deutlich mehr Rechenzeit als Methoden, die auf einen Vorhersagehorizont verzichten" , erklärt Jens Henrik Göbbert vom JSC, "normale Arbeitsplatzrechner wären damit weit überfordert."

Projektleiter Gordon Pipa konkretisiert: Allein für die Vorbereitung der Datenmodelle seien 500.000 Core-Stunden in Jülich angefallen, für die täglich berechneten Vorhersagen kämen jeden Tag noch einmal 4.000 Core-Stunden hinzu, verteilt über acht Stunden.

Gestartet wurde das Covid-19-Vorhersageprojekt im März 2020. Neben der Osnabrücker Neuroinformatik-Gruppe halfen die Experten des JSC bei der Umsetzung. Die Programme mussten für die Analyse auf den Jülicher Supercomputern vorbereitet und fit gemacht werden und auch die Adaption der Eingangsdaten war ein wichtiger Schritt - dann folgten die vorbereitenden Berechnungen.

Die Landkreise sind nicht homogen

Die Berechnung ist auch deshalb so kompliziert, weil Deutschlands Landkreise sich stark voneinander unterscheiden - nicht nur in Größe und Form, sondern auch in Dichte und Verteilung der Bevölkerung. Doch das ist nicht die einzige Schwierigkeit bei der Vorhersage, wie die Zahl der Neuinfektionen fünf Tage in der Zukunft aussehen wird: Schon die eigentlichen Eingangsdaten für die Prognose müssen von den Wissenschaftlern zunächst aufbereitet werden und stellen damit schon eine Abschätzung dar.

Reklame

Golem HIGHEND mit Geforce RTX 5060 Ti und AMD Ryzen 9 7900

Jetzt bestellen bei Dubaro (öffnet im neuen Fenster)

Die Zahlen des RKI geben nämlich nur an, wie viele neue Infektionen an einem Tag an das RKI gemeldet wurden, nicht jedoch, wie viele es tatsächlich gegeben hat. Die Zeit, die es braucht, damit eine Meldung über eine Infektion beim RKI landet, kann sehr stark variieren: Manche Menschen gehen früher, andere später während des Krankheitsverlaufs zum Arzt, die Labore brauchen unterschiedlich lange, um die Tests auszuwerten, und an Wochenenden geschehen die Meldungen ohnehin verzögert oder in manchen Fällen gar nicht. Deshalb setzen die Wissenschaftler ein Nowcasting genanntes Verfahren ein, also im Prinzip eine Vorhersage, wie die tatsächlichen Zahlen für den jeweiligen Tag wahrscheinlich realistischerweise sind. Ausgehend von diesen Zahlen wird dann eine Prognose erstellt - indem etwa 1.000 verschiedene Modelle durchgerechnet werden, die jeweils Wahrscheinlichkeiten für alle möglichen Verläufe ausgeben.

Wahrscheinlichkeiten mit Bayesschen Netzen

Verwendet wird dabei das Covid-19 Bayesian Modelling for Outbreak Detection (BSTI). Das Bayesian Model for Outbreak Detection gibt es schon länger, es wird beispielsweise international für Influenza-Prognosen(öffnet im neuen Fenster) genutzt. Die Covid-Variante "basiert auf einer Version, die wir mit dem RKI in Januar publiziert haben" , sagte Gordon Pipa Golem.de. Ziel sei es zum einen, die Verlässlichkeit bei der Vorhersage explizit zu machen, und zum anderen, den Interaktionskernel zu schätzen.

Das BSTI-Modell unterscheidet sich von anderen Methoden durch zwei wesentliche Merkmale. "Zum einen liefert die neue Methode einen Vorhersagehorizont, der es ermöglicht, die Verlässlichkeit der Prognosen zu beurteilen. Weiterhin wird der Einfluss vom örtlich benachbarten Infektionsgeschehen mit einbezogen. Das erlaubt uns, auch die Dynamik der Ausbreitung zu bewerten" , sagte der Forscher.

Interaktion mit einem Zahlenwert bewerten

Ein Interaktionskernel beschreibt den Grad der Auswirkung, die eine niedrige oder auch eine hohe Infektionszahl auf eine benachbarte Region hat. Die Osnabrücker Neuroinformatiker haben mit diesem Konstrukt zusammen mit dem RKI schon 2019 gute Erfahrungen gemacht - genutzt wurden Interaktionskernel etwa bei der Beschreibung des Verlaufs von Borreliose, Campylobacter-Bakterien und dem Rotavirus.

Auf die Frage, wie die Struktur des Netzwerks aussieht und wie sie erstellt wurde, antwortete Pipa: "Wir nutzen kein explizites Netzwerk, die Nachbarschaftsbeziehungen werden durch Zufallsziehungen abgeschätzt. Das heißt, wir arbeiten in einem wirklich euklidischen Raum und nicht in einer Netzwerkstruktur."

Aufbau der Wahrscheinlichkeiten

Was die Wahrscheinlichkeitstabellen betrifft, werde ein klassischer Ansatz genutzt, wie oft in der Epidemiologie. "Die Verteilung ist negativ binomial(öffnet im neuen Fenster) . Der Vier-Wochen-Trend wird als linear plus quadratische Komponente pro Landkreis geschätzt. Es werden 1.000 Modelle pro Landkreis berechnet, welche als Bayesian Model im Ganzen zu den Verteilungen führen" , beschreibt er die Zusammenhänge. Die Herangehensweise ist damit ein Bayesscher Monte-Carlo-Ansatz(öffnet im neuen Fenster) .

Ein Bayessches Netz(öffnet im neuen Fenster) ist ein Entscheidungsnetzwerk in Form eines gerichteten azyklischen Graphen(öffnet im neuen Fenster) , dessen Kanten konditionale Abhängigkeiten beschreiben und dessen Knoten aus Zufallswerten bestehen, für die Markov-Chain-Monte-Carlo-Verfahren verwendet werden.

Gegenseitige Beeinflussung

Da sich die Landkreise in der Entwicklung von Covid-19-Infektionen gegenseitig beeinflussen, stellt sich auch die Frage nach den Landkreisen, die an den Außengrenzen Deutschlands gelegen sind. Viren machen vor Grenzen nicht halt, trotzdem muss es bei Modellberechnungen eine Behandlung der Landkreise am Rand geben. "An der Grenze haben wir uns entschlossen, keine Daten zu samplen. Das bedeutet, dass Daten bei der Berechnung, die zufällig gezogen werden und außerhalb der Landesgrenzen liegen, nicht berücksichtigt werden," sagte Pipa. Gleichzeitig würden auch die Informationen zu den Infektionszahlen aus den Nachbarländern nicht verwendet. "Alternativen wie zyklische Randbedingungen haben wir bewusst nicht genutzt, weil dies zu größeren Fehlern führen kann." Die Daten aus dem Ausland lägen zudem nicht für alle Nachbarn vor.

Reklame

Golem HIGHEND mit Geforce RTX 5060 Ti und AMD Ryzen 9 7900

Jetzt bestellen bei Dubaro (öffnet im neuen Fenster)

Wie genau ist das Vorhersagesystem?

Wie bei jeder Prognose stellt sich auch bei dem Projekt des Jülicher Forschungszentrums die Frage, wie gut eigentlich vorhergesagt wird. Zu der Auswertung, in der die Ergebnisse mit der Realität abgeglichen werden, sagte Gordon Pipa: "Wir monitoren seit einigen Wochen die Ergebnisse der Methode und haben bisher nur wenige Ausreißer entdecken können, die nicht mit den Konfidenzintervallen(öffnet im neuen Fenster) kompatibel sind. Und ja, trotzdem ändern und verbessern wir die Methode weiter, um auf solche seltenen Fälle zu reagieren."

Die Corona-Warn-App - Das Miniatur-Wunderland-Erklärvideo
Die Corona-Warn-App - Das Miniatur-Wunderland-Erklärvideo (01:45)

Das Modell selbst sei ja nicht neu, sondern bereits publiziert. Allerdings sei die Anwendung auf Covid-19 neu und bringe aufgrund der schnellen Dynamik einige Besonderheiten wie den sehr wahrscheinlich stark lokalen Interaktionskernel mit sich, erklärte Pipa.

Es ist faszinierend, wie genau die Vorhersagekorridore sind - basieren sie doch auf einer doppelten Vorhersage unter Verwendung von Zufallszahlen. Aber indem massiv viele Simulationen durchgeführt werden, verliert gerade die Monte-Carlo-Simulation einen großen Teil ihrer Fehleranfälligkeit. Und weil viele Landkreise sehr oft durchgerechnet werden müssen, um eine vernünftige Prognosenwahrscheinlichkeit zu erhalten, braucht es eben eine Menge Rechenpower.


Relevante Themen