Der Schlüssel zum Erfolg sind die richtigen Datensätze
Das Wichtige ist, dass sich das Programm aus vielen Satellitenbildern ein Modell erschafft, das es ihm erlaubt, auch auf neuen Bildern Wasser zu erkennen. Aber um festzustellen, wo eine Landschaft überflutet ist, muss das Programm auch noch unterscheiden können, wo Wasser sein sollte und wo nicht. Dazu braucht es eine Referenz.
Im Fall der Fluterkennung sind das Sentinel-1-Bilder aus den zwei Jahren vor der Flut. Darauf ist zu sehen, wo in einer Gegend Wasser ist, wenn sie nicht überflutet ist. Für diese Referenz musste Wieland einen eigenen Datensatz erstellen. Denn die Vergleichsbilder, die sein Team brauchte, waren nirgends öffentlich verfügbar. Das sei übrigens sehr oft das Problem, sagen auch Experten vom Deutschen Forschungszentrum für KI (DFKI).
Automatisch Überflutungen erkennen
Sobald sie ihre Referenzen hatten, konnte die Forscher ihr Programm testen. Dazu musste es in einem Testdatensatz, also in Bildern, die nicht zum Trainieren verwendet worden waren, erkennen, wo Wasserflächen zu sehen waren und welche davon zum Überflutungsgebiet gehörten. Das vortrainierte Computermodell sieht also ein neues Bild und segmentiert es anhand der Regelmäßigkeiten, die es gelernt hat, um so die Wasserflächen zu erkennen.
Zur Zeit der Veröffentlichung dieses Textes konnte das U-Net immerhin 80 Prozent der Wasserflächen im Testdatensatz richtig erkennen. Das heißt, es erkennt 80 Prozent aller Wasserflächen erstens als Wasser und zweitens korrekterweise entweder als einen Bereich, in dem es Wasser erwartet – zum Beispiel einen Flusslauf – oder als überflutete Gegend, also Bereiche, in denen normalerweise kein Wasser wäre.
Außerdem werde das Programm immer besser, je besser die Referenzbilder seien, schreiben Wieland und sein Team. Das liege daran, dass das Computermodell anhand besserer Bilder immer mehr und feinere Unterschiede lernen könne: einerseits zwischen Bereichen mit und ohne Wasser, andererseits zwischen den Flächen, wo Wasser sein sollte und wo nicht. Berechnet wird das mit der sogenannten Intersection over Union.
Daten sind das A und O
Eine der Faustformeln der KI lautet ja auch: je besser die Daten, desto besser die Modelle, die damit trainiert wurden(öffnet im neuen Fenster) . Dabei bedeutet gut im Fall der Satellitenbilder nicht nur hochauflösend, sondern zum Beispiel auch, dass die Trainingsdaten genug hinreichend unterschiedliche Wasserflächen zeigen, damit das Programm später alle möglichen Arten von Wasser erkennt.
Aus einem Trainingsdatensatz, der nur aus Aufnahmen von Schwimmbädern besteht, würde ein Programm wahrscheinlich ungünstige Merkmale lernen: Schwimmbäder haben eine andere Form, Farbe und Tiefe als andere Wasserflächen und befinden sich in der Regeln nur in bestimmten Umgebungen.
Eine KI könnte damit zwar lernen, Schwimmbäder zu erkennen. Aber es wäre schwer, dieses sehr spezifische Model einzusetzen, um Wasserflächen zu segmentieren.



