Künstliche Intelligenz: Deepmind-KI kann unbekannte Szenen wiedergeben

Das ehemalige Google-Tochterunternehmen Deepmind hat mit dem GQN-Modell(öffnet im neuen Fenster) ein KI-System vorgestellt, das Bruchstücke einer Szenerie beobachten, erfassen und dann die Szene komplettieren und aus bisher unbekannten Blickwinkeln darstellen kann. GQN steht für Generative Query Network, ein Framework, in dem Maschinen ihre Umgebung nur durch eigene Bewegung erfassen und darauf basierend Schlüsse ziehen.
Das GQN-Modell besteht aus zwei Teilen: Das sogenannte Representation Network verwendet die von der Maschine erfassten optischen Daten und erarbeitet einen Vektor, der die entsprechende Szene beschreibt. Das Generation Network stellt sich anhand dieser Daten dann die Szene vor und ergänzt fehlende Teile anhand der Beobachtungen des Representation Network.

Die Datenbasis des Representation Network ist relativ umfassend, da dieser erste Schritt des GQN-Modells nicht weiß, welche Daten der zweite Schritt, das Generation Network, letztlich abfragen wird. Der Effizienz wegen werden nur die wichtigsten Informationen gespeichert, wie etwa die Positionen und Farben von Objekten und die Grundrisse von Räumen.
In den Tests, die Deepmind mit dem GQN-Modell durchgeführt hat, konnte das System unbekannte Szenen korrekt vervollständigen – die errechnete Umgebung sah am Ende genauso aus, wie die ursprünglich gerenderte. Dabei weist die KI eine hohe Genauigkeit auf, obwohl sie nicht alle Teile der Originalszenerie kennt.
Das GQN-Modell hat aktuell aber noch eine gewichtige Einschränkung: Es funktioniert nicht mit realen Szenen, sondern nur mit gerenderten. Die Forscher sehen ihr Projekt dennoch als wichtigen Schritt im Bereich komplett autonomer Szenenerkennung. Die theoretischen Hintergründe haben sie in einem Paper(öffnet im neuen Fenster) dargelegt.



