Gemini 2.5: Googles neue KI kann den Computer bedienen

Google hat ein neues KI-Modell innerhalb von Gemini 2.5 vorgestellt. Das Computer Use Model(öffnet im neuen Fenster) soll die Nutzung eines PCs nachstellen und kann etwa selbständig Bildschirmelemente erkennen, Klicks und Aktionen ausführen.
Nutzer können so etwa das User-Testing von Webseiten und Benutzeroberflächen per KI automatisieren. Auch soll die Software laut Google Informationen aus Texten und Bildern extrahieren können. Diese Informationen werden dann aufbereitet und je nach Prompt unterschiedliche ausgegeben.
Das Computer Use Model verwendet dabei Computer Vision, um Elemente auf dem Bildschirm zu erkennen. Dem Modell werden unter anderem Screenshots vom Desktop als Eingabe übermittelt. In den Screenshots werden Elemente erkannt und entsprechende Aktionen wie Mausklicks und Tastatureingaben durchgeführt. Anschließend wird ein neuer Screenshot angelegt und dem Modell übergeben. Das Ganze geschieht in einer logischen Schleife, bis das gewünschte Ergebnis erreicht ist.
Bisher nicht für Desktop-GUIs optimiert
"Das Gemini 2.5 Computer Use Model ist primär für Webbrowser optimiert" , schreibt Google im Blogpost(öffnet im neuen Fenster) . Allerding sei es auch in der Lage, andere GUI-Elemente außerhalb von Browsern zu erkennen und zu bedienen. Der Hersteller gibt allerdings auch zu: "Es ist bisher noch nicht für die Kontrolle auf OS-Desktop-Ebene ausgelegt."
Es dürfte aber nur eine Frage der Zeit sein, bis Google das Modell auch für GUIs dedizierter Programme optimiert. Schließlich finden Usertests für Apps oft nicht nur im Browser statt. Aktuell befindet sich das Computer Use Model in einer öffentlichen Preview. Google äußerte sich noch nicht dazu, wann alle User darauf Zugriff haben werden.