Zum Hauptinhalt Zur Navigation

RT-2: Google Deepmind stattet Roboter mit KI aus

Mithilfe eines KI -Modells kann ein Roboter Aufgaben erledigen, auf die er nicht trainiert wurde.
/ Werner Pluta
3 Kommentare News folgen (öffnet im neuen Fenster)
Roboter mit RT-2: Erfolgsquote bei unbekannten Aufgaben von mehr als 60 Prozent (Bild: Google Deepmind)
Roboter mit RT-2: Erfolgsquote bei unbekannten Aufgaben von mehr als 60 Prozent Bild: Google Deepmind

Roboter zu trainieren ist auf Aufwand: Manche Roboter lernen Bewegungsabläufe, indem Menschen sie ihnen vormachen. Oft ist es aber noch mühsame Programmierarbeit. Das könnte sich bald ändern – mit einem Künstliche-Intelligenz-System (KI).

Robotic Transformer 2 (RT-2)(öffnet im neuen Fenster) hat Deepmind, die KI-Abteilung von Alphabet, das System genannt. Es sei "ein neuartiges Vision-Language-Action (VLA)-Modell" , das aus dem Web und aus Robotikdaten lerne, schreiben Yevgen Chebotar und Tianhe Yu im im Blog von Google Deepmind(öffnet im neuen Fenster) .

RT-2 nutzt ein Sprachmodell, das mit Texten und Bildern aus dem Internet trainiert wird. Dieses Wissen wird dann in Anweisungen für die Robotersteuerung umgesetzt. Dabei kann der Roboter auch Muster erkennen und Aktionen ausführen, auf die er nicht speziell trainiert wurde.

Der Roboter kannte nur den Würfel

Eine Aufgabe, die der Roboter erledigen musste, bestand darin, die Ketchup-Flasche neben einen blauen Würfel zu schieben. Auf dem Tisch lagen noch eine Mayonnaise- sowie eine Tabasco-Flasche. Der einzige dem Roboter bekannte Gegenstand war der Würfel. Dennoch schaffte er es, die richtige Flasche daneben zu platzieren.

Bei einer Vorführung für die New York Times(öffnet im neuen Fenster) wurde der Roboter aufgefordert, aus einem Wal, einem Löwen und einem Dinosaurier das ausgestorbene Tier herauszusuchen. Auch diese Aufgabe löste er sicher.

RT-2 nutzt ein Transformer-Modell(öffnet im neuen Fenster) . Diese Modelle, die die Grundlage für viele KI-Anwendungen, vor allem Sprachmodelle wie GPT-4 bilden, sind in der Lage zu generalisieren. Das heißt, sie können Informationen verallgemeinern. RT-2 basiert dabei auf früheren Arbeiten, wie dem Pathways Language and Image Model (Pali-X) und dem Pathways Language Model Embodied (Palm-E) .

Daten aus RT-1 wurde verwendet

Zudem flossen Daten aus dem Vorgänger RT-1(öffnet im neuen Fenster) ein, die von 13 Robotern über einen Zeitraum von 17 Monaten in einer Büroküche gesammelt wurden. Bei Tests schnitt RT-2 bei Aufgaben, für die das System es trainiert war, sogenannten "gesehenen" Aufgaben, genauso gut ab wie RT-1, bei "ungesehenen" Aufgaben jedoch deutlich besser. Insgesamt lag die Erfolgsquote bei diesen Aufgaben bei 62 Prozent.

Der Google-Konzern Alphabet hatte vor einigen Jahre die Abteilung Everyday Robots gegründet, um Roboter für den Alltag zu entwickeln . Ziel war, universell einsetzbare Roboter zu entwickeln. Die Robotikabteilung wurde zwar Anfang des Jahres geschlossen . Auch wenn das Paper zu RT-2 (pdf)(öffnet im neuen Fenster) noch diverse Einschränkungen auflistet, ist das Unternehmen dem mit RT-2 einen großen Schritt näher gekommen.


Relevante Themen