Palm-E: Google stellt seine künstliche Intelligenz vor
Künstliche Intelligenz für Hausroboter ist keine Zukunftsmusik mehr. Google stellt mit der TU Berlin den Palm-E-Roboter vor.

ChatGPT bekommt Konkurrenz: Eine Gruppe von KI-Forschenden von Google und der Technischen Universität Berlin haben am 6. März 2023 ihre künstliche Intelligenz Palm-E vorgestellt. Dabei handelt es sich um ein multimodal verankertes visuelles Sprachmodell (VLM), das nicht nur Sprachbefehle entgegennimmt, sondern sie auch an einen mobilen Roboter mit einem Arm weitergeben kann.
Laut Google kann Palm-E auf einen hochrangigen Befehl reagieren und dieses ausführen, beispielsweise "Bring mir die Reis-Chips aus der Schublade". Anschließend soll der Roboter diesen Befehl selbstständig ausführen. Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.
Zudem kann er auf seine Umwelt reagieren und die Chips-Tüte selbst dann wieder finden, nachdem ein Forscher die Tüte dem Roboter weggenommen und sie woanders hingelegt hat.
Google verkörpert Palm, indem es sensorische Informationen und Robotersteuerung hinzufügte. Da es auf einem Sprachmodell basiert, nimmt Palm-E kontinuierliche Beobachtungen wie Bilder oder Sensordaten auf. Diese codiert er in eine Sequenz von Vektoren, die dieselbe Größe wie Sprach-Token haben. Dadurch kann das Modell die sensorischen Informationen auf die gleiche Weise verstehen, wie es Sprache verarbeitet.
Gerade entstehen einige KI für Roboter
Google Robotics ist nicht die einzige Forschungsgruppe, die an der Steuerung von Robotern mit neuronalen Netzen arbeitet. Diese Arbeit ähnelt Microsofts jüngstem Paper ChatGPT for Robotics, in dem mit der Kombination von visuellen Daten und großen Sprachmodellen für die Robotersteuerung in ähnlicher Weise experimentiert wurde.
Palm-E weist einen positiven Transfer auf und kann das Wissen und die Fähigkeiten, die verarbeitet wurden, von einer Aufgabe auf eine andere übertragen. Das führt zu einer signifikant höheren Leistung im Vergleich zu Robotermodellen mit nur einer Aufgabe. "Je größer das Sprachmodell ist, desto mehr behält es seine Sprachfähigkeiten bei, wenn es für visuelle Sprach- und Robotikaufgaben trainiert wird – quantitativ gesehen behält das 562B Palm-E-Modell fast alle seine Sprachfähigkeiten bei", heißt es bei Google.
Die Google-Forscher planen, weitere Anwendungen von Palm-E für reale Szenarien wie Hausautomatisierung oder Industrierobotik zu untersuchen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Ist auch ein KI-Forschungsprojekt und kein Robot-Engineering-Projekt. Was hätten die...
Bring mir bitte ein Danone Joghurt. -Verstanden, möchtest du, dass ich lieber ein Dr...
Kommentieren