Suche

Autonome Roboter mit Training auf einer Grafikkarte

Für autonome Aufgaben wird bei Mobile Aloha mit Daten aus 20 bis 50 erfolgreichen Demonstrationen einer Aufgabe eine KI mit einem kleinen Transformermodell mit 80 Millionen Parametern trainiert. Ähnlich wie bei großen Sprachmodellen wie ChatGPT, ist die Aufgabe des Transformermodells, den jeweils nächsten Schritt für die Steuerung vorherzusagen. Das Training einer neuen Aufgabe dauert dabei rund 5 Stunden mit einer Nvidia RTX 2080 Ti.

Anzeige

Es ist aber davon auszugehen, dass Teslas Optimus wegen der zusätzlichen Freiheitsgrade in der Bewegung der Arme, des Körpers und der Finger ein wesentlich komplexeres System zur Steuerung benötigt. Allerdings stehen Tesla auch deutlich mehr Mittel als eine einzige Gaming-Grafikkarte zum Training zur Verfügung. Das Fehlen einer autonomen Demonstration von Optimus sollte also nicht fehlenden Rechenkapazitäten bei Tesla geschuldet sein.

Mobile Aloha macht vor allem klar, dass die vollständige komplexe humanoide Anatomie von Optimus für viele Aufgaben nicht benötigt wird, insbesondere nicht im Kontext industrieller Fabriken. Entscheidend ist die autonome Interaktion mit der Umgebung, die Optimus bislang nicht demonstriert hat. Tesla gibt dabei keine ausreichenden Einblicke in die Entwicklung, die den Grund für die bislang fehlende autonome Interaktivität klarmachen würde. Die Komplexität dürfte eine große Rolle spielen.

Schrittweises Training

Probleme gibt es auch bei Mobile Aloha genug. Denn Transformermodelle sind rein stochastisch und Vorhersagefehler multiplizieren sich mit jedem Schritt, was über einen längeren Zeitraum fast unweigerlich zum Scheitern der Aufgabe führt. Für Mobile Aloha werden Aufgaben in kleinere Schritte unterteilt: Öl in die Pfanne, Garnele in die Pfanne, Garnele wenden, Garnele auf den Teller. Jeder dieser Teilschritte wird von der Software in weitere Teile untergliedert. So wird nach jedem Arbeitsschritt der Ausgangszustand neu bewertet und die bis dahin gemachten Fehler und Abweichungen ausgeglichen.

Anzeige

Bei Mobile Aloha gelingen etwa die ersten beiden Schritte beim Garnelenbraten fast immer, die letzten beiden aber nur in etwa zwei von drei Fällen, so dass die Gesamtchance bei rund 40 Prozent liegt. Dabei wurde der Prozess für das Training nur 20-mal demonstriert, für die meisten anderen Aufgaben waren es 50 Demonstrationen.

Weniger komplexe Aufgabe, wie das Einlegen von Batterien in ein offenes Batteriefach, gelangen mit 50 Demonstrationen mit 96 Prozent Wahrscheinlichkeit, Schuhe anziehen mit 92 Prozent. Einige Aufgaben, wie der Umgang mit Klebeband, werden bei weitem nicht perfekt erledigt, schon weil die einfachen Robotergreifer nur beschränkte Bewegungsmöglichkeiten haben. Hier hätte Optimus mit den menschenähnlichen Händen große Vorteile, die Tesla in der Praxis aber noch zeigen muss.

Ein einfacher Kasten, der tut, was er soll

Mobile Aloha demonstriert mit seinem einfachen fahrbaren Kasten aus Aluminiumprofilen und Industrieroboterarmen derzeit die Lösung viel komplexerer Aufgaben als Tesla – mit einem Bruchteil des Personals, des Kapitals und des Entwicklungsaufwandes. Durch den Open-Source-Ansatz und den einfachen Aufbau kann Mobile Aloha sowohl von Industrie wie auch Heimanwendern verwendet, trainiert und weiter verbessert werden. Die höhere Komplexität von Optimus stellt hingegen selbst ein Milliardenunternehmen wie Tesla bei der Lösung einfacher Aufgaben vor ernsthafte Probleme.

Das ist der grundlegende Vorteil einfacher Plattformen wie Mobile Aloha gegenüber humanoiden Robotern wie Optimus. Sie lassen alle Teile weg, die für ihre Funktion nicht benötigt werden. Optimus ist nicht auf Produktivität, sondern vor allem auf Menschenähnlichkeit optimiert. Diese beschränkt sich bei Mobile Aloha auf zwei Wackelaugen.

Elon Musk selbst sagt immer wieder: "Das beste Teil ist kein Teil." Optimus widerspricht dieser Maxime vollkommen und scheitert deshalb trotz des viel größeren Aufwands schon bei der Umsetzung einfacher Aufgaben.

  1. 1
  2. 2