Machine Learning: Deepmind-KI soll 600 verschiedene Aufgaben meistern können
KI-Modelle sind oft nur für einen Zweck trainiert. Deepminds Gato hingegen soll Atari spielen, Texte lesen und Roboter steuern können.

Eine der wohl schwierigsten Aufgaben der modernen Forschung an sogenannter Künstlicher Intelligenz ist es, Systeme zu erschaffen, die mehr als nur eine bestimmte Aufgabe umsetzen können: Also nicht nur Texte erstellen, Bilder erkennen oder ein Computerspiel spielen, sondern alles zusammen. Mit dem Modell Gato hat das Google-Schwesterunternehmen Deepmind genau solch ein System erstellt.
Laut der Forschungsarbeit zu Gato (PDF) ist das System mit 604 verschiedenen Aufgaben "mit unterschiedlichen Modalitäten, Beobachtungen und Handlungsvorgaben" trainiert worden. Der KI-Agent arbeite dabei nicht nur multimodal, sondern auch mit Multitasking.
Zu den Fähigkeiten heißt es: "Dasselbe Netzwerk mit denselben Gewichten kann Atari spielen, Bilder beschriften, chatten, Blöcke mit einem echten Roboterarm stapeln und vieles mehr, wobei es je nach Kontext entscheidet, ob es Text, Gelenkmomente, Tastendrücke oder andere Token ausgibt."
Multi-Tasking mit nur 1,2 Milliarden Parametern
KI-Systeme, die mehrere Eingaben verarbeiten können, sind dabei nichts Ungewöhnliches. So kann etwa die Google-Suche Text und Bilder verknüpfen, um Ergebnisse zu erzielen. Das Besondere an Gato ist jedoch die Fülle an sehr unterschiedlichen Aufgaben, die das System je nach Eingabe selbständig umsetzen können soll.
Hinzu kommt, dass Gato derzeit nur rund 1,2 Milliarden Parameter umfassen soll. Das entspräche dem derzeitigen Stand der Technik zum Steuern von Robotern. Im Vergleich zu aktuellen riesigen Sprachmodellen mit 540 Milliarden Parametern wie Googles Palm ist das KI-System also vergleichsweise sehr klein.
Gato kann nur wenige Aufgaben wirklich gut
Zum Training schreibt das Team: "Gato wird anhand einer großen Anzahl von Datensätzen trainiert, die die Erfahrungen der Agenten in simulierten und realen Umgebungen sowie eine Vielzahl von Datensätzen zu natürlicher Sprache und Bildern umfassen."
Die Leistung von Gato bei der Fülle der Aufgaben ist dabei sehr unterschiedlich. Als Chatbot gebe das System etwa oft oberflächliche oder gar faktisch falsche Antworten. So beantwortet Gato die Frage nach der Hauptstadt von Frankreich mit Marseille.
In nur 450 der rund 600 Aufgaben liefere Gato dabei in 50 Prozent der Fälle eine Leistung, die vergleichbar mit menschlichen Experten auf dem Gebiet ist. Besonders gut schneidet Gato im 3D-Puzzlen des DM Lab ab. In Aufgaben wie den eher simpel wirkenden Atari-Spielen dagegen hinkt Gato nicht nur teils Menschen, sondern vor allem auch speziell trainierter KI hinterher. Deepmind hofft, derartige Problem durch einen anderen Trainingsansatz künftig noch lösen zu können.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
kt
Du weißt dass die Fülle an Parametern die Rechenleistung beim Inferieren massiv...
Naja, das Ding ist halt spezialisiert. Ist bei den Menschen auch nicht anders. Manche tun...
Kommentieren