Meta: KI soll Abstrahieren und Hintergrundinformationen lernen

Die KI-Forschungsabteilung von Meta hat aufbauend auf Ideen von Yann LeCun erstmals eine neue Art KI-Modell vorgestellt(öffnet im neuen Fenster) , das völlig anders funktionieren soll als bisherige Systeme. Dazu heißt es: "Dieses Modell, die Image Joint Embedding Predictive Architecture (I-Jepa), lernt, indem es ein internes Modell der Außenwelt erstellt, das abstrakte Darstellungen von Bildern vergleicht, anstatt die Pixel selbst zu vergleichen."
Das neuen I-Jepa-Modell soll dabei laut Aussagen von Meta bei vielen Aufgaben der sogenannten Computer Vision, also Bild- und Objekterkennung, eine hohe Leistung aufweisen, dabei aber auch deutlich effizienter arbeiten als bisher genutzte Modelle für diese Aufgaben. Der besondere Ansatz soll darüber hinaus dazu führen, dass sich das Modell direkt für den Einsatz vieler Aufgaben eignet, ohne dass ein Finetuning auf eine bestimmte Aufgabe zwingend notwendig ist.
Mit I-Jepa verfolgt das Team von Meta die Idee, Algorithmen zu entwickeln, die auf ähnliche Art und Weise lernen wie Menschen. So sind Menschen in der Lage, zahlreiche Hintergrundinformationen quasi passiv und nebenbei zu erlernen und dies dann als eine Art gesunden Menschenverstand einzusetzen - so zumindest beschreibt es Meta. Leicht nachvollziehbar wird dies bei der Kategorisierung von Objekten und bekannten Beispielen aus der Philosophie wie der Kategorie des Stuhls.
Lernen mit Hintergrundinformationen
Trotz zahlreicher unterschiedlicher Formen können Menschen Stühle fast immer direkt als solchen erkennen und benennen. Eine simple Beschreibung der Kategorie Stuhl mithilfe einfacher Muster ist hingegen extrem schwer. So könnte ein Objekt mit einer Sitzfläche und vier Beinen eben auch ein Pferd sein. Die Beschreibung allein reicht also nicht zur Objekterkennung und es sind offensichtlich weitere Informationen nötig.
KI-Modelle sind bisher nicht in der Lage, derartige logische Schlüsse und Kategorisierungen selbst vorzunehmen. Sie basieren meist auf einer Wiedererkennung bereits gesehener Objekte. Mit I-Jepa versucht Meta nun also einen neuen Ansatz. Um das Training des Modells dabei effizient zu gestalten, sollen die internen Repräsentationen außerdem auch von nicht vorher gelabelten Daten erlernt werden können.
Das neue Modell unterscheide sich dabei auch von den bisherigen generativen Modellen, die so arbeiteten, dass sie bestimmte Bestandteile entfernten und versuchten, die Fehlstelle wieder aufzufüllen - allerdings pixelgenau und vollständig. Jedoch sei die Realität eigentlich unvorhersagbar, schreibt Meta, so dass derartige Modelle oft Fehler machten.
Im Unterschied dazu wird bei dem Ansatz von I-Jepa der Kontext bestimmter Informationen betrachtet, was zum Erlernen semantischer Funktionen führen soll. Daraus soll das Modell dann eine Art Hintergrundwissen erstellen, um Objekte erkennen und richtig zuordnen zu können. Weitere Details zu I-Jepa bietet die wissenschaftliche Beschreibung(öffnet im neuen Fenster) . Der Code dazu steht auf Github bereit(öffnet im neuen Fenster) .



