Zum Hauptinhalt Zur Navigation

AI Lab Notes: Was im letzten Monat in der KI-Forschung passiert ist

In der KI -Welt ändert sich alles rasant – mit dem neuen Newsletter unseres KI-Experten seid ihr bestens informiert.
/ Tim Elsner
6 Kommentare News folgen (öffnet im neuen Fenster)
Für mehr Wissen um KI: unser neuer Newsletter (Bild: qimono/Pixabay)
Für mehr Wissen um KI: unser neuer Newsletter Bild: qimono/Pixabay
Inhalt
  1. AI Lab Notes: Was im letzten Monat in der KI-Forschung passiert ist
  2. Blick auf die Wirtschaft
  3. Tiefere Einblicke

Fast täglich gibt es Neues aus der KI-Welt – ein neues Produkt hier, aktuelle Forschung da und dort: Vielleicht ein Durchbruch! Doch wie ist das zu bewerten? Mit dem neuen Golem-Newsletter unseres KI-Experten behaltet ihr den Überblick über die wichtigsten, aktuellen Entwicklungen in dem Bereich.

Der Newsletter erscheint monatlich, ihr könnt ihn hier abonnieren . Er ist kostenlos, aber damit ihr trotzdem nicht die Katze im Sack abonniert, kommt die erste Ausgabe über unsere Seite. Viel Spaß beim Lesen!


Liebe Leserinnen und Leser, herzlich willkommen zum neuen KI-Newsletter von Golem!

Ich bin Tim Elsner, habe über generative KI für visuelle Daten geforscht und promoviert und bin jetzt freiberuflich in Forschungs- und Beratungsprojekten unterwegs. Ich schreibe schon länger auch für Golem – jetzt eben auch den Newsletter.

Dieser Newsletter konzentriert sich auf Themen, die mir persönlich aufgefallen sind. Als Forscher mit Fokus auf Computer Vision, also dem Verarbeiten von Bildern, sowie Sprachmodellen à la ChatGPT ist das natürlich nur ein kleiner Einblick: Täglich erscheinen Dutzende neue Fachpublikationen, die man nicht alle sichten, geschweige denn alle lesen kann. Dieser Newsletter ist also, metaphorisch gesprochen, ein kleines Fenster in eine große Landschaft, mit den (absolut subjektiven) Augen eines Experten.

Der Newsletter ist dreigeteilt: Zuerst schauen wir uns wichtige aktuelle Forschungsbeiträge genauer an, dann die Entwicklungen aus der Wirtschaft und abschließend gibt es einige Leseempfehlungen für alle, die mehr über die technischen Seiten des Themas erfahren möchten. Und jetzt: Viel Spaß beim Lesen!

Blick auf die Forschung

Neuronale Netze sind schwer zu verstehen. Deswegen gibt es immer wieder Bemühungen, ihre internen Prozesse zugänglicher zu machen. Natürlich wird auch daran gearbeitet, das Verständnis der Modelle über unsere Welt zu verbessern – gleichzeitig wird die Art und Weise hinterfragt, wie wir solche Modelle überhaupt trainieren.

Hier kommt mein selektiver und subjektiver Überblick, was im November in der Forschung passiert ist:

Interpretierbarkeit von neuronalen Netzen

Neuronale Netze sind schwierig zu interpretieren, da sie aus Milliarden von Verbindungen zwischen Neuronen von aufeinanderfolgenden Schichten bestehen. Ein neues Papier(öffnet im neuen Fenster) von OpenAI hilft dabei, neuronale Netze besser zu verstehen. Wo normalerweise ein Neuron in einer Schicht mit allen anderen Neuronen der nächsten Schicht verbunden ist, nutzt OpenAI ein Modell mit einer zusätzlichen Optimierung auf möglichst wenige Verbindungen zwischen den Neuronen ("weight sparse").

Dadurch werden bestimmte Konzepte nicht mehr über zig Neuronen verteilt und mit anderen Konzepten verwoben, sondern die Darstellung von bestimmten Konzepten wird in jeweils einigen wenigen Neuronen und unabhängig von anderen Konzepten angeregt. In der Praxis bedeutet das beispielsweise, in diesen Netzen lässt sich sehen, dass etwa der Hinweis darauf, dass in einem Programmcode noch Anführungszeichen geschlossen werden müssen, immer über die gleichen Kanäle übertragen wird.

Der Ansatz hat dabei leichte Ähnlichkeit zu Anthropics Arbeit(öffnet im neuen Fenster) vor einigen Monaten, bei der ein neuronales Netz darauf trainiert wurde, nur ein paar wenige Neuronen zu verwenden, um besser zu verstehen, was das Netzwerk intern berechnet.

Takeaway: Zwar sind verständlichere Modelle deutlich teurer zu trainieren, aber sie können dabei helfen zu verstehen, wie neuronale Netze intern arbeiten, und dadurch etwa gezielt Dinge verbessern und Limitierungen erkennen.

Bessere Weltmodelle

LLMs zeigen, wie ein Modell ein grundsätzliches Verständnis über unsere Welt zumindest simulieren kann, das sich anschließend für viele Aufgaben nutzen lässt. Im Bereich des maschinellen Sehens ist das schwieriger: Bilder Pixel für Pixel vorherzusagen zu lernen, bedeutet einen zu starken Fokus auf Details ("Wo exakt müssen die Schneeflocken im Bild hin?") statt auf die grundlegende Struktur eines Bildes.

Die gelernte Repräsentation müsste also allgemeiner und damit (so die Hoffnung) nützlicher werden. Hier setzen sogenannte Joint-Embedding Predictive Architectures (JEPA) an: Statt Pixel für Pixel vorherzusagen, wird einem Netz beigebracht, eine abstraktere Repräsentation vorherzusagen. Das Modell konzentriert sich also auf das Wesentliche eines Bildes und kann hinterher nützlich dabei sein, etwa einen Agenten in dieser Repräsentation zu trainieren.

In LeJEPA(öffnet im neuen Fenster) zeigen die Autoren um Turing-Award-Gewinner Yann LeCun dabei theoretische Annahmen für solche Modelle und schlagen ein neues Ziel für das Training eines solchen Modells vor: Unter anderen Blickwinkeln etwa soll das Bild einer gleichen Szene auf die gleiche Repräsentation abgebildet werden.

Die gelernte Repräsentation eignet sich dabei als Startpunkt für weitere Aufgaben wie Klassifizierung, lässt sich aber auch direkt für einige semantisch wichtige Aufgaben wie die Segmentierung eines Bildes in verschiedene Komponenten verwenden.

Takeaway: Bessere Weltmodelle könnten, wie der Autor Yann LeCun immer wieder argumentiert hat(öffnet im neuen Fenster) , der Schlüssel für neue Anwendungen zum Beispiel in der Robotik sein.

Ein Agent für Videospiele

Videospiele waren schon immer ein bevorzugtes Spielfeld für die Forschung: eine existierende Simulation, in der neue Technologie sicher erforscht werden kann und zu der extrem viel Videomaterial (sprich: Trainingsdaten) existiert. Mit SIMA 2(öffnet im neuen Fenster) hat Google eine Schnittstelle zwischen seinem Gemini-LLM und Videospielen weiter ausgebaut.

Durch eine Schleife aus Analysieren, Reasoning (schrittweises Überlegen) und Umsetzen von Aktionen wird daraus ein Modell, das sich selbst in unbekannten Welten zurechtfinden kann. Zwar sind Videospiele hier kein lohnenswertes Ziel im klassischen Sinne, aber wunderbare Testfelder für neue Technologien.

Takeaway: Wenn eine KI im Videospiel No Man's Sky sich überlegen kann, was für Rohstoffe es wo abbauen muss, um einen neuen Antrieb zu bauen, ist der Sprung zu einem Roboter, der Zutaten vorbereitet und Abendessen kocht, vielleicht nicht mehr weit.

Zweifel an Effektivität von LLM-Training

Reinforcement Learning, also das Lernen und Trainieren eines Netzes mittels der Bewertung von vollständigen Antworten, ist aktuell der letzte Schritt in den meisten LLM-Pipelines. Dabei werden die Modelle nach der initialen Phase des Auswendiglernens von Text zu guten Antworten auf menschliche Eingaben getrimmt.

Insbesondere Reasoning, also das schrittweise Herleiten einer Antwort, bringt dabei oft bessere Ergebnisse. Ein aktuelles Papier(öffnet im neuen Fenster) der Tsinghua University, das bei der NeurIPS-Konferenz bei der Bewertung überall Bestnoten bekommen hat, zieht in Zweifel, wie viele neue Lösungswege dabei wirklich gefunden werden.

Zwar steigert der häufig verwendete Algorithmus die Rate, mit der gute Erklärungen gefunden werden, er sorgt aber nicht dafür, dass ein Modell wirklich neue Lösungswege findet, die nicht bereits in dem Modell stecken – man müsste es nur öfter ausführen.

Die Ergebnisse verdeutlichen, dass die Kombination aus neuronalen Netzen, Reinforcement Learning und Reasoning oftmals noch intransparenter ist als ihre einzelnen Bestandteile und bessere Benchmarks zwar bessere Modelle bedeuten, aber daraus häufig die falschen Rückschlüsse gezogen werden.

Takeaway: Gezielt neue statt bekannte Lösungswege von einem neuronalen Netz finden zu lassen, bleibt ein wichtiges Ziel, das mit den gängigen Methoden offenbar noch nicht erreicht wird.

Verschachteltes Lernen als neuer Durchbruch?

Im Training eines neuronalen Netzes werden dessen Parameter immer stückweise angepasst, immer für einen kleinen Teil der Daten. Zusätzlich dazu wird die durchschnittliche Anpassung über die letzten paar Updates verfolgt und benutzt, um den Kurs der Anpassungen stabil zu halten.

Eine aktuelle Arbeit(öffnet im neuen Fenster) von Google sieht in solchen unterschiedlichen Teilen verschiedene Stufen des gleichen Lernens ("grobe" und "feine" Frequenzen), die bisher einzeln betrachtet wurden. Die Forscher versuchen, diese Erkenntnis zu nutzen, um den Trainingsprozess selbst zu optimieren.

Erste Ergebnisse zeigen insbesondere, dass diese Aufteilung zum Beispiel dabei hilft, bei einem Wechsel des Kontexts Bekanntes nicht direkt wieder zu vergessen.

Takeaway: Auch wenn noch viele Fragen offen bleiben, könnte die Idee, das Lernen eines neuronalen Netzes selbst mitlernen zu lassen, endlich viele Probleme angehen, die neuronale Netze seit jeher plagen. Dafür fehlen allerdings noch einige wichtige Experimente und Verbesserungen.


Relevante Themen