Zum Hauptinhalt Zur Navigation Zur Suche

AI Lab Report: Was im letzten Monat in der KI-Forschung passiert ist

In der KI-Welt ändert sich alles rasant – mit dem neuen Newsletter unseres KI-Experten seid ihr bestens informiert.
/ Tim Elsner
6 Kommentare News folgen (öffnet im neuen Fenster)
Für mehr Wissen um KI: unser neuer Newsletter (Bild: qimono/Pixabay)
Für mehr Wissen um KI: unser neuer Newsletter Bild: qimono/Pixabay

Fast täglich gibt es Neues aus der KI-Welt – ein neues Produkt hier, aktuelle Forschung da und dort: Vielleicht ein Durchbruch! Doch wie ist das zu bewerten? Mit dem neuen Golem-Newsletter unseres KI-Experten behaltet ihr den Überblick über die wichtigsten, aktuellen Entwicklungen in dem Bereich.

Der Newsletter erscheint monatlich, ihr könnt ihn hier abonnieren. Er ist kostenlos, aber damit ihr trotzdem nicht die Katze im Sack abonniert, kommt die erste Ausgabe über unsere Seite. Viel Spaß beim Lesen!


Liebe Leserinnen und Leser, herzlich willkommen zum neuen KI-Newsletter von Golem!

Ich bin Tim Elsner, habe über generative KI für visuelle Daten geforscht und promoviert und bin jetzt freiberuflich in Forschungs- und Beratungsprojekten unterwegs. Ich schreibe schon länger auch für Golem – jetzt eben auch den Newsletter.

Dieser Newsletter konzentriert sich auf Themen, die mir persönlich aufgefallen sind. Als Forscher mit Fokus auf Computer Vision, also dem Verarbeiten von Bildern, sowie Sprachmodellen à la ChatGPT ist das natürlich nur ein kleiner Einblick: Täglich erscheinen Dutzende neue Fachpublikationen, die man nicht alle sichten, geschweige denn alle lesen kann. Dieser Newsletter ist also, metaphorisch gesprochen, ein kleines Fenster in eine große Landschaft, mit den (absolut subjektiven) Augen eines Experten.

Der Newsletter ist dreigeteilt: Zuerst schauen wir uns wichtige aktuelle Forschungsbeiträge genauer an, dann die Entwicklungen aus der Wirtschaft und abschließend gibt es einige Leseempfehlungen für alle, die mehr über die technischen Seiten des Themas erfahren möchten. Und jetzt: Viel Spaß beim Lesen!

Blick auf die Forschung

Neuronale Netze sind schwer zu verstehen. Deswegen gibt es immer wieder Bemühungen, ihre internen Prozesse zugänglicher zu machen. Natürlich wird auch daran gearbeitet, das Verständnis der Modelle über unsere Welt zu verbessern – gleichzeitig wird die Art und Weise hinterfragt, wie wir solche Modelle überhaupt trainieren.

Hier kommt mein selektiver und subjektiver Überblick, was im November in der Forschung passiert ist:

Interpretierbarkeit von neuronalen Netzen

Neuronale Netze sind schwierig zu interpretieren, da sie aus Milliarden von Verbindungen zwischen Neuronen von aufeinanderfolgenden Schichten bestehen. Ein neues Papier(öffnet im neuen Fenster) von OpenAI hilft dabei, neuronale Netze besser zu verstehen. Wo normalerweise ein Neuron in einer Schicht mit allen anderen Neuronen der nächsten Schicht verbunden ist, nutzt OpenAI ein Modell mit einer zusätzlichen Optimierung auf möglichst wenige Verbindungen zwischen den Neuronen ("weight sparse").

Dadurch werden bestimmte Konzepte nicht mehr über zig Neuronen verteilt und mit anderen Konzepten verwoben, sondern die Darstellung von bestimmten Konzepten wird in jeweils einigen wenigen Neuronen und unabhängig von anderen Konzepten angeregt. In der Praxis bedeutet das beispielsweise, in diesen Netzen lässt sich sehen, dass etwa der Hinweis darauf, dass in einem Programmcode noch Anführungszeichen geschlossen werden müssen, immer über die gleichen Kanäle übertragen wird.

Der Ansatz hat dabei leichte Ähnlichkeit zu Anthropics Arbeit(öffnet im neuen Fenster) vor einigen Monaten, bei der ein neuronales Netz darauf trainiert wurde, nur ein paar wenige Neuronen zu verwenden, um besser zu verstehen, was das Netzwerk intern berechnet.

Takeaway: Zwar sind verständlichere Modelle deutlich teurer zu trainieren, aber sie können dabei helfen zu verstehen, wie neuronale Netze intern arbeiten, und dadurch etwa gezielt Dinge verbessern und Limitierungen erkennen.

Bessere Weltmodelle

LLMs zeigen, wie ein Modell ein grundsätzliches Verständnis über unsere Welt zumindest simulieren kann, das sich anschließend für viele Aufgaben nutzen lässt. Im Bereich des maschinellen Sehens ist das schwieriger: Bilder Pixel für Pixel vorherzusagen zu lernen, bedeutet einen zu starken Fokus auf Details ("Wo exakt müssen die Schneeflocken im Bild hin?") statt auf die grundlegende Struktur eines Bildes.

Die gelernte Repräsentation müsste also allgemeiner und damit (so die Hoffnung) nützlicher werden. Hier setzen sogenannte Joint-Embedding Predictive Architectures (JEPA) an: Statt Pixel für Pixel vorherzusagen, wird einem Netz beigebracht, eine abstraktere Repräsentation vorherzusagen. Das Modell konzentriert sich also auf das Wesentliche eines Bildes und kann hinterher nützlich dabei sein, etwa einen Agenten in dieser Repräsentation zu trainieren.

In LeJEPA(öffnet im neuen Fenster) zeigen die Autoren um Turing-Award-Gewinner Yann LeCun dabei theoretische Annahmen für solche Modelle und schlagen ein neues Ziel für das Training eines solchen Modells vor: Unter anderen Blickwinkeln etwa soll das Bild einer gleichen Szene auf die gleiche Repräsentation abgebildet werden.

Die gelernte Repräsentation eignet sich dabei als Startpunkt für weitere Aufgaben wie Klassifizierung, lässt sich aber auch direkt für einige semantisch wichtige Aufgaben wie die Segmentierung eines Bildes in verschiedene Komponenten verwenden.

Takeaway: Bessere Weltmodelle könnten, wie der Autor Yann LeCun immer wieder argumentiert hat(öffnet im neuen Fenster), der Schlüssel für neue Anwendungen zum Beispiel in der Robotik sein.

Ein Agent für Videospiele

Videospiele waren schon immer ein bevorzugtes Spielfeld für die Forschung: eine existierende Simulation, in der neue Technologie sicher erforscht werden kann und zu der extrem viel Videomaterial (sprich: Trainingsdaten) existiert. Mit SIMA 2(öffnet im neuen Fenster) hat Google eine Schnittstelle zwischen seinem Gemini-LLM und Videospielen weiter ausgebaut.

Durch eine Schleife aus Analysieren, Reasoning (schrittweises Überlegen) und Umsetzen von Aktionen wird daraus ein Modell, das sich selbst in unbekannten Welten zurechtfinden kann. Zwar sind Videospiele hier kein lohnenswertes Ziel im klassischen Sinne, aber wunderbare Testfelder für neue Technologien.

Takeaway: Wenn eine KI im Videospiel No Man's Sky sich überlegen kann, was für Rohstoffe es wo abbauen muss, um einen neuen Antrieb zu bauen, ist der Sprung zu einem Roboter, der Zutaten vorbereitet und Abendessen kocht, vielleicht nicht mehr weit.

Zweifel an Effektivität von LLM-Training

Reinforcement Learning, also das Lernen und Trainieren eines Netzes mittels der Bewertung von vollständigen Antworten, ist aktuell der letzte Schritt in den meisten LLM-Pipelines. Dabei werden die Modelle nach der initialen Phase des Auswendiglernens von Text zu guten Antworten auf menschliche Eingaben getrimmt.

Insbesondere Reasoning, also das schrittweise Herleiten einer Antwort, bringt dabei oft bessere Ergebnisse. Ein aktuelles Papier(öffnet im neuen Fenster) der Tsinghua University, das bei der NeurIPS-Konferenz bei der Bewertung überall Bestnoten bekommen hat, zieht in Zweifel, wie viele neue Lösungswege dabei wirklich gefunden werden.

Zwar steigert der häufig verwendete Algorithmus die Rate, mit der gute Erklärungen gefunden werden, er sorgt aber nicht dafür, dass ein Modell wirklich neue Lösungswege findet, die nicht bereits in dem Modell stecken – man müsste es nur öfter ausführen.

Die Ergebnisse verdeutlichen, dass die Kombination aus neuronalen Netzen, Reinforcement Learning und Reasoning oftmals noch intransparenter ist als ihre einzelnen Bestandteile und bessere Benchmarks zwar bessere Modelle bedeuten, aber daraus häufig die falschen Rückschlüsse gezogen werden.

Takeaway: Gezielt neue statt bekannte Lösungswege von einem neuronalen Netz finden zu lassen, bleibt ein wichtiges Ziel, das mit den gängigen Methoden offenbar noch nicht erreicht wird.

Verschachteltes Lernen als neuer Durchbruch?

Im Training eines neuronalen Netzes werden dessen Parameter immer stückweise angepasst, immer für einen kleinen Teil der Daten. Zusätzlich dazu wird die durchschnittliche Anpassung über die letzten paar Updates verfolgt und benutzt, um den Kurs der Anpassungen stabil zu halten.

Eine aktuelle Arbeit(öffnet im neuen Fenster) von Google sieht in solchen unterschiedlichen Teilen verschiedene Stufen des gleichen Lernens ("grobe" und "feine" Frequenzen), die bisher einzeln betrachtet wurden. Die Forscher versuchen, diese Erkenntnis zu nutzen, um den Trainingsprozess selbst zu optimieren.

Erste Ergebnisse zeigen insbesondere, dass diese Aufteilung zum Beispiel dabei hilft, bei einem Wechsel des Kontexts Bekanntes nicht direkt wieder zu vergessen.

Takeaway: Auch wenn noch viele Fragen offen bleiben, könnte die Idee, das Lernen eines neuronalen Netzes selbst mitlernen zu lassen, endlich viele Probleme angehen, die neuronale Netze seit jeher plagen. Dafür fehlen allerdings noch einige wichtige Experimente und Verbesserungen.

Blick auf die Wirtschaft

KI-Blase an der Börse

Der Technologiesektor hat an den Börsen seine schwächste Woche seit sieben Monaten erlebt. Vor allem KI-Unternehmen verloren massiv an Wert – rund 800 Milliarden US-Dollar innerhalb weniger Tage. Der Nasdaq rutschte um drei Prozent ab, was Beobachter auf hohe Investitionskosten im KI-Bereich und eine sich abkühlende Konjunktur zurückführen.

In den USA verschlechtert sich die Verbraucherstimmung spürbar, während der anhaltende Regierungsstillstand wichtige Wirtschaftsdaten blockiert. Besonders heftig traf es Nvidia, das allein rund 350 Milliarden US-Dollar Marktkapitalisierung einbüßte.

Holprige KI

Google erntet Kritik für einen KI-basierten Fußball-Liveticker. Seit einem Systemwechsel generiert eine KI die Kommentare vollständig automatisiert, was zu sprachlich holprigen und teils unpassenden Formulierungen führt.

Nutzer bemängeln maschinell klingende Übersetzungen, ständige Wiederholungen und inhaltlich oberflächliche Textbausteine. Google rechtfertigt die Umstellung damit, dass durch einen neuen Datenpartner mehr Ligen und Sprachen abgedeckt werden könnten.

Beeinflusste KI

Eine Studie der Universität Zürich zeigt, dass große Sprachmodelle Texte voreingenommen bewerten, wenn Informationen über Quelle oder Autor angegeben werden. Ohne diese Zusatzinformationen stimmen die Modelle in ihren Bewertungen zu über 90 Prozent überein.

Mit Quellenangaben hingegen sinkt die Übereinstimmung deutlich – insbesondere wenn die vermeintliche Autorenschaft aus China stammt oder eine andere KI angegeben ist. Die Forscher warnen, dass solche Bias-Effekte bei Bewerbungsverfahren, akademischen Reviews oder der Moderation von Inhalten problematisch sein können.

Arbeitsplatzverlust

Der Arbeitsmarkt in den USA steht unter Druck. Zahlen des Beratungsunternehmens Challenger, Gray & Christmas zeigen, dass die Entlassungen im Oktober 2025 den höchsten Stand seit 20 Jahren erreicht haben.

Besonders hart trifft es die Tech-Branche: Über 33.000 Stellen wurden im Oktober gestrichen, ein drastischer Anstieg gegenüber dem Vormonat. Gründe sind unter anderem der Abbau pandemiebedingter Überkapazitäten, rückläufige Ausgaben und die Einführung neuer KI-Systeme, die die Arbeitslandschaft verändern.

Deutschland liegt hinten

In Deutschland fehlt es im internationalen Vergleich an großen KI-Rechenzentren. Laut Bitkom liegt die verfügbare Rechenleistung weit hinter den USA und China zurück. Zwar wächst der Markt und neue Großprojekte sind angekündigt, dennoch warnen Branchenvertreter vor einer drohenden digitalen Abhängigkeit. Der Strombedarf steigt ebenfalls deutlich, der Großraum Frankfurt dominiert weiterhin die deutsche Rechenzentrumslandschaft.

Konkurrenz auf dem Chipmarkt

Google, dessen Rechenleistung aktuell noch zum Großteil auf Nvidia-Chips basiert, verhandelt mit Meta über den Einsatz der eigenen Tensor-Prozessoren. Das ist insbesondere relevant, weil bisher Nvidia ein Quasi-Monopol auf die wichtigsten Chips für das Training und das Ausführen von KI besitzt. Zwar entwickelt Google seine Chips seit über zehn Jahren, dennoch zeigt diese Entwicklung, dass die Marktstellung von Nvidia nicht mehr lange unangefochten sein könnte.

Technologie-Exporte einschränken

Eine Aussage von US-Präsident Donald Trump sorgt für internationale Unruhe. In einem Interview erklärte er, dass die leistungsfähigsten Nvidia-KI-Beschleuniger künftig ausschließlich in den USA verfügbar sein sollen.

Obwohl die Details unklar bleiben, könnte eine solche Exportbeschränkung globalen Unternehmen schaden und außenpolitische Spannungen verschärfen. Die Bemerkung wirkt besonders überraschend, weil die US-Regierung erst kürzlich Regeln zur Exportbegrenzung gelockert hatte.

Tiefere Einblicke

Für mathematisch-technische Grundlagen

Wer neu in das Fundament des Deep Learning einsteigen will oder sich einen solideren technischen Hintergrund schaffen will, für den gilt das Deep Learning Book(öffnet im neuen Fenster) immer noch als der Goldstandard, geschrieben unter anderem vom Erfinder der GANs (einem populären generativen Modell) sowie dem Turing-Award-Gewinner Yoshua Bengio.

Für mehr intuitives Verständnis

Wer verstehen will, wie Machine Learning innerhalb eines Netzes funktioniert, für den gibt es auf Distill sehr hochqualitative und anschauliche Artikel. Konkret gibt es etwa unter diesem Link(öffnet im neuen Fenster) einen Artikel darüber, was die verschiedenen Schichten eines neuronalen Netzes, das Bilder verstehen soll, tatsächlich für Muster lernen.

Für die Kaffeepause

Aktuelle Konzepte des Machine Learning mit einem Fokus auf LLMs und VLMs, aufgeteilt in die grundsätzlichen Ideen, gefolgt von einer etwas tieferen Erklärung, bietet AI Coffee Break(öffnet im neuen Fenster) auf Youtube. Dabei sind alle Videos eher als kurze Informationssnacks zu einer kurzen Pause gedacht. Durch die verschiedenen Ebenen der Erklärungen gibt es vom Anfänger bis zum Experten immer etwas Neues zu verstehen.

Das war es mit der ersten Ausgabe unseres neuen Newsletter. Hier noch mal der Link zum Abo – außerdem freuen wir uns natürlich über Feedback zu diesem Newsletter: Hat er die Erwartungen erfüllt, was wird vermisst? redaktion@golem.de ist die richtige Adresse dafür.

Der Autor
Tim Elsner(öffnet im neuen Fenster) hat über generative KI für visuelle Daten promoviert. Er forscht, entwickelt und berät freiberuflich rund um das Thema KI, mit einem Schwerpunkt auf Computer Vision, LLMs und VLMs. Er begeistert sich für alles am Thema maschinelles Lernen, auch wenn er dem aktuellen Hype rund um KI in seinen Extremen öfter kritisch gegenübersteht.


Relevante Themen