Zum Hauptinhalt Zur Navigation

Bringen neue Datenquellen die Lösung?

Eine mögliche Lösung dafür, mehr Daten und mehr Verständnis zu bekommen, steckt in der Multimodalität: Man verwendet nicht nur Text, sondern auch Bilder und Videos. Dabei sehen viele gerade Videogeneration als vollständigsten Ansatz, um unsere Welt darzustellen: Ein Modell, das plausibel aussehende Clips produziert, muss zwangsweise die Regeln unserer Welt abbilden können, etwa physikalische Gesetze simulieren, wenn etwas zu Boden fällt oder eine Reflexion zu sehen ist.

Und eigentlich beinhalten diese Modelle auch alles an Wissen: Wer als Prompt "Eine Frau, die einen Sortieralgorithmus in Python auf eine Tafel schreibt" eingibt, bekommt zwar aktuell noch dürftige Ergebnisse. Das Grundprinzip aber funktioniert, das Modell kann nicht nur Bilder erzeugen, sondern auch alles andere, was in unserer Welt passiert, damit zumindest ansatzweise abbilden.

Ein solch komplexes Welt-Modell fällt dann streng genommen wieder unter Suttons bittere Lektion: Mit genug Daten und Rechenleistung kann so ein Modell alles lernen, von Programmcode über Physik bis zu Videospielen. Die Entwickler müssen nichts explizit designen oder bauen. Skalierung und ein möglichst allgemeines Konzept reichen dafür aus. Aber auch dabei gibt es begrenzt viele Daten und begrenzt viel Rechenleistung, weil Videoerzeugung noch einmal teurer ist als Text oder Bilder, wie wir bereits in einem früheren Artikel analysierten. Selbst ohne diese Probleme gibt es einiges an Aspekten, die nicht mit Rechenkraft allein gelöst werden können. Dazu gehören fundamentale Aspekte des Trainings.

Fehlende Reflexion

Rein technisch können Modelle, wie sie aktuell trainiert werden, nicht einfach dazu lernen, während sie laufen. Zwar lassen sich Sprachmodelle zumindest noch mit der Zugabe von extra Kontext in den Prompt temporär dazu bringen, auch neue Probleme zu lösen, sie sind aber dennoch statisch. Vereinfacht gesagt hat das Modell bei der nächsten Anfrage in einem neuen Fenster wieder alles vergessen. Es kann weder aktuelle bzw. neue Informationen dauerhaft aufnehmen noch aus seinen Fehlern lernen.

Außerdem fehlt dem Modell ein Kernaspekt von Intelligenz, die Reflexionsfähigkeit beim Aufnehmen neuer Fakten im Training. Wandern im Extremfall etwa Daten von Verschwörungstheoretikern über die flache Erde oder sogar Falschinformationen von Holocaustleugnern(öffnet im neuen Fenster) in die Trainingsdaten, steckt diese Information dort noch drin und zeigt sich bestenfalls in einer leicht erhöhten Wahrscheinlichkeit für besagte Falschinformationen, schlimmstenfalls in einer KI, die absonderliche Behauptungen macht. Es werden schließlich nur Muster in der Sprache vervollständigt, es wird gelernt, dass im Kontext von "Everest" häufig "8.842 Meter" vorkommt, aber echte Reflexion oder Gedanken dazu gibt es während des Auswendiglernens dieser Daten im Modell nicht.

Diese Probleme sind inherent in der aktuellen Architektur der Modelle, und während mehr Rechenleistung und Daten zwar bessere Ergebnisse liefern, ist das keinesfalls ein Automatismus zur AGI. Insbesondere das fehlende Verständnis dafür, was in neuronalen Netzen eigentlich passiert, führt oftmals zu falschen Annahmen, die dann die Narrative der AGI durch mehr Rechenleistung weiter nähren.

Ein Extrembeispiel für solche Fehlschlüsse selbst in der Forschung ist etwa, dass lange angenommen wurde, ab bestimmten Modellgrößen würden bestimmte Fähigkeiten zutage treten ( emerging properties ): Etwa, dass ab einer bestimmten Anzahl von Parametern das Modell Humor verstehen könne, vorher aber nicht. Eine magische Schwelle, ab der ein Modell klug genug ist. Auch das trägt zur Annahme bei, die Suttons bittere Lektion wirken lässt, als ob sie ein Heilsversprechen sei, mehr Rechenleistung alle Probleme löse und ungeahnte Möglichkeiten schaffe.

In Wahrheit wird aber mittlerweile vermutet(öffnet im neuen Fenster) , dass das Phänomen eher auf falschen Metriken beruhe und keine fundamentale Eigenschaft der größeren Skalierung von Modellen sei. In Wahrheit skalieren solche Fähigkeiten genauso wie alles andere langsam mit der Modellgröße und treten nicht plötzlich zutage. Die Lektion daraus wäre also, dass mehr Rechenleistung nicht zwangsläufig irgendwann einen Durchbruch bringt, den wir gerade noch nicht beobachten können, es also keine unsichtbare Wand gibt, ab der plötzlich neue Fähigkeiten zu sehen sind.

Fazit

Suttons bittere Lektion besagt erst einmal nur, dass noch so kluges menschliches Design und alle Cleverness in der Regel einem maschinell gelernten Prinzip unterliegt, sofern wir Abstriche in Geschwindigkeit durch mehr Rechenleistung und Daten ausgleichen. Das bedeutet aber lediglich, dass wir auf der Sättigungskurve etwas weiter vorankommen, mit immer geringeren Fortschritten. Mathematisch gesprochen wird die Summe in einer unendlichen Reihe zwar immer größer, aber nicht zwangsweise auch unendlich groß.

Tim Elsner(öffnet im neuen Fenster) hat über bessere Repräsentationen für visuelle Daten von generativer KI geforscht und promoviert. Er berät, entwickelt und erklärt freiberuflich alles im Bereich rund um LLMs, Machine Learning und Computer Vision und bastelt gerne an allem, was mit neuronalen Netzen zu tun hat.


Relevante Themen