Künstliche Intelligenz: Mehr Rechenleistung bringt immer Fortschritt, aber keine AGI

Inhalt
In einem vielzitierten Blogpost(öffnet im neuen Fenster) aus dem Jahr 2019 hat der Turing-Award-Gewinner Rich Sutton, einer der Wegbereiter des Reinforcement Learning (unter anderem ein essenzieller Schritt des Trainings für alle modernen LLMs(öffnet im neuen Fenster) ), von einer bitteren Lektion ( "Bitter Lesson" ) gesprochen: Egal wie klug wir uns anstellen, am Ende wird immer rohe Rechenkraft die nächste große Innovation ermöglichen und jede noch so kluge Idee, die Forscher haben, überholen.
Zusammen mit den Moore'schen Gesetzen, also der konstanten Leistungssteigerung von Computerchips, ergibt sich aus dem Mehr an Rechenkraft damit automatisch ein inhaltlicher Fortschritt durch die Zeit. Vielfach wird daraus dann das Narrativ gesponnen, es gebe damit einen Automatismus zum Stein der Weisen der Informatik, eine selbstständige Maschine, die alle Probleme lösen könne: eine Artificial General Intelligence, kurz AGI.
Wir analysieren, was mit der bitteren Lektion gemeint ist, geben Beispiele für die Stichhaltigkeit dieser These, und extrapolieren, ob dadurch wirklich AGI nur eine Frage der Zeit ist, wie viele Tech-CEOs gerne gegenüber den Medien und damit auch gegenüber potenziellen Geldgebern behaupten – auch wenn der Zeithorizont sich immer weiter nach hinten zu verschieben scheint(öffnet im neuen Fenster) .
Was Sutton meint
Die Informatik nahm ursprünglich mit dem Design von Algorithmen ihren Anfang: Stringente Programmabläufe mit "wenn dies, dann das", konkrete Rechenvorschriften, die einen Zweck erfüllen. Dieses Paradigma wandelte sich langsam, weg von einem Menschen, der ein Vorgehen vorgibt, hin zu maschinellem Lernen, wo nur mit einem vorgegebenen Ziel automatisch ein Weg zur Lösung gesucht wird.
In dieser Entwicklung sind Algorithmen aber nie plötzlich verschwunden, sondern schrittweise ersetzt worden. Ein Beispiel dafür gibt Sutton für die Computer Vision, also dem maschinellen Sehen: Die ersten Algorithmen auf Bildern verglichen statisch benachbarte Pixel und erkannten dadurch Kanten, die wiederum zu größeren Bausteinen(öffnet im neuen Fenster) zusammengesetzt wurden.
Bilder vollständig in neuronalen Netzen zu verarbeiten, war deutlich zu teuer. Als erster gelernter Baustein beim Eintauschen von Rechenleistung gegen Leistung wurden diese handgemachten Elemente dann mittels gelernter Klassifikatoren ausgewertet, etwa eine gewisse Summe festgelegt, ab der ein Bild in eine Kategorie sortiert wird.
Mit mehr Rechenleistung und technischer Innovation durch sogenannte Convolutions wurde es dann möglich, auch den Rest der Pipeline zu ersetzen: Anstatt das Bild komplett in ein neuronales Netz zu stecken, kann damit ein neuronales Netz mehrfach benutzt werden und wird an mehreren lokalen Fenstern des Bildes angelegt. An die Stelle von handgemachten Features traten also gelernte Filter. Zwar ist diese auch heute noch übliche Pipeline durchgehend gelernt, aber das Benutzen des gleichen Netzes an verschiedenen Stellen bzw. das dadurch entstehende Betrachten von lokalen Fenstern des Bildes hat immer noch einen gewissen induktiven Bias: Pixel werden zunächst in lokalen Nachbarschaften betrachtet, erst später werden größere und weiter entfernte Regionen zusammengefügt.

Einen weiteren Schritt in Richtung Freiheit ohne diese Biases machte dann die Einführung des Transformers(öffnet im neuen Fenster) , die wohl aktuell wichtigste Architektur für neuronale Netzwerke vom Sprachmodell bis zum Bildgenerator, für die Anwendung auf Bildern(öffnet im neuen Fenster) . Hier werden Bilder zwar immer noch als lokale Kacheln von Pixeln eingegeben, das Netz kann aber frei und ohne Hierarchie die einzelnen Komponenten miteinander in Kontext bringen, etwa bereits im ersten Layer beim Bild eines Menschen das Auge mit dem Fuß in Beziehung setzen.
Ein ähnliches Muster lässt sich beim Verarbeiten von Sprache beobachten: angefangen von etwa Übersetzen von Text mit handgemachten Regeln für Grammatik bis zum Lernen von Sprache durch das Vorhersagen des nächsten Wortfetzens. Aber auch hier sind die Wortfetzen, die ein Sprachmodell vorhersagt, letztlich eine menschengemachte Vereinfachung, ein induktiver Bias, der etwas von der maximalen Leistungsfähigkeit des Modells für eine deutliche Erleichterung im Training eintauscht. Aktuelle Ansätze(öffnet im neuen Fenster) tauschen daher die groben, algorithmisch festgelegten Wortfetzen bzw. Tokens durch feingliedrige Buchstaben und gelernte Tokens aus.
Egal ob in der Computer Vision oder allen anderen Domänen: Das Mehr an Freiheit bringt, genug Daten und Rechenleistung vorausgesetzt, deutlich bessere Ergebnisse. Es werden grundsätzlich die Anforderungen an Rechenleistung und Datenmenge erhöht, um gleichzeitig die Freiheit für die Auswahl an möglichen Lösungsstrategien zu erhöhen und vorgegebene Stücke bzw. induktive Biases im Design abzubauen. Einfach nur mehr Rechenleistung auf exakt der gleichen Architektur bringt natürlich ebenso Erfolg, etwa lernen Transformer-Modelle für die Vorhersage von Sprache einfach besser, je größer und mächtiger sie sind.
Man kann also eindeutig sagen: Mehr Rechenleistung und gegebenenfalls weniger menschengemachte Vereinfachungen bedeuten bessere Netze. Der Trugschluss steckt allerdings in der Schlussfolgerung, dass dieser Leistungszuwachs entsprechend linear und unbegrenzt möglich sei.
Dabei ist das Internet als größte Textquelle der Menschengeschichte längst leergefischt, und ab einer gewissen Größe bringen auch größere Modelle kaum noch signifikante Vorteile: Man könnte mutmaßen, wir befinden uns in einer doppelten Sättigungskurve. Immer weniger neue Daten und immer weniger Effekt von mehr Rechenleistung bringen zwar trotzdem noch Verbesserungen, aber der Fortschritt stagniert.



