Was verstehen große Sprachmodelle wirklich?
Linde: Es ist offensichtlich nicht ganz klar, was genau unter Intelligenz zu verstehen ist. Aber alle von dir genannten Ansätze scheinen sich um einen Akteur zu drehen, der eine breite Palette mehr oder weniger unscharf definierter Probleme lösen kann.
Und das ist ja gerade etwas, worin Computer traditionell nicht sehr gut waren: Seit Jahrzehnten haben wir viele ausgezeichnete Algorithmen, um mathematische Berechnungen durchzuführen, Schach zu spielen oder die Lieferkette eines Unternehmens zu optimieren. Aber Computer hatten immer große Schwierigkeiten mit dem Lösen von Problemen, die nicht auf einen eng definierten Optionsraum mit klaren Regeln beschränkt sind.
Bei ChatGPT habe ich zum ersten Mal den Eindruck, dass ein Algorithmus durch die Linse der menschlichen Sprache einen Blick auf unsere reale Welt geworfen und dabei gelernt hat, einen bedeutenden Anteil ihrer Phänomene zu verstehen. Und er kann dieses Verständnis anwenden, um Gelerntes auf neue und kreative Weise zu kombinieren und so eine breite Palette von Problemen zu lösen. Das ist der Grund, warum ich die großen Sprachmodelle wirklich als einen Meilenstein auf dem Weg zur AGI sehe.
Muresan: Nun, das wirft eine Reihe neuer Probleme auf, über die wir diskutieren müssen. Das erste betrifft die Beziehung zwischen Intelligenz und Sprache.
Meiner Ansicht nach ist Sprache der Ausdruck des Geistes, also einfach eine "Ausgabe" oder "Darstellung", die notwendigerweise begrenzter und enger ist als die Vorgänge, welche die Sprache erzeugen. Damit kann Intelligenz nicht der Sprache selbst zugeschrieben werden und auch nicht von ihr abgeleitet werden. Sie ist vielmehr eine Eigenschaft des zugrunde liegenden Prozesses, der die Sprache hervorbringt, also des Geistes.
Das bedeutet auch, dass der Sprecher die Bedeutung der von ihm gebildeten Sprache "versteht": Es gibt grundlegende mentale Vorgänge, die ursprünglich durch die Wechselwirkung des Menschen mit der Umwelt entstanden sind.
Wenn ich zum Beispiel sage: "Der Apfel fällt vom Baum", aktiviert mein Gehirn irgendwie gleichzeitig große assoziative neuronale Netzwerke. Darunter sind visuelle Schaltkreise, die den Anblick von Apfel und Baum repräsentieren, und solche, die den Geruch des Apfels codieren. Andere Schaltkreise beziehen sich auf die Bewegungssteuerung und wieder andere verarbeiten das Geräusch, das der Apfel beim Aufprall auf den Boden verursacht.
Darüber hinaus sind Konzepte wie "auf den Boden fallen" bereits vorbereitet – wir alle haben das schon vor dem zweiten Lebensjahr erfahren. Solche Konzepte können dann in dem riesigen Raum möglicher Zustände des Gehirns dargestellt werden, wenn sie von dem Satz "Der Apfel fällt vom Baum" angestoßen werden.
"Ein intelligentes System muss von der Welt träumen können"
Mit anderen Worten: Während des Sprechens repräsentiert das Gehirn nicht einfach abstrakte Gegenstände wie Wörter und die Grammatik, die sie verbindet, sondern aktiviert ein ganzes Repertoire an Darstellungen. Diese wurden zuvor durch Kausalketten geschaffen, die während unserer Wechselwirkung mit der Umwelt stattgefunden haben.
Wir könnten sagen, dass das Gehirn tatsächlich alle Erfahrungen nachträumt, die wir gemacht haben, indem es die Welt intern rekonstruiert und auf dieser internen Darstellung operiert – diese Operation könnten wir Geist nennen.
In diesem Sinne ist die Wahrnehmung einfach eine Korrektur oder Einschränkung, die auf das fortlaufende interne Weltmodell angewendet wird, das wir erstellen. Streng genommen nehmen wir die Welt also nicht direkt wahr, sondern wir verwenden unsere Sinne, um unsere intern konstruierten Wahrnehmungen anzupassen.
Wir haben umfassende Beweise dafür, dass das Gehirn von Säugetieren auf diese Weise funktioniert. Bei bestimmten Arten von Schizophrenie hören Patienten Stimmen und haben Halluzinationen. Interessanterweise handelt es sich dabei nicht nur um Vorstellungen, die das bewusste Selbst erfindet.
Eine solche innere Stimme ist vielmehr eine tatsächliche Darstellung einer Sinneswahrnehmung, die in dem Teil der Hirnrinde aktiviert wird, welcher für das Hörempfinden zuständig ist. Solche Patienten haben also nicht nur den Eindruck, Stimmen zu hören, sondern hören sie tatsächlich, auch wenn die Stimmen nicht in der Umgebung vorhanden sind.
Die Dinge werden noch komplexer, wenn man sich die höheren assoziativen Bereiche des Gehirns ansieht. Bei Affen werden beispielsweise bestimmte Zellen nicht nur beim Betrachten einer Tasse aktiviert, sondern auch bei einer Greifbewegung nach der Tasse. Wir arbeiten also nicht mit einfachen Darstellungen von Konzepten, sondern aktivieren einen ganzen Zoo von mentalen Modellen, die mit einem bestimmten Konzept verbunden sind.
Das Zurechtschnitzen dieser hyperkomplexen internen Welt erfordert meiner Meinung nach eine Interaktion mit der realen Welt und daher notwendigerweise einen Körper. Dies ist die Grundlage des Verstehens.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wie begeisterungswürdig ist ChatGPT? | Reicht Sprache, um die Welt zu verstehen? |
Danke für den Link. Hab' mir das Paper gerade durchgelesen. Sehr interessant und...
Grade der letzte Punkt is extrem kritisch zu sehen. Was ist mit einer Person die in...
Eine KI muss nicht träumen können sondern ernsthafte Aufgaben so gut erledigen das es...
Ich denke nicht dass es gut im auswenig lernen ist. Man kann sehr abstrakte Probleme...
Kommentieren