Reicht Sprache, um die Welt zu verstehen?

Linde: Für biologische Intelligenz ist das sicher richtig. Menschen erzeugen ein Modell der Welt aufgrund ihrer Sinneswahrnehmung und dann entwickeln sie Sprache, die darauf aufbaut. Aber das muss nicht der einzige Weg sein, um ein Weltmodell zu erstellen. Es scheint, dass die Struktur der menschlichen Sprache reichhaltig genug ist, um allein daraus ein Modell der Welt zu erzeugen.

Zum Beispiel habe ich ChatGPT einmal gefragt, wie man ein altes Surfbrett benutzen kann, um die Arbeitssicherheit in einer Chemiefabrik zu erhöhen. Ein Vorschlag des Sprachmodells war, das Surfbrett als Barriere zu nutzen, um den Zugang zu gefährlichen Bereichen zu begrenzen, und aus dem Segel eine Art Plantschbecken zu nähen, um das versehentliche Austreten gefährlicher Flüssigkeiten einzudämmen.

Gemessen an der Absurdität meiner Frage fand ich diese Antworten darauf durchaus vernünftig. Auch wenn die Trainingsdaten für ChatGPT riesig sind, erscheint es mir sehr unwahrscheinlich, dass diese Ideen darin vorkamen. Und selbst, wenn das zufällig der Fall wäre, könnte ich viele andere ebenso unwahrscheinliche Beispiele geben.

Daher kann ich nur schlussfolgern, dass ChatGPT die physikalischen Eigenschaften eines Surfbretts zu einem gewissen Grad versteht und kreative neue Verwendungen dafür finden kann. Dies ist mehr, als einfach nur statistische Muster in bestehenden Texten über das Windsurfen anzuwenden. Es muss also ein recht gutes internes Modell der Welt haben, das zumindest in Grundzügen dem von dir beschriebenen Modell der Umwelt im Gehirn ähnelt.

Natürlich ist dieses Weltmodell nicht vollständig: Räumliche Vorstellungskraft oder eine Intuition für physikalische Vorgänge sind zum Beispiel nur sehr schwer aus Sprache allein zu erschließen. Deshalb ist ChatGPT in solchen Aufgaben auch nicht sehr stark.

Andererseits ist aber auch das Weltmodell der Menschen bei weitem nicht perfekt: Tiere haben ganz unterschiedliche Sinneswahrnehmungen und jede Fledermaus könnte behaupten, dass es Menschen an Intelligenz mangele, weil unsere Intuition dazu, wie sich Echolokation anfühlt, etwa genauso begrenzt ist wie die von ChatGPT.

Muresan: Wir müssen hier über die Bedeutung von "Verständnis" sprechen. Versteht ChatGPT etwas von dem, was wir von ihm verlangen oder von der Ausgabe, die es produziert?

Ich würde sagen, dass ChatGPT kein Verständnis von der realen Welt hat, die von der Sprache beschrieben wird. Verständnis bedeutet meiner Meinung nach, die Welt und die Beziehungen zwischen den Dingen darin intern nachzubilden und gleichzeitig ihr zukünftiges Verhalten vorherzusagen. Um ein solches internes Modell der Welt zu schaffen, benötigt man notwendigerweise einen Körper, der seine Umgebung wahrnehmen und darauf reagieren kann. Dadurch entsteht ein ultra-hochdimensionales internes Modell, das Verständnis unterstützt.

Zum Beispiel verarbeiten Menschen Bilder ganz anders als Deep-Learning-Algorithmen. Stell dir das Bild eines Autos auf einer Straße vor, mit einigen Bäumen an der Seite und Fußgängern, die die Straße überqueren. Wir verstehen den Inhalt des Bildes und wir verarbeiten mühelos die teilweise Verdeckung durch die Bäume. Wir verstehen, was vorne und was hinten ist, weil wir eine räumliche Vorstellung haben, die wir durch Interaktion mit unserer Umgebung erlernt haben.

Darüber hinaus können wir die Bewegungsrichtungen einzelner Fußgänger vorhersagen oder die Wahrscheinlichkeit einer Gefahr anhand der Position des Autos oder sogar anhand des Alters des Fahrers abschätzen. All diese Konzepte und Szenarien stehen irgendwie gleichzeitig in unserem internen Modell der Welt auf Abruf bereit. Sie sind leicht zugänglich und wir können sie willentlich aktivieren und damit arbeiten.

Wir weisen nicht einfach Muster irgendwelchen Kategorien zu, wie es KI-Modelle tun. ChatGPT kann zwar eine ausführliche Geschichte darüber erzeugen, was mit dem Auto und den Fußgängern passieren könnte, aber das geschieht durch statistische Kombination einiger Geschichten, mit denen es zuvor konfrontiert wurde, oder durch Anwendung einiger Regeln, um einen plausiblen neuen Text "kreativ" zu generieren.

Das bedeutet nicht, dass ChatGPT ein Verständnis für die Welt hat, die der Text beschreibt. Es hat eine Art Verständnis für Grammatik, Sprachstruktur und Kontext, aber kein Verständnis für die Konzepte, die die Sprache ausdrückt.

Das Gehirn ist ständig aktiv

Übrigens ist es eine wichtige Beobachtung, dass die vom Gehirn konstruierte innere Welt autonom ist, das heißt, sie existiert auch in Abwesenheit von Wahrnehmung. Wenn wir träumen, erzeugen wir eine sehr lebendige und recht detaillierte Version der Realität, welche sich nach den Regeln zusammensetzt, die wir aus den Erfahrungen mit unserer Umgebung abgeleitet haben.

Selbst wenn wir wach sind, aber das Gehirn von Sinneswahrnehmungen abschotten, beginnt es, solche Wahrnehmungen und sogar ganze eingebildete Welten zu simulieren. Dies kann im Experiment zuverlässig durch sogenannte sensorische Deprivation ausgelöst werden, was beispielsweise zu Halluzinationen oder außerkörperlichen Erfahrungen führt.

Linde: In der Tat ist das Fehlen ständiger Aktivität einer der wichtigsten Unterschiede zwischen großen Sprachmodellen und menschlicher Intelligenz. Ein Werkzeug wie ChatGPT reagiert nur auf Benutzeranfragen, ist aber nicht darauf ausgelegt, selbst die Initiative zu ergreifen.

Aber ich habe den Eindruck, dass Intelligenz für dich automatisch bedeutet, dass ein System intern auf eine bestimmte Weise funktionieren muss, und dass diese der Biologie entsprechen muss. Analog dazu würde "fliegen" immer bedeuten, Federn und Muskeln zu haben, um sie auf und ab zu bewegen. Und jedes Objekt, das weder Flügel noch Muskeln hat, kann per Definition nicht fliegen.

Solange Tiere die einzigen fliegenden Dinge auf der Welt waren, wäre das nicht weiter aufgefallen. Aber spätestens seit der Erfindung von Flugzeugen wird "fliegen" von einer Außenperspektive definiert und nicht durch die Art und Weise, wie das System in Inneren funktioniert. Und genau wie es viele Arten des Fliegens gibt, sollten wir die Möglichkeit in Betracht ziehen, dass es viele Wege gibt, wie sich Intelligenz äußern kann.

Muresan: Natürlich gibt es viele Möglichkeiten, wie ein System intelligentes Verhalten zeigen kann. Aber ich möchte klarstellen, dass ich mich hier auf eine menschenähnliche Intelligenz beziehe, weil diese in der Regel gemeint ist, wenn die Leute von Intelligenz sprechen.

Was die Flug-Analogie betrifft, würde ich sagen, dass es zwar mehr als eine Art des Fliegens gibt, aber es gelten einige Grundsätze, die entscheidend sind. Um zu fliegen, müssen wir Auftrieb erzeugen – sei es durch Flügelschlag, dynamischen Druckunterschied oder nach dem Raketenprinzip. Ich denke, dass einige der Voraussetzungen für eine menschenähnliche Intelligenz eher auf der Seite der grundlegenden Prinzipien liegen als auf der Seite der mechanistischen Umsetzung.

Um das noch klarer auszudrücken: Wir verstehen die Welt, weil wir uns ein inneres Modell davon mit all ihren komplexen Regeln und statistischen Regelmäßigkeiten schaffen. Dieses aktualisieren wir aufgrund neuer Sinneseindrücke, oder wir lassen es beim Träumen oder Halluzinieren frei laufen. Dies ist meiner Meinung nach ein grundlegendes Prinzip, das für eine menschenähnliche Intelligenz erforderlich ist, und nicht nur ein möglicher Mechanismus der Umsetzung.

Sprache ist nur die Spitze des Eisbergs

Um zurück auf die Sprache zu kommen: Sie ist nur ein begrenzter Ausdruck dieser laufenden internen Prozesse, also die Spitze des Eisbergs. Man könnte einem Sechsjährigen beibringen, Sätze einer Fremdsprache zu wiederholen, ohne die Worte zu erklären oder zu übersetzen. Man kann diesem Kind sogar Regeln beibringen, wie man solche Sätze kombiniert und daraus neue bildet. Aber der so erzeugte Text wird für das Kind keine Bedeutung haben, bis man die Worte in solche übersetzt, mit denen es vertraut ist und die mit dem internen Modell der Welt verknüpft sind, welches das Kind entwickelt hat.

Das Schöne an der Sprache ist nämlich, dass Wörter Auslöser für interne Prozesse sein können, die verschiedene Menschen erleben. Ein sehr komplexes internes Modell in meinem Geist kann ein ähnliches Modell in deinem Geist durch Sprache aktivieren. Dies bedeutet jedoch nicht, dass das Modell in der Sprache selbst enthalten ist. Es funktioniert nur, weil wir der gleichen Umgebung ausgesetzt sind und eine persönliche innere Welt entwickeln können, die die reale Welt widerspiegelt.

Die Welt ist jedoch nicht in der Sprache selbst enthalten, sondern in unseren internen Modellen. Diese können wir nur entwickeln, weil wir einen Körper haben und in der Lage sind, die Welt wahrzunehmen und darauf zu reagieren. Das heißt, wir haben Handlungsfähigkeit.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Was verstehen große Sprachmodelle wirklich?Braucht Intelligenz einen Körper? 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7. 6
  8.  


Samon 07. Apr 2023 / Themenstart

Danke für den Link. Hab' mir das Paper gerade durchgelesen. Sehr interessant und...

amagol 06. Apr 2023 / Themenstart

Grade der letzte Punkt is extrem kritisch zu sehen. Was ist mit einer Person die in...

derdiedas 05. Apr 2023 / Themenstart

Eine KI muss nicht träumen können sondern ernsthafte Aufgaben so gut erledigen das es...

Xergon 03. Apr 2023 / Themenstart

Ich denke nicht dass es gut im auswenig lernen ist. Man kann sehr abstrakte Probleme...

Kommentieren



Aktuell auf der Startseite von Golem.de
Grace Hopper Superchip
Nvidia zeigt den DGX GH200 AI-Supercomputer

Computex 2023 Die Kombination aus Grace Hopper, Bluefield 3 und NVLink ergibt funktional eine riesige GPU mit der Rechenkapazität eines Supercomputers und 144 TByte Grafikspeicher.

Grace Hopper Superchip: Nvidia zeigt den DGX GH200 AI-Supercomputer
Artikel
  1. Cortex v9 & v5 GPU: Arm setzt für Mobile SOCs voll auf 64-Bit
    Cortex v9 & v5 GPU
    Arm setzt für Mobile SOCs voll auf 64-Bit

    Computex 2023 Handys sollten durch den Wegfall von 32-Bit schneller, sicherer und trotzdem deutlich sparsamer werden.

  2. Reiner Haseloff: Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag
    Reiner Haseloff
    Ministerpräsident fordert Nullrunde bei Rundfunkbeitrag

    Zwei Jahre soll der Rundfunkbeitrag eingefroren werden, die Zukunftskommission derweil Reformideen vorlegen, schlägt Sachsen-Anhalts Ministerpräsident vor.

  3. System Shock Remake angespielt: Die Kult-KI Shodan kämpft frisch entfesselt
    System Shock Remake angespielt
    Die Kult-KI Shodan kämpft frisch entfesselt

    System Shock gilt als wegweisendes Shooter-Rollenspiel. Jetzt ist Golem.de im Remake wieder gegen die Super-KI Shodan angetreten (Windows-PC).
    Von Peter Steinlechner

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Microsoft Xbox Wireless Controller 40,70€ • Lexar Play 1 TB 99,60€ • DAMN!-Deals mit AMD-Bundle-Aktion • MindStar: AMD Ryzen 9 5950X 429€, MSI RTX 3060 Gaming Z Trio 12G 329€, GIGABYTE RTX 3060 Eagle OC 12G 299€, be quiet! Pure Base 500DX 89€ • Logitech bis -46% [Werbung]
    •  /