GPT-4: "Funken von allgemeiner künstlicher Intelligenz"

Microsoft Research enthüllt eine umfangreiche Sammlung von Fallbeispielen, die mit dem ChatGPT-Nachfolger GPT-4 erzeugt wurden. Die Ergebnisse sind beeindruckend.

Eine Analyse von Helmut Linde veröffentlicht am
Was braucht es, um den Intelligenz-Funken zu zünden?
Was braucht es, um den Intelligenz-Funken zu zünden? (Bild: Bild von 1954712 auf Pixabay)

Eine menschenähnliche künstliche Intelligenz wird immer greifbarer. Das zeigt die Vorabversion eines Artikels, den eine Gruppe von Microsoft-Forschern am 23. März veröffentlicht hat. In dem 156-seitigen Papier mit dem Titel Sparks of Artificial General Intelligence: Early experiments with GPT-4 präsentieren die Autoren die Resultate unterschiedlichster Tests, die sie mit dem Sprachmodell GPT-4 von OpenAI durchgeführt haben.

GPT-4 ist der Nachfolger des Sprachmodells ChatGPT, das in den vergangenen Monaten großes Aufsehen erregt hat. Die aktuelle Version von GPT-4 ist multimodal und kann damit beispielsweise auch Grafikdateien in ihren Prompts verarbeiten und Fragen zu Bildern beantworten. Für ihre Experimente verwendeten die Microsoft-Forscher jedoch eine frühere Version, bei der es sich noch um ein reines Sprachmodell handelte. Eingaben und Ausgaben der im Artikel beschriebenen Anwendungsfälle waren also ausschließlich Texte.

Das aktuelle Papier erschien nur wenige Tage nach dem Technical Report, mit dem OpenAI das neue Modell GPT-4 offiziell veröffentlicht hatte. Während dieser eher abstrakt gehalten ist und sich hauptsächlich auf Statistiken zu Benchmarks fokussiert, zeigt das Microsoft-Research-Papier viele konkrete Fallbeispiele und diskutiert im Detail die Fähigkeiten und Limitationen des Sprachmodells.

Nach der Lektüre der zahlreichen Fallbeispiele fällt es schwer, die Position aufrechtzuerhalten, dass die Entwicklung einer AGI noch viele Jahrzehnte entfernt liegen oder sogar technisch grundsätzlich unmöglich sein könne. Obwohl auch GPT-4 nicht immer einwandfrei arbeitet und ihm verschiedene Arten von Fehlern unterlaufen können, liefert es in allen übrigen Fällen äußerst beeindruckende Ergebnisse.

Der Titel des Artikels vermittelt genau diese Idee: Die Autoren betrachten GPT-4 als einen "Funken" von Intelligenz, aber noch nicht als vollständige AGI (Artificial General Intelligence). Im Folgenden werden die Ergebnisse des Papiers zusammengefasst:

Ein Sprachmodell mit visuellem Vorstellungsvermögen

In unterschiedlichen Tests zeigen die Autoren, dass GPT-4 Informationen aus unterschiedlichsten Domänen effektiv kombinieren kann. Dies umfasst nicht nur eine Vielzahl von Wissensgebieten, Sprachen und Stilen, sondern auch Programmiersprachen und sogar bildliche Darstellungen.

  • Das Bild eines Einhorns wurde von GPT-4 in Form reiner Textbefehle in der Skriptsprache TiKZ für LaTex erzeugt, obwohl die verwendete Version von GPT-4 nur auf reinen Textdaten trainiert wurde. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712))
  • Auf die Anweisung, einen Hund mit dem Buchstaben "Q" zu kombinieren, gibt GPT-4 ein Skript aus, welches dieses Bild erzeugt. Es beschreibt das Ergebnis dabei von sich aus als einen Hund, der mit eingerolltem Schwanz sitzt.  (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
  • Nachdem GPT-4 als "Spieler" eines simplen Text-Adventures ein Haus erforscht hat, gibt es ein Skript aus, welches eine korrekte Karte des Hauses zeichnet. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
Das Bild eines Einhorns wurde von GPT-4 in Form reiner Textbefehle in der Skriptsprache TiKZ für LaTex erzeugt, obwohl die verwendete Version von GPT-4 nur auf reinen Textdaten trainiert wurde. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712))

Besonders überraschend ist die Tatsache, dass GPT-4 trotz seines rein textbasierten Trainings eine Art visuelles Vorstellungsvermögen entwickelt hat. Die Autoren demonstrieren dies anhand mehrerer Beispiele, bei denen das Sprachmodell auf Anweisung Bilder zeichnet oder verändert, indem es die entsprechenden Befehlszeilen für die LaTex-Skriptsprache TiKZ ausgibt.

Dieser Code konnte anschließend von den Forschern zu Bildern kompiliert werden. Das Modell zeigt dabei eine erstaunliche Fähigkeit zur Abstraktion und Verallgemeinerung, zum Beispiel, indem es Strichmännchen aus drei vorgegebenen Buchstaben zusammensetzt.

  • Das Bild eines Einhorns wurde von GPT-4 in Form reiner Textbefehle in der Skriptsprache TiKZ für LaTex erzeugt, obwohl die verwendete Version von GPT-4 nur auf reinen Textdaten trainiert wurde. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712))
  • Auf die Anweisung, einen Hund mit dem Buchstaben "Q" zu kombinieren, gibt GPT-4 ein Skript aus, welches dieses Bild erzeugt. Es beschreibt das Ergebnis dabei von sich aus als einen Hund, der mit eingerolltem Schwanz sitzt.  (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
  • Nachdem GPT-4 als "Spieler" eines simplen Text-Adventures ein Haus erforscht hat, gibt es ein Skript aus, welches eine korrekte Karte des Hauses zeichnet. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
Auf die Anweisung, einen Hund mit dem Buchstaben "Q" zu kombinieren, gibt GPT-4 ein Skript aus, welches dieses Bild erzeugt. Es beschreibt das Ergebnis dabei von sich aus als einen Hund, der mit eingerolltem Schwanz sitzt. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

In rein sprachlichen Aufgaben zeigt GPT-4 Kreativität, indem es Texte oder Gedichte aus verschiedenen Themen und Stilen kombiniert. Es kann sogar seine selbst generierten Texte mit analogen Ausgaben der Vorgängerversion ChatGPT vergleichen und dabei sehr differenziert auch feine Nuancen in Sprachstil und Inhalt bewerten.

Interessanterweise hat GPT-4 auch ein rudimentäres Verständnis für Musik entwickelt, wenngleich es in diesem Bereich noch weit hinter seinen sprachlichen und visuellen Fähigkeiten zurückbleibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
GPT-4 kann programmieren 
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6.  


Cerdo 05. Apr 2023 / Themenstart

GPT-4 wurde nicht programmiert, sondern trainiert. Da laufen keine Algorithmen ab, die...

helbo 04. Apr 2023 / Themenstart

+1 Genau das denke ich auch. Und genau daher wird evtl die im Artikel beschriebene...

janoP 29. Mär 2023 / Themenstart

Habe gerade das hier gelesen https://www.br.de/nachrichten/netzwelt/microsoft-ki-bing...

Joiner 29. Mär 2023 / Themenstart

Hier gibts aber viele naive Kommentare die an eine Debatte in der Oberstufe erinnern. Es...

Kommentieren



Aktuell auf der Startseite von Golem.de
Endzeit
Experten warnen vor der Ausrottung der Menschheit durch KI

Unternehmen wie Microsoft, Google und OpenAI stehen hinter einer sehr drastischen Stellungnahme. Die warnt vor der Auslöschung durch KI.

Endzeit: Experten warnen vor der Ausrottung der Menschheit durch KI
Artikel
  1. Blizzard: Erste Wertungen für Diablo 4 sind da
    Blizzard
    Erste Wertungen für Diablo 4 sind da

    Gamer stehen vor einem Großereignis: Blizzard veröffentlicht bald Diablo 4. Nun gibt es erste Wertungen der Fachpresse.

  2. Apple: iPhone 15 soll mit USB-C und neuem Mute-Button kommen
    Apple
    iPhone 15 soll mit USB-C und neuem Mute-Button kommen

    Erste Dummys der kommenden iPhone-15-Reihe verraten bereits ein paar interessante kleinere Details - der Mute-Button etwa wird ersetzt.

  3. Künstliche Intelligenz: So funktionieren KI-Bildgeneratoren
    Künstliche Intelligenz
    So funktionieren KI-Bildgeneratoren

    Im Netz wimmelt es mittlerweile von künstlich erzeugten Bildern reitender Astronauten, skateboardfahrender Teddys oder stylish gekleideter Päpste. Aber wie machen Dall-E, Stable Diffusion & Co. das eigentlich?
    Von Helmut Linde

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: 14 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • Amazon-Geräte für Alexa bis -50% • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ • HyperX Cloud II Headset 62,99€ [Werbung]
    •  /