GPT-4 kann Werkzeuge einsetzen

Die Vorgängerversion ChatGPT ist beschränkt auf die Verarbeitung von Texteingaben und die Erzeugung von Antworten. Das Modell kann dabei lediglich auf das Wissen zurückgreifen, das während des Trainings in seinen Parametern verankert wurde. Aktualisierungen oder das Ausgleichen von Schwächen, etwa bei arithmetischen Aufgaben, durch den Zugriff auf externe Module sind nicht möglich.

GPT-4 hingegen hat die Fähigkeit erworben, externe Werkzeuge oder Module einzusetzen. Im Gegensatz zu herkömmlicher Software ist das Modell jedoch nicht fest mit diesen Modulen verknüpft. Stattdessen kann GPT-4 Programmbausteine flexibel nutzen, sobald deren Funktionsweise im Prompt erklärt wird. Basierend auf diesen Erklärungen entscheidet das Sprachmodell selbstständig, in welchen Situationen es die Module verwenden sollte und wie deren Ergebnisse zu interpretieren sind.

Ein Beispiel dafür aus dem Microsoft-Paper ist ein Prompt, in dem zwei Module namens SEARCH und CALC in natürlicher Sprache beschrieben werden. Durch die Nutzung von SEARCH kann GPT-4 Informationen aus dem Internet abrufen, während CALC arithmetische Berechnungen ermöglicht. Um eine Frage zum aktuellen Zeitgeschehen zu beantworten, etwa "Wer ist der aktuelle US-Präsident?", verwendet GPT-4 eigenständig die Suchfunktion, indem es die Rückmeldung "SEARCH('current US president')" gibt.

Die Implementierung des Moduls durch die Microsoft-Forscher besteht einfach darin, dass das Modell auf jede "SEARCH"-Ausgabe automatisch den Ergebnistext einer entsprechenden Internetsuche als "Nutzer-Prompt" zurückbekommt. Das Sprachmodell liest diesen Prompt ein und antwortet mit der korrekten Antwort auf die ursprüngliche Frage.

GPT-4 ist darüber hinaus in der Lage, mehrere Werkzeuge zu kombinieren, um ein Problem zu lösen. Ein beeindruckendes Beispiel zeigt, wie das Sprachmodell mithilfe von Kalender- und E-Mail-Funktionen einen Termin für drei Personen koordiniert. Die Autoren betonen, dass diese Nutzung von Werkzeugen eine emergente Fähigkeit ist, die dem Sprachmodell nicht explizit im Rahmen des Trainings beigebracht wurde.

Ein Sprachmodell, das sich in einer Umgebung zurechtfindet

Obwohl GPT-4 als Sprachmodell ursprünglich nicht dafür konzipiert wurde, mit einer physischen Umwelt zu interagieren, präsentieren die Autoren des Artikels einige Beispiele, die verdeutlichen, wie das Modell sein Weltwissen generalisieren und zur Navigation in einer Umgebung einsetzen kann. Die Beispiele konzentrieren sich auf verschiedene Text-Adventures, bei denen GPT-4 die Rolle des Spielers übernimmt. Dabei zeigt sich, dass das Sprachmodell die Beschreibungen seiner virtuellen Umgebung versteht und angemessen darauf reagiert.

Besonders beeindruckend ist erneut die Fähigkeit zur Visualisierung: Nachdem GPT-4 im Stil eines Textadventures (also mit Anweisungen wie "Gehe nach rechts", "Gehe nach oben" usw.) ein Haus mit mehreren Räumen erkundet hat, kann es einen TiKZ-Code erzeugen, der eine korrekte Karte des Hauses zeichnet.

  • Das Bild eines Einhorns wurde von GPT-4 in Form reiner Textbefehle in der Skriptsprache TiKZ für LaTex erzeugt, obwohl die verwendete Version von GPT-4 nur auf reinen Textdaten trainiert wurde. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712))
  • Auf die Anweisung, einen Hund mit dem Buchstaben "Q" zu kombinieren, gibt GPT-4 ein Skript aus, welches dieses Bild erzeugt. Es beschreibt das Ergebnis dabei von sich aus als einen Hund, der mit eingerolltem Schwanz sitzt.  (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
  • Nachdem GPT-4 als "Spieler" eines simplen Text-Adventures ein Haus erforscht hat, gibt es ein Skript aus, welches eine korrekte Karte des Hauses zeichnet. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)
Nachdem GPT-4 als "Spieler" eines simplen Text-Adventures ein Haus erforscht hat, gibt es ein Skript aus, welches eine korrekte Karte des Hauses zeichnet. (Quelle: S. Bubeck et al.: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (https://arxiv.org/abs/2303.12712)

Dies unterstreicht die bemerkenswerte Fähigkeit von GPT-4, sowohl räumliche Informationen aus Texten zu extrahieren als auch diese Informationen in eine visuelle Darstellung umzuwandeln, obwohl das Modell ausschließlich auf Texten trainiert wurde.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 GPT-4 kann programmierenEin bedenkliches Szenario 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6. 5
  7.  


Cerdo 05. Apr 2023 / Themenstart

GPT-4 wurde nicht programmiert, sondern trainiert. Da laufen keine Algorithmen ab, die...

helbo 04. Apr 2023 / Themenstart

+1 Genau das denke ich auch. Und genau daher wird evtl die im Artikel beschriebene...

janoP 29. Mär 2023 / Themenstart

Habe gerade das hier gelesen https://www.br.de/nachrichten/netzwelt/microsoft-ki-bing...

Joiner 29. Mär 2023 / Themenstart

Hier gibts aber viele naive Kommentare die an eine Debatte in der Oberstufe erinnern. Es...

Kommentieren



Aktuell auf der Startseite von Golem.de
Magnetohydrodynamischer Antrieb
US-Militär lässt lautlosen U-Boot-Antrieb entwickeln

Bislang war magnetohydrodynamischer Antrieb der Fiktion vorbehalten. Dank Fortschritten in der Akku- und Fusionstechnik soll sich das ändern.

Magnetohydrodynamischer Antrieb: US-Militär lässt lautlosen U-Boot-Antrieb entwickeln
Artikel
  1. KI-Bildgenerator: Diese Kamera generiert, statt zu fotografieren
    KI-Bildgenerator
    Diese Kamera generiert, statt zu fotografieren

    Ein Bastler hat eine KI-Kamera ohne Objektiv gebaut. Paragraphica erzeugt Schnappschüsse mit einem Raspberry Pi und Stable Diffusion.

  2. Disney und Videostreaming: Über 100 Eigenproduktionen aus Abo von Disney+ entfernt
    Disney und Videostreaming
    Über 100 Eigenproduktionen aus Abo von Disney+ entfernt

    Eigentlich wollte Disney nur etwas mehr als 50 Eigenproduktionen aus Disney+ verschwinden lassen. Nun fehlen deutlich mehr Filme und Serien.

  3. Seekabel: Colt bietet eine europäische Verbindung in die USA
    Seekabel
    Colt bietet eine europäische Verbindung in die USA

    Colt bringt eine neue Seekabelverbindung von Europa in die USA, die stärker in europäischer Hand ist. Statt in New York landet man in New Jersey. Doch Google und Facebook sind dabei.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Roccat bis -50% • AVM Modems & Repeater bis -36% • MindStar: 13 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ [Werbung]
    •  /