Zum Hauptinhalt Zur Navigation

ChatGPTs Agent-Modus: Autonom, aber unausgereift

OpenAIs Agent soll Aufgaben eigenständig planen und ausführen. In der Praxis scheitert die KI jedoch oft an den eigenen Ansprüchen.
/ Nils Matthiesen
6 Kommentare News folgen (öffnet im neuen Fenster)
Der neue Agent-Modus von ChatGPT: Unsere Aufgaben wurden nicht zu unserer Zufriedenheit gelöst. (Bild: Screenshot: Nils Matthiesen)
Der neue Agent-Modus von ChatGPT: Unsere Aufgaben wurden nicht zu unserer Zufriedenheit gelöst. Bild: Screenshot: Nils Matthiesen

OpenAI hat mit dem neuen Agent-Modus den nächsten großen Schritt in der Entwicklung seiner KI-Plattform eingeleitet. Bisher war ChatGPT vor allem ein reaktiver Assistent, der auf Eingaben antwortete. Jetzt soll die KI eigenständig handeln, Aufgaben in Teilschritte zerlegen, recherchieren und Ergebnisse liefern, ohne dass der Nutzer jeden Schritt einzeln anstoßen muss. Das Konzept signalisiert eine klare Abkehr vom klassischen Dialogmodell hin zu einem autonomen, ausführenden Werkzeug.

Vom Prompt zur Prozesskette: Was der Agent leisten soll

Die zentrale Idee des Agent-Modus: Nutzer formulieren ein Ziel, zum Beispiel "Plane einen Wochenendtrip nach Paris mit Wettervorhersage, Hotels und Restaurantempfehlungen" und überlassen der KI die Planung. Der Agent strukturiert die Aufgabe in logische Teilschritte, in sogenannte Operators; er entscheidet selbst, wann eine Webrecherche nötig ist, wann Daten gespeichert oder berechnet werden müssen oder welche Tools er einsetzen soll.

Dabei greift er auf bekannte Funktionen von ChatGPT zurück, etwa den Code Interpreter, den Browserzugang oder das Dateisystem. Neu ist, dass er diese Werkzeuge nun automatisiert kombiniert. Also nicht auf Anweisung, sondern als Teil eines selbstständig entwickelten Plans.

Beispiel: Reiseplanung

  • Klassischer Dialog: Nutzer fragen nach dem Wetter in Paris und anschließend nach passenden Hotels und Restaurants. Dann müssen sie die Informationen selbst zusammenführen.
  • Agent-Modus: Man gibt den Auftrag: "Plane eine Reise nach Paris." Der Agent sucht selbstständig nach dem Wetter, filtert Hotels nach den genannten Kriterien, sucht nach Restaurants in der Nähe und erstellt einen finalen Plan.

Wenn der Plan scheitert: Was der Agent (noch) nicht kann

Tests unter anderem von The Verge(öffnet im neuen Fenster) und Tom's Guide(öffnet im neuen Fenster) zeigen: Der Agent-Modus hat Potenzial. Bei klar umrissenen Aufgaben wie kurzen Recherchen oder Dateikonvertierungen arbeitete die KI strukturiert und zuverlässig.

Schwieriger wurde es allerdings bei komplexeren, mehrstufigen Aufgaben. Ein Beispiel: die Analyse einer Excel-Tabelle mit der Anforderung, die umsatzstärksten Produkte der letzten Monate zu visualisieren.

Zwar konnte der Agent die Tabelle lesen, scheiterte aber häufig an der Erstellung eines konsistenten Berichts. Weitere Probleme: Teilaufgaben brachen ab, Diagramme fehlten oder der Agent vergaß Zwischenschritte. Statt eines brauchbaren Ergebnisses lieferte er nicht selten lediglich einen fragmentierten Entwurf.

Auch Golem hat den Agenten getestet. Wir haben die KI gebeten, jeden Morgen automatisch eine News zu einem bestimmten Thema und für eine bestimmte Zielgruppe zu schreiben. Das funktionierte auf den ersten Blick einigermaßen gut.

Bei genauem Hinsehen bemerkten wir allerdings, dass die meisten News bereits mehrere Tage, wenn nicht Monate alt und so nicht zu gebrauchen waren. Selbst, als wir ChatGPT darauf hinwiesen, wurden die Ergebnisse nicht besser.

Als zweite Aufgabe beauftragten wir den Agenten, eine Kaufberatung für ein neues Notebook zu erstellen. Der Prompt war: "Ich suche einen neuen Windows-Laptop für meine Arbeit. Er sollte viel Leistung bieten, leise sein, 32 GB Arbeitsspeicher und ein OLED-Display mit hoher Auflösung haben. Mein Budget liegt bei maximal 2.500 Euro. Finde drei passende Modelle, vergleiche ihre Spezifikationen und zeige mir die besten Online-Angebote mit Links."

Die Idee war, dass der Agent jetzt Online-Shops und Testberichte durchsucht, relevante Spezifikationen filtert, Nutzerbewertungen berücksichtigt und die besten Deals präsentiert.

Das tat er zwar, was er aber vorschlug, war leider nichts: Zwei der vorgeschlagenen Geräte lagen weit über dem Budget, eines kostete sogar über 4.000 Euro. Und das ebenfalls empfohlene Asus Vivobook S 15 OLED sollte laut ChatGPT einen Intel Core i7-Prozessor haben. Das verlinkte Angebot hatte jedoch eine AMD Ryzen AI 9 365-CPU.

Noch ein Test, dieses Mal ein Preisvergleich: "Ich möchte das neue iPhone 16 kaufen. Finde die günstigsten Angebote bei seriösen Händlern in Deutschland, sowohl für das Gerät ohne Vertrag als auch für attraktive Vertragspakete mit mindestens 10 GB Datenvolumen. Erstelle eine Übersicht der Top-3-Angebote."

Auch hier waren die Ergebnisse enttäuschend. Das beste Angebot kostete 780,90 Euro bei Amazon. Eine kurze Idealo-Recherche ergab, dass es dasselbe Modell locker 70 Euro günstiger gibt. Auch die vorgeschlagenen Handy-Tarife waren nicht die günstigsten.

Technik mit Tücken: Operators, Logs und Debugging

Die Probleme sind zum Teil struktureller Natur. Zwar plant der Agent Aufgaben mithilfe von Operators, doch deren Ausführung ist nicht immer zuverlässig. Schritte werden übersprungen, Tools greifen in der falschen Reihenfolge oder liefern keine brauchbaren Resultate.

Für IT-Fachleute besonders relevant: Die internen Logs, die das Vorgehen dokumentieren sollen, sind oft lückenhaft. Damit lässt sich weder nachvollziehen, was schiefgelaufen ist, noch kann man gezielt eingreifen. Klassisches Debugging ist nicht möglich.

Auch das Handling von Zwischenergebnissen zeigt Schwächen. Der Agent speichert Daten temporär, vergisst sie aber in einigen Fällen oder verarbeitet sie fehlerhaft weiter - was bei komplexen Aufgaben zur Sackgasse führt.

Kritik an der Autonomie: Sicherheitsrisiken und Intransparenz

Neben technischen Problemen rücken zunehmend sicherheitsrelevante Aspekte in den Fokus. Der australische Bildungsforscher Leon Furze beurteilt den neuen Modus(öffnet im neuen Fenster) als "unfinished, unsuccessful and unsafe" . Seine Kritik: Die Arbeitsweise des Agenten ist nicht deterministisch, identische Eingaben können zu unterschiedlichen Ergebnissen führen. Zudem sei der Ablauf für Nutzer kaum nachvollziehbar, Kontrollmöglichkeiten fehlten weitgehend.

Besonders problematisch ist der automatisierte Internetzugriff. Der Agent durchsucht Webseiten selbstständig - potenziell auch fehlerhafte oder manipulative Inhalte. Das öffnet die Tür für Missbrauch: Phishing, Falschinformationen oder unbeabsichtigter Datenabfluss sind reale Risiken. OpenAI selbst räumt ein, dass der Agent noch experimentell sei und derzeit nicht für produktive Szenarien empfohlen werde.

Sogar OpenAI-CEO Sam Altman warnt vor den Gefahren bei der Verwendung des ChatGPT Agents . "Ich würde es meiner Familie als hochmodern und experimentell erklären; eine Chance, die Zukunft auszuprobieren, aber nichts, was ich schon für kritische Anwendungen oder mit vielen persönlichen Informationen nutzen würde, bis wir die Gelegenheit hatten, es in der Praxis zu studieren und zu verbessern," schreibt er.

Altman ergänzt: "Wir wissen nicht genau, welche Auswirkungen es geben wird, aber böswillige Akteure könnten versuchen, die KI-Agenten der Nutzer dazu zu verleiten, private Informationen preiszugeben, die sie nicht preisgeben sollten, und Aktionen auszuführen, die sie nicht ausführen sollten, auf eine Weise, die wir nicht vorhersagen können."

Die Tatsache, dass diese Warnung so ungewöhnlich offen ausgesprochen wurde, macht deutlich, wie ernst die Sicherheitsbedenken sind.

Relevanz trotz Unreife: Warum der Agent-Modus wichtig ist

Trotz aller Schwächen markiert der Agent-Modus einen Paradigmenwechsel. ChatGPT bewegt sich weg von der Prompt-basierten Interaktion hin zu autonomer Prozessausführung. Das öffnet neue Möglichkeiten: automatisierte Berichte, selbstablaufende Analysen, datengetriebene Entscheidungsprozesse - alles aus einer Schnittstelle heraus.

Auch wenn der Modus noch nicht stabil läuft, erkennen IT-Verantwortliche hier frühzeitig, was künftig möglich ist - und welche organisatorischen und sicherheitstechnischen Fragen jetzt adressiert werden müssen.

Einordnung im Marktumfeld: Nicht der Einzige, aber der Sichtbarste

OpenAI ist nicht allein mit diesem Konzept. Microsoft arbeitet mit Autogen an einem mehrrollenfähigen Agentensystem. Auch Claude von Anthropic und Open-Source-Projekte wie AutoGPT verfolgen ähnliche Ansätze.

Doch mit ChatGPT hat OpenAI eine besondere Position: Eine große Nutzerbasis, eng verzahnte Tools und ein weitreichender Rollout ermöglichen es, neue Funktionen wie den Agent-Modus unter realen Bedingungen zu testen und zügig weiterzuentwickeln.

ChatGPT Agent: Preise und Beschränkungen

Der Agent-Modus - einfach in einem Chat Tools und Agentenmodus wählen - steht derzeit nur ChatGPT-Abonnenten zur Verfügung, kostenlose Accounts haben keinen Zugriff. Der Pro-Plan (200 US-Dollar/Monat) erlaubt unmittelbaren Zugriff mit bis zu 400 Agent-Nachrichten pro Monat. Plus- (20 US-Dollar/Monat) und Team-Abos (ab etwa 30 US-Dollar/Monat pro Nutzer) erhalten ebenfalls Zugang, mit zunächst 40 Agent-Nachrichten. Enterprise und Bildungseinrichtungen folgen in den kommenden Wochen.

Fazit: Kein fertiges Werkzeug, aber ein deutlicher Fingerzeig

Der Agent-Modus ist derzeit kein verlässliches Produkt. Zu viele Abläufe sind instabil, zu viele Ergebnisse fehlerhaft oder nicht nachvollziehbar. Dennoch markiert er einen Wendepunkt: Erstmals übernimmt eine weitverbreitete KI eigenverantwortlich Aufgaben.

Das bedeutet: Es reicht nicht mehr, sich nur mit der Reaktion von KI-Systemen zu beschäftigen. Künftig muss man auch deren Handlungen bewerten, steuern und absichern. Der ChatGPT-Agent zeigt, was auf uns zukommt und zwingt dazu, sich mit den Konsequenzen auseinanderzusetzen.

Viel Potenzial, wenig Verlässlichkeit

Der neue Agent-Modus von ChatGPT zeigt eindrucksvoll, in welche Richtung sich KI-gestützte Assistenzsysteme entwickeln: weg von bloßen Textantworten hin zu selbstständig agierenden Systemen, die Prozesse planen und ausführen können. Die konzeptionellen Fortschritte sind unübersehbar.

Doch in der Praxis bleibt der Agent aktuell hinter den Erwartungen zurück: fehlende Ergebnisgenauigkeit, veraltete Informationen, unklare Abläufe und eingeschränkte Kontrollmöglichkeiten machen den Modus bislang zu einem experimentellen Werkzeug. Für den produktiven Einsatz in Unternehmen oder im Alltag ist der Agent aus unserer Sicht noch nicht geeignet.


Relevante Themen