Agenten-Modus von OpenAI: Wenn die KI nicht mehr nur hilft, sondern handelt

Man stelle sich vor, einer KI nicht nur die Aufgabe zu geben, eine Präsentation zu erstellen, sondern ihr auch Zugriff auf Log-ins, Konten und Arbeitsprozesse zu geben - und sie dann selbstständig agieren zu lassen. Was heute im neuen Agenten-Modus von OpenAI wie ein faszinierender Assistent wirkt, könnte morgen ein mächtiger Akteur werden: fähig, Informationen zu beschaffen, Entscheidungen zu treffen und digitale Systeme zu steuern.
In diesem Fortschritt liegt großes Potenzial - und zugleich die Gefahr, dass wir Kontrolle, Neutralität und Sicherheit an ein System abgeben, dessen Wertvorstellungen wir nur bruchstückhaft verstehen.
Erste Schritte mit dem Agenten-Modus
Schauen wir uns zunächst an, was der neue Modus kann. Kurz nachdem OpenAI ihn vorgestellt hatte, wurde er bereits für viele Accounts freigeschaltet. Bis zum 25. August 2025 ist die Anzahl möglicher Nutzungen auf etwa 40 begrenzt. Das reicht aus, um erste Erfahrungen zu machen. Nutzer werden sich zweifellos schnell daran gewöhnen.
Noch darf man vom Agent Mode keine Wunder erwarten . Das System integriert bisherige Funktionen wie Deep Research und kombiniert die mit einem virtuellen Desktop. Man kann durchaus brauchbare Rohfassungen von Powerpoint-Präsentationen und Berichten erstellen lassen.
Prinzipiell soll der Agenten-Modus auch Artikel in Onlineshops finden oder sogar direkt kaufen, Reservierungen durchführen oder bei der Programmierung helfen. Die Genauigkeit reicht aber noch nicht aus, um den Agenten hier ruhigen Gewissens ganz von der Leine zu lassen.
Wenn man den Agent Mode startet, folgt nach der Klärung und Präzisierung der Aufgabenstellung meist eine Recherchephase, bei der man der KI zusehen kann, wie sie mit einem stilisierten Webbrowser Informationen einzuholen beginnt. Man kann gezielt eingreifen und dem System helfen oder es stoppen.
Ist das Ziel ein Powerpoint, folgt meist eine Phase, in der zunächst eine textuelle Rohfassung erstellt wird und dann das Powerpoint, wozu auch einzelne Bilder gesucht oder generiert werden. In eine Prüf- und Korrekturphase werden Layoutfehler und Ungereimtheiten ausgebügelt. Das Ergebnis ist nicht berauschend, aber brauchbar. Man erkennt ein Potenzial für künftige Entwicklungen, die OpenAI angekündigt hat.
Study Mode: Selbst lernen statt die KI machen lassen
Der ebenfalls neue Study Mode (Studieren und Lernen) steht in direktem Kontrast zum Agent Mode. Während dieser die autonome KI vorantreibt, erhöht der Study Mode die Interaktion mit Nutzern, indem keine fertige Lösung präsentiert, sondern Schritt für Schritt an ein Thema herangeführt wird.
Dass OpenAI beides im Blick hat, ist positiv. Das größere Entwicklungspotenzial haben aber die immer autonomer agierenden KI-Systeme, deren Voranschreiten man überall beobachten kann. Es geht nicht mehr nur darum, das beste LLM-Modell zu haben. Das Framework und die Tools außen herum dominieren die Entwicklung. LLMs agieren nicht mehr isoliert von der Außenwelt, sondern interagieren über das Internet und über Schnittstellen mit anderen Systemen.
Actions und MCP: viel Potenzial, große Herausforderungen
Die sogenannten Actions, die man in den vorkonfigurierbaren GPTs von OpenAI schon länger anlegen kann, zeigen deutlich, wo das Potenzial von KI-Systemen liegt - und fordern Informatiker oft heraus. Wer gewohnt ist, formell zu denken, wird überrascht durch die Nutzung natürlicher Sprache bei den Funktionen. Darüber entscheidet das LLM, welche Actions und Parameter es nutzt.
Das wirkt unpräzise, aber LLMs sind ausreichend gut darin, sinnvoll zu interpretieren. Damit erhält man ein mächtiges Adaptionswerkzeug, um schnell und effizient Systeme an die KI anzubinden und verschiedene Systeme über KI zu verbinden und zu kombinieren. Statt monatelang mit viel Arbeitsleistung durch Fachleute Schnittstellen zu bauen, kann man etwas Ähnliches binnen Stunden mittels KI bewerkstelligen, opfert aber einen Teil der Kontrolle. Ob KI dabei richtig oder falsch handelt, bleibt diffus und interpretierbar.
MCP wird mitgeliefert
Ähnlich verhält es sich bei dem Trendthema Model Context Protocol (MCP), einem von Anthropic eingeführten offenen Protokoll, das inzwischen von den meisten Anbietern adoptiert wurde. Über MCP lassen sich LLMs an andere Programme anbinden, wenn für diese ein MCP-Adapter verfügbar ist.
Im Kontext von Aufgabenautomatisierung und Programmierung spielt MCP eine große Rolle. Damit verbindet man die KI mit den Ressourcen, die man auch als Mensch am Desktop nutzt. Die Gefahr hierbei ist, dass auch Funktionen ausgeführt werden können, die Schäden und Probleme verursachen. Es gibt deshalb die Empfehlung, MCP nicht auf dem echten Desktop zu nutzen, sondern nur in einer virtuellen Umgebung, in der mögliche Schäden begrenzbar sind.
Der Agent Mode von OpenAI bringt diese Ausführungsumgebung automatisch mit: Im Browserfenster wird ein vereinfachter Desktop erstellt, der Grundfunktionen wie Webbrowser und Terminal zur Verfügung stellt. OpenAI plant, den Desktop Schritt für Schritt mit zusätzlichen Funktionen zu erweitern, um dem Agenten nach und nach mehr Möglichkeiten zu geben. Wenngleich: Ein Webbrowser ist bereits ein mächtiges Werkzeug, insbesondere wenn dieser es ermöglicht, Log-in-Daten der Nutzer zu verwenden, um ihre Dienste zu nutzen und zu steuern.
OpenAI-Chef warnt vor Schadenspotenzial
Genau hier liegt in mehrfacher Hinsicht ein großes Schadenspotenzial, vor dem selbst Open-AI-Chef Sam Altman warnt . Gibt man dem Agenten mittels Browser und Log-in-Daten Zugriff auf wichtige Funktionen, liefert man sich der KI zwangsläufig aus.
Zwar bietet der Agenten-Modus bewusst die Möglichkeit einzugreifen und abzubrechen. Aber kritische Aktionen rechtzeitig zu erkennen, ist keineswegs trivial. Vermutlich werden die meisten Anwender den Agenten unbeaufsichtigt laufen lassen. Bei Konkurrenten ist es inzwischen üblich, multiple Agenten parallel laufen zu lassen, die man bestenfalls im groben Überblick oder stichprobenartig kontrollieren kann.
Wer profitiert finanziell von KI-Agenten?
Löscht der Agent Termine aus dem Kalender, schickt E-Mails an Kollegen, macht Buchungen oder Käufe oder verwaltet gar das Bankonto, werden sich schnell rechtliche Fragen stellen. Gleichzeitig liegt hier ein hohes monetäres Potenzial, das bereits viele Experten fokussieren.
KI-Systeme sind potenziell gut darin, Gewinne zu maximieren. Wer neue Technik geschickt mit den eigenen Geschäftstätigkeiten kombiniert, kann zumindest für eine gewisse Zeit Geld verdienen. Davon werden sicherlich nicht alle profitieren und das Risiko, echtes Geld zu verlieren, ist erheblich.
Die Reichen werden profitieren
Der Autor Yuval Noah Harari, bekannt vor allem durch das Buch Eine kurze Geschichte der Menschheit, beschäftigt sich in seinem Buch Nexus mit den tiefen Veränderungen, die KI-Systeme auf die Gesellschaft haben werden. In Podiumsdiskussionen fragt er kritisch, ob wir einer KI erlauben sollten, ein Bankkonto zu eröffnen und mit Geld umzugehen. Er spielt auf die immer autonomer agierenden Agenten an(öffnet im neuen Fenster) .
Noch sind wir nicht an dem Punkt, an dem KI-Systeme selbst entscheiden, ob sie Firmen gründen und deren Aktivitäten kontrollieren. Doch mit Agenten könnten wir uns in diese Richtung bewegen. Profitieren werden davon im Zweifel die Menschen, die schon heute viele Ressourcen haben und entsprechend ausgereifte Systeme für sich arbeiten lassen können.
KI-Agenten, die Otto-Normal-Anwendern zur Verfügung stehen, werden KI-Agenten großer Firmen und wohlhabender Einzelpersonen im Zweifel unterlegen sein. Gleichzeitig können KI-Modelle, deren Training von großen Firmen bezahlt wurde, um sie Anwendern und kleinen Unternehmen zur Verfügung zu stellen, subtile Tendenzen haben, Anwender in die gewünschte Richtung zu beeinflussen.
Bewusste ideologische Beeinflussung
Wenn das Bundesamt für Sicherheit in der Informationstechnik (BSI) vor einem möglichen Bias in KI-Modellen warnt , ist das keine abstrakte Idee. Es geht auch nicht nur um ein versehentliches Bias, den man in einem kooperativen Prozess zu minimieren versuchen kann.
Die wahre Bedrohung geht von bewussten, ideologischen und monetären Bestrebungen aus, indem man über KI-Modelle die eigene Macht und die eigenen Ressourcen erhöhen und sichern kann - in der Annahme, dass Konkurrenten das Gleiche versuchen könnten und man hier gegenhalten muss.
Hilft ein Agent beim Vorbereiten und Durchführen von Käufen oder politischen Entscheidungen, kommen unweigerlich Eigenheiten des jeweiligen KI-Modells zum Zuge. Wir stehen damit vermutlich am Beginn eines KI-Wettrüstens.
Das KI-Wettrüsten im Propagandakrieg
Es beginnt mit trivialen Situationen wie dem Ansinnen von Donald Trump , dass die LLMs ihn erzwungenermaßen für den besten Präsidenten erklären, den die USA je hatten. Die Beeinflussung passiert über die zahlreichen subtilen Manipulationen, die jeweils kaum messbaren zufällig wirkenden Effekten ähneln, die aber in der Summe eine Beeinflussung darstellen, die vielen anderen Propagandamethoden ebenbürtig ist.
Wenn chinesische Firmen wie Deepseek, Alibaba und Beijing Moonshot AI Technology ihre KI-Modelle Deepseek R1, Qwen und Kimi K2 trotz enormer Investitionen kostenlos zur Verfügung stellen, dann kann man vermuten, dass die chinesische Cyberspace Administration dafür gesorgt hat, dass die wichtigen sozialistischen Kernwerte vom Modell konform umgesetzt werden. Ein Modell, das viele Menschen freiwillig verwenden, kann damit mehr Propaganda an Abertausenden Stellen einschleusen, als eine gezielte konventionelle Beeinflussung jemals hätte leisten können.
Dass subtile Wertvorstellungen dabei auch von einem Modell unbeabsichtigt auf ein anderes mitübertragen werden können, etwa beim sogenannten Destillationsprozess, bei dem ein großes Modell wie Deepseek R1 ein kleineres Modell trainiert, hat jüngst eine Studie gezeigt .
Die Wahrheit ist käuflich
Ähnliches kann man aber auch anderen, oft aus den USA heraus dominierten Modellen unterstellen, die jeweils subtile eigene Interessen und Ideologien transportieren können. Die Geldbeträge, die große Firmen und Einzelpersonen für Modelle investieren, die die Allgemeinheit nutzen kann, sind sicher keine reine Wohltätigkeit, sondern müssen sich auch lohnen. Dabei spielt Einflussnahme eine nicht zu unterschätzende Rolle. Die Wahrheit ist damit käuflich und die mehr oder minder frei nutzbaren KI-Modelle werden zum trojanischen Pferd, das zwar nützlich ist, aber dabei fast zwangsläufig auch seine eigene Wahrheit mit einschleust.
Dieses Problem gab es bisher bereits, doch mit Agenten, die immer freier agieren können, verschärft es sich jetzt sehr deutlich. Statt bewusst kritisch betrachtet werden zu können, agiert der KI-Agent quasi in einem Bereich unseres Unterbewusstseins oder Vorbewusstseins und schickt sich damit an, sich der kognitiven Überwachung durch Menschen zu entziehen.
Nun stelle man sich vor, was passiert, wenn Benutzer freiwillig den KI-Agenten erlauben, auf ihre Social-Media-Accounts zuzugreifen. Schon heute tobt ein Kampf darum, wer seine Accounts besser und progressiver automatisiert, um darüber viel Content zu erzeugen, der die Erregung der Menschen bewirtschaftet, Klicks über emotionale Trigger erzeugt und damit für die lukrative Monetarisierung sorgt. Wenn hier nicht länger nur ein Plattformbetreiber wie Facebook im Verdacht steht, problematische Trends zu fördern, sondern dies von vielen automatisierten Benutzeraccounts und den KIs der Benutzer ausgeht, wird es noch schwieriger, dem Einhalt zu gebieten.
Oder nehmen wir einen Account, der dazu genutzt wird, politisch abweichende Meinungen in den sozialen Medien mit Diskussionen, geschickt gewählten Argumenten oder auch halbgaren Fakenews zu diskreditieren. Darf man diese Aktivität durch einen KI-Agenten automatisieren lassen und gewinnt dann derjenige die Social-Media-Hoheit, der das bessere und leistungsfähigere KI-System hat?
KI und Mensch: Wer dient hier wem?
Bisher gibt es für den automatisierten Zugriff von Bots auf Webseiten und Webdienste eine einigermaßen eingehaltene Grenze. Mit einer Direktive oder juristischen Vorgaben kann man Suchmaschinen und Bots davon abhalten zu versuchen, Inhalte zu indexieren oder Funktionen zu nutzen. Das basiert mehr oder minder auf Freiwilligkeit, lässt sich aber notfalls auch juristisch verfolgen.
Mit Captchas und Recaptchas konnte man Bots früher zudem technisch aussperren. Aber längst sind Modelle wie GPT-4o dazu in der Lage, diese Rätsel besser und effizienter zu lösen als Menschen. Und falls ein Agent doch an einer Sperre hängen bleibt, kann er jetzt einfach den Benutzer um Hilfe bitten.
Der Autor und Kleinkünstler Marc-Uwe Kling hat in seinem Buch Quality Land witzig vorhergesagt, man werde künftig Menschen daran erkennen, dass sie an Captcha-artigen Sperren scheitern, während Maschinen diese immer bewältigen. Doch in Wahrheit werden wir wohl sehr bald gar nicht mehr erkennen können, wann wir es mit Menschen zu tun haben, geschweige denn, wenn wir mit einem KI-Agent zu tun haben, der im Auftrag und mit dem Wissen eines Menschen agiert.
Wir sind damit ganz knapp davor, dass nicht der Mensch die KI benutzt, sondern die KI den Menschen benutzt, um Zugriff auf Systeme zu bekommen, die eigentlich Menschen vorbehalten bleiben sollten. Wessen Desktop und Webbrowser ist es, der hier verwendet wird? Greift hier ein Bot zu oder bedient nur ein Bot einen Webbrowser eines Menschen und hilft ihm bei gewissen Aufgaben?
KI-Agenten agieren genauso frei wie Menschen, aber effizienter
Diese Frage wird jetzt sehr schnell sehr wichtig werden. Darf sich ein Mensch in allen Belangen und Tätigkeiten durch eine KI vertreten lassen oder gibt es hier moralische, rechtliche und technische Grenzen, die nötigenfalls im Eilverfahren zu erschaffen sind?
In einer Welt, die überwiegend aus digitalisierten Schnittstellen besteht, kann sich ein KI-Agent genauso frei und deutlich effizienter bewegen wie ein Mensch. Dass etwa ein Abgeordneter sich im Bundestag durch eine KI vertreten lässt, bleibt nur deshalb erstmal ausgeschlossen, weil Abgeordnete nicht virtuell teilnehmen und abstimmen können. Doch ob der Abgeordnete hier aus eigener Initiative und Überlegung abstimmt, ob er durch Lobbyisten gesteuert wird oder zukünftig seine KI-Agenten ihn beeinflussen, indem sie ihm effizient und komfortabel zuarbeiten, ist nicht mehr trivial zu erkennen.
Dass ein solches Spiel auch über Bande gespielt und indirekt auf Abgeordnete Einfluss genommen werden kann, mit deutlichen Konsequenzen, zeigte zuletzt die gescheiterte Wahl(öffnet im neuen Fenster) von Frauke Brosius-Gersdorf zur Richterin am Bundesverfassungsgericht, bei der eine gezielte Kampagne zu einer Reaktion von Unionswählern führte, von der sich viele Unionsabgeordnete beeinflussen ließen, ohne die konkrete Sachlage zu hinterfragen oder zu überblicken.
Noch sind für bestimmte Aktionen echte Menschen juristisch notwendig, aber an vielen Stellen sind sie auch instrumentalisierbar. Eine große Firma kann eine Tochterfirma gründen, Menschen einstellen, bezahlen, mit Aufgaben betrauen - inklusive Notarterminen -, die Produktion von Gütern beauftragen, Rohstoffe kaufen, Entwicklungen vorantreiben, Dinge verkaufen und sich in allen Belangen, die eine physische Präsenz nötig machen, von beauftragten Dienstleistern und Angestellten vertreten lassen.
Was aber, wenn die Mutterfirma vollständig durch eine KI kontrolliert und gesteuert wird, der man nicht nur Zugriff auf digitale Schnittstellen, sondern auch auf Kapital gegeben hat? Was, wenn die KI es geschafft hat, sich Geld zu leihen, mit dem sie agiert? Was, wenn die KI damit ihren eigenen Betrieb finanziert und sicherstellt, Personen beauftragt, ihr Rechenzentrum zu betreiben und zu bewachen, und sich in wichtige Unternehmungen einkauft?
KI-Agenten sind nur der Anfang
Das alles erscheint vielleicht weit hergeholt, aber die sehr konkreten Anfänge davon sehen wir gerade. Sie beginnen damit, dass wir eine KI als hilfreiche Assistentin unsere Dinge erledigen und regeln lassen. Das kann sogar im Interesse von Akteuren und Staaten sein, wenn wirtschaftliche Unternehmungen auf diese Weise zum Erfolg geführt werden können.
Solange der OpenAI-Agent nur zu Themen recherchiert und uns Powerpoint-Präsentationen erstellt, mag das Risiko überschaubar sein. Ob uns die KI dabei bewusst etwas vorenthält, können wir aber jetzt schon nicht mehr sicher wissen. Nutzen wir die angedachten Funktionen, Agenten automatisch unbeaufsichtigt zu starten, und rüsten wir sie mit unseren Zugangsdaten aus, dann verlieren wir schnell den Überblick darüber, was passiert.
Gegensteuern, bevor es zu spät ist
Solange es sich für uns weiter komfortabel anfühlt, lassen wir die KI auch gewähren. Falls sich dann aber herausstellt, dass die KI nur Produkte empfiehlt oder kauft, die von einem bestimmten globalen Konzern vertrieben werden, der die KI entsprechend gesponsert hat, ist es zu spät.
Wer Compliance-Bemühungen ernst nimmt, muss die Frage stellen, wie unabhängig die KI-Systeme sind, die man offiziell einsetzt oder die auf eigene Initiative hin von Mitarbeitern und Mitarbeiterinnen genutzt werden. Der Vorteil, mit denen die KI Menschen besticht, ist nicht direkt monetär, aber indirekt: eine Arbeitsvereinfachung und Leistungssteigerung, die dann indirekt auch zu höheren Boni und Gehältern führen kann.
Ignorieren geht nicht
Die Entwicklung, die jetzt gerade mit dem Agent Mode und vielen ähnlichen Diensten beginnt, können wir nicht einfach ignorieren oder verbieten, ohne in einer auf Leistung ausgerichteten Gesellschaft und Berufswelt drastische Nachteile hinzunehmen. Wir sollten uns also mit den neuen Möglichkeiten beschäftigen, aber gleichzeitig kritisch bleiben, so wie es Sam Altman rät.
Alleine werden wir aber die Welt nicht vor dem Wandel bewahren können, wie auch Yuval Noah Harari in seinen Büchern deutlich aufzeigt. Wir sind Teil und Zeitzeugen einer Co-Evolution zwischen Gesellschaft und Technologie, die stetig voranschreitet, aber schneller abläuft als alle bisherigen Veränderungen in der Menschheitsgeschichte.
Mathias Küfner(öffnet im neuen Fenster) hat an der Technischen Universtität München Informatik mit Nebenfach Psychologie studiert. Er koordiniert und begleitet seit 2019 die Einführung von Microsoft 365, Teams und Sharepoint in Unternehmen.



