Künstliche Intelligenz: KI-Modelle zerstören Dokumente bei Delegation
Künstliche Intelligenz wird von Unternehmen wie Anthropic oder Microsoft verstärkt als autonomer Agent vermarktet, der komplexe Aufgaben in lokalen Dateien und Anwendungen übernimmt. Eine aktuelle Untersuchung von Microsoft Research(öffnet im neuen Fenster) zeichnet jedoch ein problematisches Bild dieser automatisierten Workflows. Die Forscher Philippe Laban, Tobias Schnabel und Jennifer Neville kommen in ihrem Preprint-Papier zu dem Ergebnis, dass große Sprachmodelle Dokumente korrumpieren, sobald Aufgaben an sie delegiert werden.
Für die Studie nutzten die Wissenschaftler den Benchmark Delegate-52(öffnet im neuen Fenster), der mehrstufige Arbeitsabläufe in 52 professionellen Bereichen simuliert. Dazu gehören unter anderem die Programmierung in Python, Kristallographie und Musiknotation. Ein Testfall beinhaltete etwa die Bearbeitung eines Buchführungsdokument einer Non-Profit-Organisation, das in Kategorien aufgeteilt und anschließend wieder chronologisch zusammengeführt werden sollte.
Massive Inhaltsverluste bei Top-Modellen
Die Ergebnisse zeigen deutliche Defizite: Frontier-Modelle wie Gemini 3.1 Pro, Claude 4.6 Opus und GPT 5.4 verloren bei 20 delegierten Interaktionen durchschnittlich 25 Prozent des Dokumenteninhalts. Über alle getesteten Modelle hinweg lag die Degradation sogar bei 50 Prozent. Die Forscher stellten fest, dass Fehler oft abrupt auftreten. Statt einer schleichenden Verschlechterung verloren Dokumente in einer einzigen Interaktionsrunde oft 10 bis 30 Punkte in der Bewertung.
Während schwächere Modelle dazu neigen, Inhalte einfach zu löschen, korrumpieren leistungsfähigere Modelle die Daten eher. Die Forscher definieren eine "katastrophale Korruption" als einen Benchmark-Wert von 80 Prozent oder weniger. Dieser Zustand trat in mehr als 80 Prozent aller Kombinationen aus Modellen und Fachbereichen ein. Um als bereit für einen Fachbereich zu gelten, setzten die Wissenschaftler eine Erfolgsquote von mindestens 98 Prozent nach 20 Interaktionen an. Diesen Wert erreichte lediglich die Programmierung in Python.
Werkzeuge verschlechtern die Performance
Interessanterweise führten zusätzliche Werkzeuge wie Lese- und Schreibrechte oder Code-Ausführung nicht zu besseren Ergebnissen. Im Gegenteil: Die untersuchten GPT-Modelle (Versionen 4.1 bis 5.4) zeigten im agentischen Betrieb mit Werkzeugen eine um durchschnittlich 6 Prozent höhere Degradationsrate als ohne diese Hilfsmittel.
Trotz der aktuellen Mängel beobachtet Microsoft eine positive Entwicklung über längere Zeiträume. Die Performance der GPT-Familie von OpenAI stieg innerhalb von 16 Monaten von 14,7 Prozent auf 71,5 Prozent im Benchmark an. Dennoch ziehen die Autoren das Fazit, dass Nutzer die Systeme weiterhin engmaschig überwachen müssen, da die Modelle in 80 Prozent der simulierten Bedingungen Dokumente schwer beschädigen.
Interessenkonflikt oder echte Wissenschaft?
Es scheint wie ein Widerspruch, dass ausgerechnet Microsoft Research die Schwächen autonomer KI-Agenten dokumentiert – während Microsoft selbst mit seinen Copilot-Agenten genau solche Workflows prominent vermarktet. Die Studie wirkt damit weniger wie ein strategischer Schachzug gegen die Konkurrenz als wie ein klassisches Beispiel konzerninterner Widersprüche: Die Produktteams vermarkten, die Forscher publizieren unbequeme Wahrheiten.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.