GPT-5 analysiert: OpenAI hat zu viel versprochen

Riesige Erwartungen, starkes Marketing - die Veröffentlichung von GPT-5 wurde von OpenAI mit einem großen Livestream begleitet. Eine Analyse der Informationen über das neue Modell von OpenAI und erste Tests im Einsatz zeigen: Das Modell ist nicht schlecht. Es schlägt wichtige Benchmarks und liefert gute Ergebnisse. Doch die geweckten Erwartungen erfüllt es nicht. Der so oft versprochenen AGI (allgemein intelligenten KI) sind wir damit vermutlich keinen Schritt nähergekommen.
Im Vorfeld wurde viel spekuliert, welche Fähigkeiten GPT-5 haben würde. Der Begriff "PhD-Level Intelligence" also Intelligenz wie ein promovierter Wissenschaftler zu haben, fiel dabei besonders oft. Das bedeutet, Probleme selbstständig zu analysieren, entsprechende Werkzeuge zu verwenden und diese damit zu lösen.
Sam Altman vergleicht GPT-5 mit der Atombombe
Insbesondere wurde das Modell häufig als nächster großer Meilenstein beworben, der sich durch hohe Produktivität selbst finanzieren würde. Begriffe wie "universelle Expertenintelligenz" wurden häufig benutzt: Es wurde der Eindruck erweckt, dass die Probleme eines stochastischen Papageis(öffnet im neuen Fenster) - das dumme Nachplappern ohne Sinn - der Vergangenheit angehören würden. Der OpenAI-CEO nannte das neue Modell "gruselig gut" und verglich es in seinen potenziellen Konsequenzen(öffnet im neuen Fenster) mit der Entwicklung der Atombombe.
Insbesondere von der hohen Intelligenz war bei der Veröffentlichung dann nur noch wenig zu merken.
Nutzer rebellieren - und GPT-4o ist zurück
Die versprochene PhD-Level Intelligence braucht es offenbar bei OpenAI selbst noch: Nicht nur seitdem jüngst Meta Mitarbeiter in der Entwicklung und Forschung abgeworben hatte , sondern auch beim Marketingteam selbst: Einige der gezeigten Grafiken(öffnet im neuen Fenster) und Statistiken sind entweder dilettantisch gemacht oder gewollt irreführend. Teilweise standen Größen in Diagrammen nicht proportional zu ihren Werten, wenn etwa 52,8 Prozent bei dem neuen Modell einen größeren Balken hatte als die 69,1 Prozent bei der Vorgängerversion.
Gleichzeitig rebellieren erste Nutzer , nachdem die vorher sehr beliebte Version GPT-4o durch GPT-5 ersetzt wurde - und GPT-4o wurde zumindest für zahlende Nutzer zurückgebracht . Gerade für Entwickler ist hier Konsistenz wichtig: Wenn Dinge plötzlich auch nur geringfügig anders funktionieren, kann das Probleme verursachen. Gleichzeitig haben sich viele Nutzer wohl an den Stil von 4o gewöhnt und wollen schlicht nicht wechseln.
Dabei gäbe es für einen Wechsel einige gute Gründe.
Gute Performance beim Coding
Nachdem beim Coding zeitweise etwa das LLM Claude von Anthropic klar vor ChatGPT in der Gunst der meisten Nutzer lag, ist die neue Version deutlich versierter. Das zeigt sich nicht nur in Benchmarks, sondern auch an verschiedenen Beispielen: Ganze Spiele oder Tools(öffnet im neuen Fenster) können aus einem Prompt erzeugt werden. Bei unseren ersten Tests bestätigt sich die Einschätzung: GPT-5 ist deutlich besser darin geworden, einzelne Codeschnipsel den Nutzerwünschen anzupassen.



Ob das Ganze in der Praxis aber besser ist, bleibt abzuwarten. In sozialen Netzwerken gibt es sowohl einige Erfolgsbeispiele als auch peinliche Fehler. Zumindest messbare Fortschritte gegenüber Vorgängerversionen und der Konkurrenz.
Zweifelhafte Benchmarks und Halluzinationen
Um die allgemeine Qualität von Sprachmodellen zu messen, werden einige feste Benchmarks benutzt, also Sammlungen von Fragen und Antworten. Je mehr Fragen ein LLM beantwortet, umso klüger bzw. gebildeter soll das Modell sein. In der Praxis ist es aber äußerst schwierig, dieses sauber zu messen: Trotz des Herausfilterns dieser Fragen aus den Trainingsdaten wird immer ein gewisser Anteil "durchbluten" (dataset bleed), etwa durch Screenshots des Textes, der als Bild in das Modell gelangt, oder durch diskutierende X-Nutzer, die die Aufgaben nicht exakt wiedergeben.
Es wäre außerdem naiv, den Firmen, die mit einem Sprachmodell aktiv Geld verdienen und von guten Benchmarks profitieren, einen allzu großen Aufwand zu unterstellen, um solche Fragen aus den Trainingsdaten herauszuhalten. Selbst einige eher humoristische Publikationen stellen augenzwinkernd fest: Training auf den Daten, die eigentlich zum Testen eines Modells gedacht sind und daher vor dem Modell im Training geheim gehalten werden sollten, bringt extrem viel: Pretraining on the Test Set Is All You Need(öffnet im neuen Fenster) .
GPT-5 überzeugt bei Humanity's Last Exam
Besonders Humanity's Last Exam ( HLE(öffnet im neuen Fenster) ) ist dabei in letzter Zeit in den Fokus gerückt: Der Benchmark ist ursprünglich als extra kompliziert konzipiert worden, und da viele andere Benchmarks bereits eine Sättigung erfahren haben und ein Vergleich von Modellen, die statt 99,2 Prozent nun 99,4 Prozent der Fragen richtig beantworten können, wenig aussagekräftig ist. Er enthält auch einige visuelle Aufgaben aus sehr unterschiedlichen Domänen, beispielsweise bei der Übersetzung von lateinischen Inschriften aus Bildern oder komplizierteren mathematischen Aufgaben.
Zwar leidet auch dieser Benchmark noch unter dem Problem des Blutens von Wissen in die Trainingsdaten, er ist aber noch relativ neu und daher vermutlich für den Moment glaubhaft, auch wenn die Bezeichnung als "letzter Test für die Menschheit" wohl extrem übertrieben ist. Und hier ist GPT-5 tatsächlich überzeugend: Es liegt mit 24,8 Prozent richtigen Antworten deutlich vor dem Großteil der Konkurrenz (es folgt Gemini Pro mit 21,6 Prozent), wenn auch 0,6 Prozent hinter Grok 4.



Immer noch Halluzinationen
Trotz dieser guten Ergebnisse plagen GPT-5 nach wie vor die gleichen Probleme wie alle LLMs: Es halluziniert gelegentlich, denkt sich also alternative Fakten aus. Das ist der Bauweise und dem Training der LLMs geschuldet: Modelle lernen, indem sie extrem viele Texte, großenteils aus dem Internet, auswendig lernen. Das Vorhersagen eines nächsten Wortes im Text gelingt dabei besser, je mehr Fakten und Wissen ein Modell gespeichert hat. Dieses Faktenwissen hilft etwa bei der Vervollständigung des Satzes "Die Höhe des Mt. Everest beträgt \_\_\_\_\_\_" .
Durch die begrenzte Trainingszeit und die begrenzte Kapazität eines Modells (ein Parameter eines LLMs kann etwa 3,6 Bit(öffnet im neuen Fenster) Informationen speichern) sind hier zwangsläufig Ungenauigkeiten vorprogrammiert. Genau wie diese Halluzinationen lassen sich auch andere Probleme der Sprachmodelle durch mehr Training zwar abmildern, aber nie gänzlich ausmerzen.
Altbekannte Probleme bleiben
Eine weitere Reihe von Problemen plagt Sprachmodelle bereits seit ihrer Erfindung: Token-basierte Ungenauigkeiten. Modelle wie ChatGPT verarbeiten ihre Ein- und Ausgaben nicht als einzelne Buchstaben, sondern als Textfetzen. So weiß ChatGPT gar nicht, welche Buchstaben genau etwa im Wort Habicht stecken, sondern nur, dass es aus zwei Tokens ( Hab und icht ) besteht.
Was wenig relevant klingt, führt dazu, dass das Modell nach wie vor Schwierigkeiten hat, einfache Aufgaben wie das Buchstabieren treffsicher zu lösen - relevant unter anderem für kreative Spielmechaniken in Videospielen .
Ebenso werden auch Zahlen als solche Tokens dargestellt. Wer eine Multiplikation von zwei Zahlen eingibt, bekommt nicht - wie vom Computer gewohnt - ein exaktes Ergebnis, sondern ein gelerntes Überschlagen des Ergebnisses des Modells. Das ist für kleine Zahlen ausreichend, wird aber zunehmend ungenau, je größer und komplizierter die Rechnung ist. Besonders tückisch ist das, wenn es im kleinen Test klappt, aber bei komplizierten Rechnungen die Ergebnisse zwar plausibel aussehen, jedoch ein paar Prozent vom richtigen Ergebnis abweichen.



Instabiler Werkzeuggebrauch
In unseren Versuchen hat GPT-5 das nur teilweise behoben: Bei einem Durchlauf wurde tatsächlich Python-Code generiert und ausgeführt, um unsere Matheaufgabe zu lösen; bei einem anderen Durchlauf wurde jedoch die (ungenaue) Lösung angegeben. Konsistenz und Verlässlichkeit sehen anders aus. Ebenso verhält es sich mit aktuellen Informationen: Bei der Frage nach dem aktuellen US-Präsidenten wird meistens im Hintergrund eine Suchmaschine benutzt, gelegentlich produziert das Modell aber noch Aussagen wie "Joe Biden ist der Präsident" .
Bereits vor mehr als zwei Jahren zeigten Modelle wie der Toolformer(öffnet im neuen Fenster) , dass das Problem an sich gut lösbar ist - OpenAI hat anscheinend nur nicht genug darauf geachtet, dass das Modell dies auch tut. Außerdem waren Ausgaben unsauber, verschmutzt mit zufällig wirkenden Textfetzen - in unserem Test ist das allerdings nur zweimal in 100 Anfragen vorgekommen. Insgesamt wirkt das Modell folglich etwas unausgegoren.
OpenAI muss ein Risiko eingehen, um ChatGPT wirklich voranzubringen
OpenAI hat sich mit GPT-5 keinen Gefallen getan, obwohl das Modell bei allem Gemecker oft sogar bessere Ausgaben produziert als die vorherigen Versionen. Vielleicht wäre es in der Tradition bisheriger Modelle als eher stille Veröffentlichung mit einem sperrigen Namen wie GPT-4.6 o5 und weniger Marketing deutlich besser angekommen. Der größte Feind sind die von OpenAI selbst geschürten Erwartungen.
Mit dem Wechsel von GPT-3 zu GPT-3.5 konnten statt aufwendiger Konstruktionen erstmals bequem Prompts benutzt werden, um das Modell zum Lösen von Aufgaben zu benutzen. Der Sprung von GPT-3.5 bzw. ChatGPT zu GPT-4 war dann noch einmal gigantisch: Plötzlich konnten Bilder eingegeben werden und das Modell konnte ein Vielfaches der Kontextlänge verarbeiten, etwa komplette Bücher in einem Prompt verarbeiten. Und GPT-5? - Das hat ein paar Prozente mehr in einigen Benchmarks. Ein inkrementeller, kein umwälzender Fortschritt.
Für echte Fortschritte, gerade in Zeiten von starker Konkurrenz durch Deepseek und Anthropic, müsste OpenAI das Risiko eingehen, Teile der mittlerweile immerhin acht Jahre alten Grundarchitektur(öffnet im neuen Fenster) anzupassen. Doch genau da stellt sich OpenAI mit seinem geschlossenen System selbst ein Bein: Anders als etwa bei Deepseek(öffnet im neuen Fenster) , dessen Reinforcement Learning Ansatz (GRPO) unter anderem durch Minimax(öffnet im neuen Fenster) verbessert wurde und das nun vermutlich selbst davon profitiert, weiß niemand genau, was OpenAI hinter den Kulissen tut. Ein Sonderweg, ohne neuen Input von außen.
LLMs treffen auf eine Wand
Aber auch allgemein scheinen LLMs auf eine Wand zu treffen: Sättigung bei der Qualität der Ergebnisse, zweifelhafte Fortschritte bei Benchmarks und nach wie vor teilweise die gleichen Probleme wie zur Veröffentlichung von ChatGPT vor zweieinhalb Jahren.
Ohne neue Technologien wie LLMs auf Basis von Diffusion(öffnet im neuen Fenster) ist der von Sam Altman versprochene Fortschritt bei Sprachmodellen wohl eher eine seichte Beule in der Landschaft der künstlichen Intelligenz als eine (sanfte) Singularität .
Tim Elsner(öffnet im neuen Fenster) ist teils selbstständig und teils Forscher im Bereich maschinelles Lernen. Er finalisiert gerade seine Dissertation über generative KI für Visuelle Daten und bastelt gerne an allem, was mit neuronalen Netzen zu tun hat - und erklärt es.



