GPT-5: "Ist mega. Lol"
"Gar nicht schlecht" , aber trotzdem nach den vollmundigen Ankündigungen durch OpenAI enttäuschend: So lautet das Urteil unseres KI-Experten Tim Elsner nach den ersten Tests und der Analyse von GPT-5. Auch ihr seid überwiegend enttäuscht, wie eure Antworten auf unsere Frage von vergangener Woche zeigen.
Rund 70 Prozent derer, die GPT-5 schon ausprobiert haben, sind nicht begeistert, 30 Prozent finden es gut. Aber lest selbst, wir haben die spannendsten Erfahrungen aus den vielen Einsendungen herausgesucht.
Vielen Dank an alle, die mitgemacht haben!
➤ Ich habe, wie viele andere auch, sehr lange auf GPT5 gewartet. Gerade als Programmierer habe ich mir in Verbindung mit Copilot bessere Performance als bei anderen Topmodellen wie Claude Opus 4 oder Gemini 2.5 Pro erhofft. Leider scheint es, als ob OpenAI hier nicht mehr die Nase vorn hat.
GPT-5 macht den Code kaputt, entschuldigt sich dann, macht alles rückgängig, um es kurze Zeit später wieder kaputt zu machen, und alles wieder von vorn (alles in einem Request). Fühlt sich an wie eine Kassette oder ein primitiver Roboter, der irgendwie steckenbleibt und automatisch wieder zurückspult, immer und immer wieder. Super nervig!
➤ Der Gesprächsfluss mit GPT-5 ist so zäh, dass es absolut keinerlei Spaß mehr macht, mit GPT zusammen irgendwelche Ideen zu entwickeln. Wo vorher noch Ideen und Input von KI kamen, ist es jetzt das Äquivalent zu jemandem, der auf Whatsapp auf alles mit kk antwortet.
Und man kann nicht mal manuell auf 4o zurück. Werde mein Plus kündigen, sobald die App das auch bekommt. Unbrauchbar so.
[Anm. d. Red.: OpenAI hat GPT-4o nach Nutzerkritik immerhin für zahlende Nutzer zurückgebracht . Wir haben daher die vielen Einsendungen von euch, die sich GPT-4o zurückwünschten, hier nicht alle einzeln aufgeführt.]
➤ GPT-5 wirkt für mich wie ein überambitionierter Programmierer, der frisch aus dem Studium mit viel Theoriewissen sein erstes Projekt angeht.
➤ Es versucht sehr gerne, komplexere Lösungswege umzusetzen, die oft zu Fehlern und Unübersichtlichkeit führen, während Geminis oder Claudes Ansätze viel eleganter, leserlicher und kompakter sind. Bei den Modellen hat man das Gefühl, dass sie das Projekt eher in vollem Umfang verstehen.
➤ Maximal so zehn Prompts eingetippt und schon kam die Meldung, dass ich für zwei Stunden kein GPT-5 nutzen kann. Dann wurden die Antworten irrwitzig dumm und faul. Nur allgemeines Geschwafel.
➤ Große Enttäuschung. Hauptversionen der GPT-Modelle waren bisher immer ein großer Schritt vorwärts für KI.
GPT-2 zeigte, dass LLMs gut skalieren.
GPT-3 war eines der ersten brauchbaren LLMs und bereitete mit 3.5 die Ära von ChatGPT vor.
GPT-4 machte ChatGPT erst wirklich nützlich und ist für den andauernden Hype verantwortlich.
Nun, nach zwei Jahren von Zwischenversionen, kommt doch endlich GPT-5 raus und sie hätten es genauso gut "GPT-4.75" nennen können. Dabei ist die größte Neuerung mit dem dynamischen Reasoning gar keine: Ein Routermodell analysiert Anfragen und verteilt sie an die Reasoning- oder nicht-Reasoning-GPT-5-Versionen, die separate LLMs sind.
GPT-5 ist meiner Meinung nach einfach ein zu kleiner Schritt, der hinter den Erwartungen zurückbleibt. OpenAI und Sam Altman werden wohl mehr Arbeit reinstecken müssen, wenn sie ihre AGI wie angekündigt bis zum Jahr 2030 bauen wollen.
Mit AGI, Strawberry oder Q*, mit denen Herr Altman gerne Hype generiert, hat GPT-5 noch wenig zu tun.
➤ GPT-5 ist eine minimale Verbesserung, kein großer Wurf. Ich verwende Nextcloud und das Pico CMS – dies wird aber seit mehreren Versionen nicht mehr unterstützt. Frage ich GPT-5: "Gibt es eine Alternative zu Pico CMS für Nextcloud?" , liefert GPT als erstes Ergebnis "CMS Page" und einen Link: https://nextberry.de/nextcloud-und-die-cms-page-ein-vollstaendiges-system-zur-erstellung-und-verwaltung-von-webseiten
Das Schlimme: Die Artikel auf nextberry.de sind per LLM produziert und es halluziniert – CMS Page gibt es nicht. Somit hat sich der LLM Slop Kreis geschlossen: LLM generiert (halluzinierte) Text und die nächste LLM lernt davon.
Es fehlt das Herz
➤ Leider kein Test möglich, da trotz Plus-Abo die Option nicht eingeblendet wird. Auch das Modell 4o hatte dafür keine Hilfe. Auf die Frage, ob das 5er-Modell draußen sei, meinte es, dass es keine Hinweise dazu im Internet finden konnte. Erst mit Einfügen des Links von der eigenen Website erkannte es zumindest den eigenen Fehler^^.
➤ Ist mega lol.
➤ Fühlt sich an, als wäre GPT-5 fauler.
➤ Es ist schneller und stabiler als 3o. Die Qualität kann ich abschließend noch nicht beurteilen.
➤ Es ist irgendwie erwachsener geworden. ;-)
➤ GPT5 ist dumm wie Brot. Es lügt extrem selbstsicher und ignoriert Korrekturen. Die Websuche triggert aufgrund Arroganz selten.
➤ Es ist ein grauenhaftes Modell und ein totaler Rückschritt, da es absolut nichts kann. Antworten extrem kurz, viel mehr Fehler als bei vorhergehenden Modellen, keine Transparenz bezüglich des verwendeten Modells, alte Modelle entfernt und so weiter. Ich denke, wir haben gestern den eigenen Todesstoß von OpenAI gesehen durch den Release.
➤ Verarbeitet nur wenig Kontext, bei längeren Kontexten gibt es keine Antwort.
➤ Die Coding Experience ist immer noch weit hinter der von Claude Sonnet 4, gerade in Bezug auf Qualität und Geschwindigkeit.
➤ Hat einfach null Herz und ist für mich aktuell absolut unbrauchbar.
➤ Er ist nicht mehr so umfassend in der Antwort und man muss ihm gefühlt mehr aus der Nase ziehen, bevor er auf den Punkt kommt.
➤ Da ist überhaupt nichts besser geworden. Nicht einmal die angepriesenen Verbesserungen wurden eingehalten. GPT-5 hat schlimmer als zuvor den Fokus im Gespräch verloren. Achtet nicht auf Vorgaben aus dem Gedächtnis, stellt Einschätzungen nicht als Hypothesen dar, zeigt keine Spur von Reasoning. Aus meiner Sicht ein voller Flop 👎.
➤ Ich entwickle eine Website mit einem KI-Service und es wurde GPT-5 gerade eingebunden, um Programmieraufgaben zu erledigen. Bis jetzt kriegt es alles sehr gut hin.
➤ Habe das Gefühl, dass es schlechter geworden ist und versucht, mit weniger Aufwand eine Antwort zu liefern. Deutlich bessere Ergebnisse bekomme ich mit Grok 4.
➤ Das Basismodell ist leider sehr schwach. Nur mit reasoning_effort high kann das Modell einigermaßen überzeugen. An dem Punkt dauert es aber auch schon über eine Minute, bis es mit Überlegungen fertig ist. Die Ergebnisse sind dann in meinen Tests immer noch schlechter als mit Opus oder teilweise auch Sonnet.
➤ Scheitert schon beim Schreiben von Prompts für txt2img. Ignoriert Voraussetzungen. Verlangt waren auf komplett sfw. Schreibt dann nsfw prompts und löscht den Text, da er gegen die ToS verstößt.
➤ Ich finde, es ist ein Schritt zurück. Extrem langsam und Context in Follow-ups funktioniert nicht. Versucht immer wieder, die gesamte Codebase neu zu implementieren.
➤ Es ist eine völlige Katastrophe. Nur am Halluzinieren, gibt kürzere Antworten, versteht Prompts nicht undsoweiter.
'Wir lieben es'
➤ Mega. Definitiv intelligenter, hält sich besser an meine Anweisungen und ist dadurch auch etwas weniger persönlich, was ich bei einem KI-Assistenten sehr begrüße.
➤ Wir lieben es! Allerdings ist der Thinking Mode beziehungsweise das entsprechende GPT-5-Thinking-Model für komplexe Fragen und Aufgaben empfehlenswert. Vermutlich kommt die meiste Kritik von Nutzern der kostenlosen Version?
➤ Ich merke, dass es schneller ist. Viel mehr Intelligenz habe ich jetzt bei Codes oder Website-Erstellung nicht erkannt.
➤ Ich habe es mit Windsurf getestet, das es im neuen Update integriert hat. Ich hatte gestern ein Problem, dass im Language Switch nicht alle Sprachen waren. Claude 4 hat sich im Kreis gedreht. Heute morgen hat GPT-5 übernommen und das Problem war im zweiten Durchgang gelöst.
➤ Antworten sind knapper, aber präziser.
➤ Das erste Modell, dass bei längeren Chats konsistent gute Antworten geben kann und nicht immer konfusere Antworten liefert, je länger der Chat wird.
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



