Hype vs. Realität: Die größten Probleme generativer KI

Steven A. Schwartz hatte ein Problem. Der New Yorker Anwalt sollte seinen Mandanten in einem Verfahren gegen die Fluglinie Avianca vertreten und fragte ChatGPT nach relevanten Präzedenzfällen. Das System lieferte prompt sechs Urteile, komplett mit Aktenzeichen, Zitaten und internen Verweisen. Schwartz reichte die Klageschrift ein. Erst als die Gegenseite nachfragte, stellte sich heraus: Alle sechs Fälle waren frei erfunden(öffnet im neuen Fenster) . Richter P. Kevin Castel sprach von einem "beispiellosen Vorkommnis" und verhängte 5.000 US-Dollar Geldstrafe. Schwartz ist kein Einzelfall. Eine Datenbank dokumentiert weltweit bereits 486 solcher Vorfälle, 324 davon allein in den USA(öffnet im neuen Fenster) .
Die Anekdote zeigt beispielhaft, wo wir 2025 stehen: Seit dem Bericht Scaling Laws for Neural Language Models(öffnet im neuen Fenster) aus dem Januar 2020 hat sich ein Narrativ verfestigt: größere Modelle, mehr Daten, mehr Rechenleistung liefern mehr Leistung. Die Vision reichte von produktiven Assistenten bis hin zu breiten Automatisierungssprüngen, flankiert von Ankündigungen zu Superintelligenz und tiefgreifenden Umbrüchen am Arbeitsmarkt. 2025 bleibt die Lage durchwachsen: Neue Modelle wie GPT 5 wirken auf den ersten Blick beeindruckend, zeigen aber klare Schwächen im Arbeitsalltag. In diesem Artikel ordnet Golem die Erwartungen ein und zeigt anhand fünf konkreter Bereiche, was ChatGPT und Co. weiterhin nicht zuverlässig beherrschen.