Zum Hauptinhalt Zur Navigation

KI: Gut simuliert ist nur halb gewonnen

KI -Werkzeuge wie ChatGPT oder Copilot sollen viele Jobs bald überflüssig machen. Besser als Menschen werden sie aber nicht, denn sie sind vor allem eines: Blender.
/ Sebastian Grüner
132 Kommentare News folgen (öffnet im neuen Fenster)
Moderne KI-Systeme geben oft vor, etwas zu sein, das sie nicht sind. (Bild: Pixabay)
Moderne KI-Systeme geben oft vor, etwas zu sein, das sie nicht sind. Bild: Pixabay

Vor wenigen Wochen erreichte der von OpenAI vorgestellte Chatbot ChatGPT den Status eines viralen Hits im Internet . Schnell wurden dessen tatsächlich weitreichenden Fähigkeiten auch weit außerhalb der klassischen IT-Sphären diskutiert. Oft wird die Technik deshalb als unaufhaltsame Zukunftstechnologie eingeordnet. Dass es wirklich dazu kommt, darf bezweifelt werden: Der Chatbot selbst liefert zwar überzeugende Ergebnisse, wie andere KI-Techniken auch täuscht ChatGPT aber vor allem über zahlreichen Unzulänglichkeiten hinweg.

Bereits zur Vorstellung von ChatGPT zeigte sich, dass das System offenbar leichte(öffnet im neuen Fenster) und sogar(öffnet im neuen Fenster) komplexe(öffnet im neuen Fenster) Programmierungsaufgaben(öffnet im neuen Fenster) lösen kann. ChatGPT scheint nicht nur den Code selbst zu verstehen, sondern kann den erklären, sogar Sicherheitslücken. Auch Reverse Engineering ist möglich(öffnet im neuen Fenster) . Die Fähigkeiten gehen offenbar hin bis zum Schreiben, Kompilieren und anschließendem Ausführen von Anwendungen(öffnet im neuen Fenster) .

Schnell wurden die von den Machern eigentlich auf Chats beschränkten Funktionen von den Nutzern spielerisch hintergangen, um dem zugrundeliegenden Modell weitere Antworten und Funktionen zu entlocken. Dazu gehörten ebenso juristisch fragwürdige Tipps, wie das Simulieren von VMs und weiterem Schabernack. Der KI-Forscher Davis Blalock hat auf Twitter zahlreiche Wege gesammelt und dokumentiert(öffnet im neuen Fenster) , wie die in ChatGPT eingebauten Regeln durch Nutzeranweisungen umgangen werden können.

Verblüffend gut

Seit Wochen führt dies zu mehr und mehr wirklich verblüffenden Vorführungen dessen, was mit ChatGPT und dem zugrundeliegenden Modell möglich ist. Die hervorstechendste Eigenschaft des Systems ist wie eingangs erwähnt die Überzeugungskraft. Antworten vor allem auf technische Fragen scheinen korrekt und fehlerfrei. Auch die von ChatGPT verfassten Texte lassen sich auf Anhieb nicht von jenen unterscheiden, die von Menschen geschrieben werden.

Die Fähigkeiten gehen so weit, dass erste experimentelle Einsatzszenarien von ChatGPT zeigen, wie das System für Verhandlungen genutzt werden kann, um Preise für Endkundenverträge zu drücken. Das berichtet das Magazin Wired(öffnet im neuen Fenster) . ChatGPT reiht sich damit ein in eine Liste von Werkzeugen, die im Lauf der vergangenen Jahre immer besser geworden sind. Das gilt für die Texterkennung und -verarbeitung wie zuletzt auch für die Erzeugung von Inhalten. Der Erfolg zeigt sich daran, dass Modelle wie jene von OpenAI in Githubs Copilot oder Modelle zur Bilderzeugung inzwischen kommerziell eingesetzt werden.

Für viele Außenstehende kann anhand kurzer Textausschnitte vergleichsweise leicht nachvollzogen werden, warum selbst Google-Entwickler wie bei dem KI-Modell Lamda des Unternehmens an eine Art Bewusstsein der Technik glauben . Immerhin sind auch die Fähigkeiten von ChatGPT oft von denen real existierender Menschen nur schwer zu unterscheiden. ChatGPT merkt sich den Verlauf des Dialogs und verweist darauf zurück, gibt ausführliche und schlüssig klingende Antworten, wirkt allwissend und zweifelt vor allem nie. Letztlich verfolgt das System eine eigene Argumentationskette.

Überzeugend schlecht

Dass Systeme wie Lamda und ChatGPT oder das KI-Coding-Werkzeug Copilot keine Allheilsbringer sind, zeigt sich schnell bei näherer Betrachtung – auch bei der dahinterstehenden Idee. Während Copilot mehr oder weniger einfach darauf trainiert ist, eine möglichst korrekte Abfolge von Code für Anfragen zu erstellen, gehen Lambda und ChatGPT weiter. Die Modelle integrieren Funktionen, die auf die menschliche Psyche und damit unsere Wahrnehmung der Systeme abgestimmt ist.

So soll Lamda laut Ankündigung explizit offene Konversation ohne vorgegebene Pfade oder plötzliche Abbrüche umsetzen können und so eine natürliche Interaktion bieten. Nach mehreren Wochen mit ChatGPT zeigt sich, dass das Modell offenbar von sich und seinen Antworten überzeugt sein soll, um glaubhaft auf Menschen zu wirken.

Das Magazin The Register(öffnet im neuen Fenster) beschreibt die inhärente Überzeugung in Bezug auf die eigenen Fähigkeiten von ChatGPT gar als ein "Musterbeispiel für einen Wissenssimulator mit Dunning-Kruger-Effekt(öffnet im neuen Fenster) " . Diese Wissenssimulation macht die KI-Systeme extrem fehleranfällig und vor allem gefährlich. Lobpreisungen sind deshalb völlig fehl am Platz und es sollten Vorkehrungen getroffen werden.

KI-Modelle scheitern an der Qualität

Dass KI-Modelle und deren vermeintliche Fähigkeiten mit großer Vorsicht zu genießen sind, zeigte sich spätestens mit Microsofts Chatbot Tay , der schon im Jahr 2016 mit rassistischen Ausfällen auffiel . Trotz zahlreicher Vorkehrungen erging es Meta erst kürzlich ähnlich. Mit dem Blenderbot 3(öffnet im neuen Fenster) traf das Unternehmen entsprechende Vorkehrungen, die aber wohl nur wenig halfen(öffnet im neuen Fenster) . Das erst im November von Meta vorgestellte Sprachmodell Galactica verbreitet letztlich auch Falschinformationen und blieb deshalb nur drei Tage online(öffnet im neuen Fenster) .

Dieses Dilemma erklärt auch, warum insbesondere Google den Schritt zur allumfassenden Wissensmaschine verschlafen zu haben scheint, wie etwa die New York Times(öffnet im neuen Fenster) berichtet. Vielmehr ist es aber so, dass Google sich seit Jahren extrem darum bemüht, die Auswahl seiner Suchergebnisse zu verbessern und stärker mit vertrauenswürdigen echten Quellen zusammenarbeitet – auch um Falschinformationen vorzubeugen. Werbeplätze in solch einem Umfeld dürften sich nämlich deutlich schlechter verkaufen und Nutzer verschrecken. Das kann Google sich nicht leisten.

Dennoch will auch Google, befeuert durch den ChatGPT-Hype, noch mehr in KI-Techniken und darauf aufbauende Produkte investieren, wie die New York Times weiter berichtet. Internen Unterlagen zufolge sollen erste Ergebnisse schon im kommenden Mai auf der Hausmesse I/O präsentiert werden. Techniken dafür haben Google und das Schwesterunternehmen Deepmind längst: etwa mit Pathways ein riesiges Sprachmodell oder mit Alphacode ein Werkzeug , das Copilot als Entwicklungshilfe noch deutlich übertreffen können soll.

Doch auch trotz verbesserter Technik, die immer mehr Endnutzer überzeugt, bleiben die inhärenten Probleme und Fehler der KI-Systeme bestehen. So schreibt etwa OpenAI in der Beschreibung von ChatGPT unverhohlen: "ChatGPT schreibt manchmal plausibel klingende, aber falsche oder unsinnige Antworten. Die Behebung dieses Problems ist eine Herausforderung."

Dass sie jemals komplett technisch möglich sein wird, erscheint schon allein aufgrund der Funktionsweise aktueller KI-Systeme unwahrscheinlich. Denn sie sind, vereinfacht ausgedrückt, große Wahrscheinlichkeitsautomaten, die massenhaft aus teils fehlerhaften Daten lernen. Insbesondere bei KI-Coding-Tools wird schnell klar, dass sich dem nur schwer vorbeugen lässt. Immerhin trainieren sie mithilfe von bestehendem Code, der Fehler beinhalten kann, die noch gar nicht bekannt sind oder noch nicht von Menschen entdeckt wurden. Solche Fehler könnten durch die Systeme schlicht weiter propagiert werden.

Ähnlich verhält es sich mit Textdateien, die nicht nur sprachliche Fehler enthalten können, sondern auch faktische. Ein Ausfiltern dieser Fehler ist bei der Menge der Daten derzeit weder vorgesehen noch praktisch möglich.

Die kollaborative Code-Hilfeplattform Stackoverflow hat Antworten von ChatGPT etwa kurzerhand verboten(öffnet im neuen Fenster) , da die "durchschnittliche Rate korrekter Antworten" zu niedrig sei. Aktuelle(öffnet im neuen Fenster) Forschungsarbeiten(öffnet im neuen Fenster) , die die Nutzung von KI-Codingwerkzeugen untersuchen, deuten ebenfalls darauf hin, dass sie zwar produktiv einsetzbar sind, aber eben nur mit entsprechenden Fehlern.

Menschen müssen menschengemachte Probleme lösen

Mit Blick auf derlei Ergebnisse erscheint es äußert unrealistisch, dass KI schon bald echte Programmierjobs ersetzt oder Hausarbeiten an Universitäten vor dem Ende stünden, wie der Präsident der Karlshochschule in Karlsruhe, Robert Lepenies behauptet(öffnet im neuen Fenster) .

Vielmehr zeigt der Erfolg der KI-Modelle, was wir alle über Menschen eigentlich schon lange wissen: Menschen betrügen, nehmen Abkürzungen und ihre Faulheit siegt im Zweifel immer. Für diesen Zweck gibt es mittelfristig wohl zahlreiche neue und leicht zugängliche Werkzeuge auf Grundlage von KI.


Relevante Themen