Zum Hauptinhalt Zur Navigation

KI bei Programmierung: ChatGPT liegt bei Hälfte der Stack-Overflow-Fragen falsch

Statt ChatGPT zum Thema Programmierfragen zu Hilfe zu nehmen, kann wohl auch einfach eine Münze geworfen werden.
/ Oliver Nickel
14 Kommentare News folgen (öffnet im neuen Fenster)
ChatGPT liegt beim Beantworten der Fragen oft falsch. (Bild: Pixabay.com)
ChatGPT liegt beim Beantworten der Fragen oft falsch. Bild: Pixabay.com / Pixabay-Inhaltslizenz

Sprachmodelle wie ChatGPT sind unter anderem dafür bekannt, dass sie beim Erstellen von Codefragmenten für Softwareprojekte helfen können. Ein Forschungsteam hat sich nun die Frage gestellt(öffnet im neuen Fenster) : Wie gut ist Software beim Beantworten von Fragen auf Stack Overflow? Dazu wurden 517 Fragen auf dem Portal ausgewählt.

Die KI kommt damit wohl nicht sehr gut zurecht, wie sich herausstellt. ChatGPT konnte laut den Forschern nicht einmal die Hälfte (48 Prozent) der gestellten Fragen richtig beantworten. Mehr als drei Viertel (78 Prozent) der Antworten sind im Vergleich zu menschlichen Antworten zudem auf verschiedenen Ebenen inkonsistent.

Der Sprachgenerator drückte sich dabei wohl formaler, analytischer und in weniger negativer Tonalität im Vergleich zu menschlichen Probanden aus. Womöglich überzeugten die KI-generierten Antworten deshalb immerhin 39 Prozent der Fragestellenden. Allerdings stimmen sie nur zu 22 Prozent mit den von Menschen gegebenen Antworten überein.

KI versteht die Frage nicht richtig

Am besten schneidet ChatGPT bei der Verständlichkeit ab. Laut Forschungsteam ist die Software zu 65 Prozent verständlich und deren Antworten deshalb gut lesbar. Das Problem: Nur 23 Prozent der Antworten waren wohl wirklich prägnant und kommen zum wirklichen Punkt. Die restlichen 77 Prozent enthalten zum Teil irrelevante Informationen, zu viel Informationen oder redundante Aussagen.

Das Forschungsteam fasst zusammen, dass ChatGPT wohl Probleme mit der Art der Fragen hat, wie sie auf Stack Overflow typischerweise gestellt werden. Sie sind von Menschen verfasst, teilweise komplex und oft länger. Deshalb konzentriert sich die Software oft auf falsche Teile der Fragen oder gibt ungenaue Antworten.


Relevante Themen