Zum Hauptinhalt Zur Navigation

Künstliche Intelligenz: Generative KI verunreinigt Daten

Das Sprachanalyse-Projekt Wordfreq wird eingestellt, weil generative KI die verfügbaren Daten im Internet zu stark verunreinigt.
/ Mike Faust
28 Kommentare News folgen (öffnet im neuen Fenster)
Durch generative KI sind Sprachdaten aus dem Internet nicht mehr zu gebrauchen. (Bild: Pixabay.com / athree23)
Durch generative KI sind Sprachdaten aus dem Internet nicht mehr zu gebrauchen. Bild: Pixabay.com / athree23

Da mittlerweile zu viele große Sprachmodelle das Internet mit Inhalten geflutet hätten, die nicht von Menschen geschrieben seien, verzerrten diese die gesammelten Daten zu stark, erklärte Speer. Sie glaube nicht, dass irgendjemand zuverlässige Informationen über die Sprachverwendung nach dem Jahr 2021 habe.

Auch vor dem Jahr 2021 habe es mit Sicherheit Spam in den Datenquellen gegeben. Dieser sei aber überschau- und identifizierbar gewesen. Als Beispiel nannte Speer ChatGPT, welches dazu neigt, das englische Wort delve (vertiefen) besonders häufig zu verwenden. Dieses hat dadurch in seiner Gesamthäufigkeit sehr stark zugenommen, ohne dass Menschen es tatsächlich vermehrt verwenden.

Daten werden nur noch gesammelt, um KI-Modelle zu trainieren

Neben dem offenen Internet sammelte Wordfreq Daten zur Umgangssprache auch von Twitter (ab 2023 X) und Reddit. Die Daten von Twitter durften aufgrund der Nutzungsbedingungen ohnehin nicht außerhalb des Unternehmens verteilt werden und durch die Abschaltung der öffentlichen APIs fielen sie ohnehin als Datenquelle weg. Zudem sei Twitter seit der Übernahme durch Elon Musk mit Spam verseucht und könne daher keine wertvollen Informationen mehr liefern, erklärte Speer.

Reddit stellt ebenfalls keine Datenarchive mehr öffentlich bereit und verkauft diese nun zu so hohen Preisen, dass laut Speers Meinung nur OpenAI dazu bereit wäre, diese zu zahlen.

Ihr Forschungsobjekt, die Verarbeitung natürlicher Sprache, sei nur noch schwer zu finden. Stattdessen würde alle Tools, die Texte im Internet analysieren, nur noch dafür verwendet, um generative KI-Modelle mit geschlossenen Daten zu trainieren, die beispielsweise von OpenAI und Google kontrolliert werden.

Aus diesen Gründen möchte die Forscherin nicht mehr Teil dieser Szene sein und erklärte, dass Wordfreq keine Updates mehr erhalten werde.


Relevante Themen