Künstliche Intelligenz: Generative KI verunreinigt Daten

Das Projekt Wordfreq zur Analyse des menschlichen Sprachgebrauchs wird wegen Verunreinigung der frei verfügbaren Daten im Internet durch generative KI eingestellt. Das berichtet die Initiatorin des Projekts(öffnet im neuen Fenster) , Robyn Speer, auf Github.
Ursprünglich wurde mit dem Projekt das Internet durchsucht, um die sich ständig ändernde Popularität verschiedener Wörter im menschlichen Sprachgebrauch zu analysieren.
Da mittlerweile zu viele große Sprachmodelle das Internet mit Inhalten geflutet hätten, die nicht von Menschen geschrieben seien, verzerrten diese die gesammelten Daten zu stark, erklärte Speer. Sie glaube nicht, dass irgendjemand zuverlässige Informationen über die Sprachverwendung nach dem Jahr 2021 habe.
Auch vor dem Jahr 2021 habe es mit Sicherheit Spam in den Datenquellen gegeben. Dieser sei aber überschau- und identifizierbar gewesen. Als Beispiel nannte Speer ChatGPT, welches dazu neigt, das englische Wort delve (vertiefen) besonders häufig zu verwenden. Dieses hat dadurch in seiner Gesamthäufigkeit sehr stark zugenommen, ohne dass Menschen es tatsächlich vermehrt verwenden.
Daten werden nur noch gesammelt, um KI-Modelle zu trainieren
Neben dem offenen Internet sammelte Wordfreq Daten zur Umgangssprache auch von Twitter (ab 2023 X) und Reddit. Die Daten von Twitter durften aufgrund der Nutzungsbedingungen ohnehin nicht außerhalb des Unternehmens verteilt werden und durch die Abschaltung der öffentlichen APIs fielen sie ohnehin als Datenquelle weg. Zudem sei Twitter seit der Übernahme durch Elon Musk mit Spam verseucht und könne daher keine wertvollen Informationen mehr liefern, erklärte Speer.
Reddit stellt ebenfalls keine Datenarchive mehr öffentlich bereit und verkauft diese nun zu so hohen Preisen, dass laut Speers Meinung nur OpenAI dazu bereit wäre, diese zu zahlen.
Ihr Forschungsobjekt, die Verarbeitung natürlicher Sprache, sei nur noch schwer zu finden. Stattdessen würde alle Tools, die Texte im Internet analysieren, nur noch dafür verwendet, um generative KI-Modelle mit geschlossenen Daten zu trainieren, die beispielsweise von OpenAI und Google kontrolliert werden.
Aus diesen Gründen möchte die Forscherin nicht mehr Teil dieser Szene sein und erklärte, dass Wordfreq keine Updates mehr erhalten werde.



