Zum Hauptinhalt Zur Navigation

Common Corpus: Riesiger offener Trainingsdatensatz für KI-Sprachmodelle

Ein internationales Team hat mit Common Corpus den bisher größten frei verfügbaren Datensatz für KI-Sprachmodelle veröffentlicht.
/ Michael Linden
1 Kommentare News folgen (öffnet im neuen Fenster)
Bücher für KI-Fähigkeiten (Bild: KI-generiert mit Dall-E/Golem.de)
Bücher für KI-Fähigkeiten Bild: KI-generiert mit Dall-E/Golem.de

Ein internationales Team unter der Leitung des französischen Start-ups Pleias hat in Zusammenarbeit mit Organisationen wie Huggingface, Occiglot, Eleuther und Nomic AI einen großen Schritt in Richtung offener und transparenter KI gemacht. Das Ergebnis ihrer Bemühungen ist Common Corpus(öffnet im neuen Fenster) , der bisher größte frei verfügbare Datensatz für das Training von Large Language Models (LLMs).

Common Corpus(öffnet im neuen Fenster) umfasst 500 Milliarden Wörter aus einer Vielzahl von Quellen des kulturellen Erbes. Der Datensatz zeichnet sich durch seine sprachliche Vielfalt aus, auch wenn Englisch dominiert.

Common Corpus ist mit 180 Milliarden englischen Wörtern ausgestattet. Es enthält auch den bisher größten offenen Datensatz in Französisch (110 Milliarden Wörter). Dazu kommen in absteigender Reihenfolge Deutsch (30 Milliarden Wörter), Spanisch, Niederländisch oder Italienisch.

Darüber hinaus enthält er auch eine große Anzahl von Sprachen mit geringer Verbreitung, die in der KI-Forschung bisher unterrepräsentiert waren.

Durch die Verwendung von gemeinfreien Quellen möchte Common Corpus zeigen, dass es möglich ist, LLMs zu trainieren, ohne auf urheberrechtlich geschütztes Material zurückgreifen zu müssen. Dieser Ansatz fördert ihren Angaben nach nicht nur die Transparenz und Reproduzierbarkeit in der KI-Forschung, sondern ermöglicht es auch, vielfältigere und inklusivere Sprachmodelle zu entwickeln.

Urheberrechtsfreie Quellen für rechtssichere KI

Forscher und Entwickler können Common Corpus nutzen, um neue LLMs zu trainieren oder bestehende Modelle zu verbessern. Der Datensatz eignet sich nach Angaben der Projektverantwortlichen für eine breite Palette von Anwendungen, darunter maschinelle Übersetzung, Textzusammenfassung, Frage-Antwort-Systeme und Anwendungen wie literarische Analysen oder historische Forschung. Darüber hinaus bietet Common Corpus die Möglichkeit, ethische Aspekte in der Sprach-KI zu untersuchen und zu berücksichtigen, wie beispielsweise den Bias.

Mit der Veröffentlichung von Common Corpus hoffen die Beteiligten, die Eintrittsbarrieren für die Entwicklung von Sprach-KI zu senken und Innovation und Vielfalt in diesem Bereich zu fördern.


Relevante Themen