Machine Learning: Mozilla veröffentlicht aktuellen Corpus für Common Voice
Die Sprachdaten von Mozillas Common Voice umfassen inzwischen fast 100 Sprachen und rund 21.000 Stunden Aufnahmen.

Die Mozilla Foundation hat mit dem Common Voice Corpus 10 einen aktuellen Datensatz an Sprachsamples zur Forschung und freien Weiternutzung veröffentlicht. Das berichtet der Blogger und Entwickler Sören Hentzschel. Der neue Datensatz deckt insgesamt 96 Sprachen ab. Drei Sprachen sind neu hinzugekommen.
Für 30 dieser Sprachen gibt es jeweils über 100 Stunden Trainingsmaterial. Der deutschsprachige Satz kommt mit Sprachdaten von über 1.200 Stunden und rund 2.005.400 Datensätzen von rund 17.100 Sprechern. Der Download des deutschen Satzes beträgt rund 29 GByte. Über alle unterstützten Sprachen hinweg umfasst der Common Voice Corpus 10 rund 20.800 Stunden aufgenommene Sprachdaten. Auf der dazugehörigen Download-Seite lässt sich die gewünschte Sprache auswählen.
Das Common Voice Projekt will dem Missstand begegnen, dass Entwickler von Sprachtechnologie kaum freien Zugang zu Trainingsdaten haben, da diese meist teuer zu beschaffen und damit großen Konzernen vorbehalten seien. Damit werde die Entwicklung von Sprachtechnologie gehemmt, so die Foundation. Für Entwickler, die mit Spracherkennung und ähnlichen Technologien experimentieren, ist dieser Datensatz ein unschätzbarer Vorteil, wenn es darum geht, ihre Anwendungen in den Bereichen KI und Machine Learning zu trainieren. Für einzelne Entwickler oder kleine Studios ist es ansonsten schwer, an geeignete Trainingsdaten zu kommen.
Unterstützt werden die Arbeiten an Common Voice von Nvidia mit einem Investment von 1,5 Millionen US-Dollar in das Projekt, wie die Initiative im vergangenen Jahr mitteilte. Mit dem Geld des GPU-Herstellers sollte der Datenbestand weiter ausgebaut werden und es sollten Mitarbeiter eingestellt werden, kündigte Mozilla daraufhin an. Zudem gab es eine Förderung in Höhe von 3,4 Millionen US-Dollar seitens der Bill und Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit und des britischen Foreign Commonwealth & Development Office.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Während Mozillas eigenes Projekt Deepspeech eingestellt bzw. von der Berliner Firma Coqui...
Kommentieren