Common Voice: Mozilla stellt "größten öffentlichen Sprachdatensatz" bereit
Mozilla hat eigenen Angaben zufolge(öffnet im neuen Fenster) "den bisher größten öffentlichen transkribierten Sprachdatensatz" veröffentlicht. Gesammelt werden die nun verfügbaren Daten per Crowd-Sourcing im Rahmen des Projekts Common Voice, das Mozilla erstmals im Herbst 2017 vorstellte und im vergangenen Jahr auf mehrere Sprachen ausgeweitet hat.
Der nun verfügbare Datensatz steht unter der CC-0-Lizenz, ist damit praktisch gemeinfrei und umfasst rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen in 18 Sprachen. Darunter sind die viel gesprochenen Sprachen Englisch, Französisch, Deutsch oder auch Mandarin-Chinesisch sowie Sprachen mit einem vergleichsweise sehr kleinen Sprecherkreis Walisisch oder die Berbersprache Kabylisch.
Ziel von Common Voice ist es, einen möglichst großen und vor allem sehr vielfältigen Datensatz zu erstellen. Das betreffe vor allem die Unterschiedlichkeit der Sprecher in Bezug auf Herkunft, Alter, Geschlecht oder auch Akzent. Das soll dazu beitragen, dass Spracherkennungssysteme, die auf Common Voice aufbauen wie Mozillas eigenes Deep-Speech-Projekt, besser und gezielter trainiert werden können.

Ebenso ist das Projekt insbesondere für jene Sprechergemeinschaften attraktiv, für die es sich für große Anbieter aus kommerziellen Gesichtspunkten nicht lohnt, in die Sprachdaten und -erkennung zu investieren. Hierbei hilft aber nicht nur die weltweite Community von Mozilla. Das Unternehmen startet auch eigene Initiativen wie etwa eine Kooperation mit der GIZ, um einen Korpus für Kinyarwanda aufzubauen, was das Unternehmen in einem Blog-Eintrag(öffnet im neuen Fenster) näher beschreibt.
- Anzeige Hier geht es zu Linux: Das umfassende Handbuch bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



