Common Voice: Mozilla erweitert freien Sprachdatensatz massiv
Die Sprachdaten von Common Voice sollen helfen, zum Beispiel eine freie Spracherkennung zu bauen. Mozilla erweitert die Sammlung um Tausende Stunden.

Die Mozilla Foundation hat das Common-Voice-Projekt um 16 neue Sprachen wie etwa Basaa und Kasachisch sowie um 4.622 zusätzliche Sprachstunden erweitert, teilt die Organisation mit.
Das Common Voice Projekt will dem Missstand begegnen, dass Entwickler von Sprachtechnologie kaum Zugang zu Trainingsdaten haben, da diese teuer zu beschaffen und damit großen Konzernen vorbehalten seien. Damit werde die Entwicklung von Sprachtechnologie gehemmt, so die Foundation.
Mithilfe von Common Voice können die Teilnehmer am Projekt Sprachdaten für einen öffentlichen Datensatz spenden, der dann von allen für das Training sprachgesteuerter Technologien genutzt werden kann. Die jüngsten Updates umfassen die neuen Sprachen Basaa, Slowakisch, Nordkurdisch, Bulgarisch, Kasachisch, Baschkirisch, Galizisch, Uigurisch, Armenisch, Weißrussisch, Urdu, Guarani, Serbisch, Usbekisch, Aserbaidschanisch und Hausa.
In den Statistiken des Projekts heißt es, dass die fünf wichtigsten Sprachen nach Gesamtstundenzahl Englisch (2.630 Stunden), Kinyarwanda (2.260), Deutsch (1.040), Katalanisch (920) und Esperanto (840) sind.
Viel Förderung für Common Voice
Unterstützt werden die Arbeiten an Common Voice von Nvidia mit einem Investment von 1,5 Millionen US-Dollar in das Projekt. Mit dem Geld des GPU-Herstellers soll der Datenbestand weiter ausgebaut werden und es sollen Mitarbeiter eingestellt werden, hat Mozilla daraufhin angekündigt.
Zudem gab es eine Förderung in Höhe von 3,4 Millionen US-Dollar seitens der Bill und Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit und des britischen Foreign Commonwealth & Development Office. Mit diesem Geld sollen Sprachdatensätze in Kisuaheli aufgebaut werden, einer ostafrikanischen Sprache, die von schätzungsweise 100 Millionen Menschen in Kenia gesprochen wird, teilte Mozilla mit.
Auf Grundlage von Common Voice hatte Mozilla mit Deep Speech zuerst noch selbst an einem eigenen freien Sprachmodell gearbeitet. Zuletzt war Deepspeech aber auch von der Entlassungswelle bei Mozilla betroffen und die daran beteiligten Forscher gründeten daraufhin ein Startup, um ihre Arbeit weiterführen zu können.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Danke für den Link, habe mich auch gewundert, wieso die Sprache so viele Daten hat...