Common Voice: Mozilla erweitert freien Sprachdatensatz massiv

Die Sprachdaten von Common Voice sollen helfen, zum Beispiel eine freie Spracherkennung zu bauen. Mozilla erweitert die Sammlung um Tausende Stunden.

Artikel veröffentlicht am , Ulrich Bantle/Linux Magazin/
Common Voice wird beständig größer.
Common Voice wird beständig größer. (Bild: Mozilla)

Die Mozilla Foundation hat das Common-Voice-Projekt um 16 neue Sprachen wie etwa Basaa und Kasachisch sowie um 4.622 zusätzliche Sprachstunden erweitert, teilt die Organisation mit.

Das Common Voice Projekt will dem Missstand begegnen, dass Entwickler von Sprachtechnologie kaum Zugang zu Trainingsdaten haben, da diese teuer zu beschaffen und damit großen Konzernen vorbehalten seien. Damit werde die Entwicklung von Sprachtechnologie gehemmt, so die Foundation.

Mithilfe von Common Voice können die Teilnehmer am Projekt Sprachdaten für einen öffentlichen Datensatz spenden, der dann von allen für das Training sprachgesteuerter Technologien genutzt werden kann. Die jüngsten Updates umfassen die neuen Sprachen Basaa, Slowakisch, Nordkurdisch, Bulgarisch, Kasachisch, Baschkirisch, Galizisch, Uigurisch, Armenisch, Weißrussisch, Urdu, Guarani, Serbisch, Usbekisch, Aserbaidschanisch und Hausa.

In den Statistiken des Projekts heißt es, dass die fünf wichtigsten Sprachen nach Gesamtstundenzahl Englisch (2.630 Stunden), Kinyarwanda (2.260), Deutsch (1.040), Katalanisch (920) und Esperanto (840) sind.

Viel Förderung für Common Voice

Unterstützt werden die Arbeiten an Common Voice von Nvidia mit einem Investment von 1,5 Millionen US-Dollar in das Projekt. Mit dem Geld des GPU-Herstellers soll der Datenbestand weiter ausgebaut werden und es sollen Mitarbeiter eingestellt werden, hat Mozilla daraufhin angekündigt.

Zudem gab es eine Förderung in Höhe von 3,4 Millionen US-Dollar seitens der Bill und Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit und des britischen Foreign Commonwealth & Development Office. Mit diesem Geld sollen Sprachdatensätze in Kisuaheli aufgebaut werden, einer ostafrikanischen Sprache, die von schätzungsweise 100 Millionen Menschen in Kenia gesprochen wird, teilte Mozilla mit.

Auf Grundlage von Common Voice hatte Mozilla mit Deep Speech zuerst noch selbst an einem eigenen freien Sprachmodell gearbeitet. Zuletzt war Deepspeech aber auch von der Entlassungswelle bei Mozilla betroffen und die daran beteiligten Forscher gründeten daraufhin ein Startup, um ihre Arbeit weiterführen zu können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ungewöhnlicher Kundenservice
Wie ich meine neuen Kopfhörer mit dem Hammer zerschlug

Normalerweise muss man sich in einem Garantiefall nicht dabei filmen, wie man das defekte Produkt zerstört. Ich schon - nur so bekam ich einen Ersatz für meinen Kopfhörer.
Ein Erfahrungsbericht von Tobias Költzsch

Ungewöhnlicher Kundenservice: Wie ich meine neuen Kopfhörer mit dem Hammer zerschlug
Artikel
  1. Deutschland auf Platz 3: Millionen von SSH-Servern anfällig für Terrapin-Angriff
    Deutschland auf Platz 3
    Millionen von SSH-Servern anfällig für Terrapin-Angriff

    Allein in Deutschland gibt es mehr als eine Million über das Internet erreichbare SSH-Server, die nicht gegen Terrapin gepatcht sind.

  2. Festnetz- und Mobilfunk: Telefónica beginnt Massenentlassungen in Spanien
    Festnetz- und Mobilfunk
    Telefónica beginnt Massenentlassungen in Spanien

    Von 16.500 Arbeitsplätzen beim Telefónica-Mutterkonzern soll rund ein Fünftel verschwinden. Der Stellenabbau betrifft vor allem Ältere.

  3. Streamer: Twitch verbietet vorgetäuschte Nacktheit
    Streamer
    Twitch verbietet vorgetäuschte Nacktheit

    Schwarze Balken über der scheinbar nackten Brust? Nicht erlaubt! Selbst wenn Unterwäsche hervorblitzt, verbietet Twitch solche Darstellungen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial P3 Plus 4 TB + Acronis 194,83€ • MediaMarkt & Saturn: Gutscheinheft mit Rabattaktionen und 3 Games für 49€ • Alternate: Thermaltake-Produkte im Angebot • HP Victus 15.6" 144Hz (i5-13420H, 16 GB, RTX 3050) 777€ • MindStar: Corsair Vengeance RGB 64 GB DDR5-6000 199€ [Werbung]
    •  /