Common Voice: Mozilla erweitert freien Sprachdatensatz massiv

Die Sprachdaten von Common Voice sollen helfen, zum Beispiel eine freie Spracherkennung zu bauen. Mozilla erweitert die Sammlung um Tausende Stunden.

Artikel veröffentlicht am , Ulrich Bantle/Linux Magazin/
Common Voice wird beständig größer.
Common Voice wird beständig größer. (Bild: Mozilla)

Die Mozilla Foundation hat das Common-Voice-Projekt um 16 neue Sprachen wie etwa Basaa und Kasachisch sowie um 4.622 zusätzliche Sprachstunden erweitert, teilt die Organisation mit.

Stellenmarkt
  1. SAP FI/CO Berater (m/w/x)
    über duerenhoff GmbH, Hannover
  2. Senior Consultant IT-Operation (m/w/d)
    operational services GmbH & Co. KG, Frankfurt am Main
Detailsuche

Das Common Voice Projekt will dem Missstand begegnen, dass Entwickler von Sprachtechnologie kaum Zugang zu Trainingsdaten haben, da diese teuer zu beschaffen und damit großen Konzernen vorbehalten seien. Damit werde die Entwicklung von Sprachtechnologie gehemmt, so die Foundation.

Mithilfe von Common Voice können die Teilnehmer am Projekt Sprachdaten für einen öffentlichen Datensatz spenden, der dann von allen für das Training sprachgesteuerter Technologien genutzt werden kann. Die jüngsten Updates umfassen die neuen Sprachen Basaa, Slowakisch, Nordkurdisch, Bulgarisch, Kasachisch, Baschkirisch, Galizisch, Uigurisch, Armenisch, Weißrussisch, Urdu, Guarani, Serbisch, Usbekisch, Aserbaidschanisch und Hausa.

In den Statistiken des Projekts heißt es, dass die fünf wichtigsten Sprachen nach Gesamtstundenzahl Englisch (2.630 Stunden), Kinyarwanda (2.260), Deutsch (1.040), Katalanisch (920) und Esperanto (840) sind.

Viel Förderung für Common Voice

Golem Akademie
  1. Linux-Shellprogrammierung
    2.-5. November 2021, online
  2. Einführung in die Programmierung mit Rust
    21.-24. September 2021, online
  3. OpenShift Installation & Administration
    31. Januar-2. Februar 2022, online
Weitere IT-Trainings

Unterstützt werden die Arbeiten an Common Voice von Nvidia mit einem Investment von 1,5 Millionen US-Dollar in das Projekt. Mit dem Geld des GPU-Herstellers soll der Datenbestand weiter ausgebaut werden und es sollen Mitarbeiter eingestellt werden, hat Mozilla daraufhin angekündigt.

Zudem gab es eine Förderung in Höhe von 3,4 Millionen US-Dollar seitens der Bill und Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit und des britischen Foreign Commonwealth & Development Office. Mit diesem Geld sollen Sprachdatensätze in Kisuaheli aufgebaut werden, einer ostafrikanischen Sprache, die von schätzungsweise 100 Millionen Menschen in Kenia gesprochen wird, teilte Mozilla mit.

Auf Grundlage von Common Voice hatte Mozilla mit Deep Speech zuerst noch selbst an einem eigenen freien Sprachmodell gearbeitet. Zuletzt war Deepspeech aber auch von der Entlassungswelle bei Mozilla betroffen und die daran beteiligten Forscher gründeten daraufhin ein Startup, um ihre Arbeit weiterführen zu können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Datenleck
Daten von 106 Millionen Thailand-Reisenden geleakt

In einer ungeschützten Datenbank fanden sich die Daten der Thailand-Reisenden aus den letzten zehn Jahren - inklusive Reisepassnummern.

Datenleck: Daten von 106 Millionen Thailand-Reisenden geleakt
Artikel
  1. Weihnachtsgeschäft: Amazon benötigt wieder 10.000 Saisonkräfte
    Weihnachtsgeschäft
    Amazon benötigt wieder 10.000 Saisonkräfte

    Amazon stellt im Weihnachtsgeschäft wieder viele Befristete ein und zahlt angeblich 12 Euro brutto.

  2. Betriebssystem: Einige Windows-11-Apps funktionieren nicht ohne Internet
    Betriebssystem
    Einige Windows-11-Apps funktionieren nicht ohne Internet

    Um Platz zu sparen, müssen sich einige vorinstallierte Windows-11-Apps mit dem Internet verbinden. Auch ein Microsoft-Konto ist dafür nötig.

  3. Zynga: Farmville 3 setzt auf Schweinchen
    Zynga
    Farmville 3 setzt auf Schweinchen

    Echte Gamer hassen Farmville - wenn sie nicht selbst heimlich spielen. Jetzt hat Zynga den dritten Teil vorgestellt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Asus 23,8" FHD 144Hz 166,90€ • PS5 bei Amazon zu gewinnen • PCGH-PC mit Ryzen 5 & RTX 3060 999€ • Corsair MP600 Pro 1TB mit Heatspreader PS5-kompatibel 162,90€ • Alternate (u. a. Asus WLAN-Adapter PCIe 24,90€) • MM-Prospekt (u. a. Asus TUF 17" i5 RTX 3050 1.099€) [Werbung]
    •  /