Common Voice: Mozilla stellt "größten öffentlichen Sprachdatensatz" bereit

In dem Projekt Common Voice sammelt Mozilla transkribierte freie Sprachdaten, um damit zum Beispiel eine freie Spracherkennung zu bauen. Mozilla hat nun den Datensatz für 18 Sprachen aus 1.400 Stunden Sprachsamples von mehr als 42.000 Beitragenden veröffentlicht.

Artikel veröffentlicht am ,
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt.
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt. (Bild: Mozilla)

Mozilla hat eigenen Angaben zufolge "den bisher größten öffentlichen transkribierten Sprachdatensatz" veröffentlicht. Gesammelt werden die nun verfügbaren Daten per Crowd-Sourcing im Rahmen des Projekts Common Voice, das Mozilla erstmals im Herbst 2017 vorstellte und im vergangenen Jahr auf mehrere Sprachen ausgeweitet hat.

Der nun verfügbare Datensatz steht unter der CC-0-Lizenz, ist damit praktisch gemeinfrei und umfasst rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen in 18 Sprachen. Darunter sind die viel gesprochenen Sprachen Englisch, Französisch, Deutsch oder auch Mandarin-Chinesisch sowie Sprachen mit einem vergleichsweise sehr kleinen Sprecherkreis Walisisch oder die Berbersprache Kabylisch.

Ziel von Common Voice ist es, einen möglichst großen und vor allem sehr vielfältigen Datensatz zu erstellen. Das betreffe vor allem die Unterschiedlichkeit der Sprecher in Bezug auf Herkunft, Alter, Geschlecht oder auch Akzent. Das soll dazu beitragen, dass Spracherkennungssysteme, die auf Common Voice aufbauen wie Mozillas eigenes Deep-Speech-Projekt, besser und gezielter trainiert werden können.

Ebenso ist das Projekt insbesondere für jene Sprechergemeinschaften attraktiv, für die es sich für große Anbieter aus kommerziellen Gesichtspunkten nicht lohnt, in die Sprachdaten und -erkennung zu investieren. Hierbei hilft aber nicht nur die weltweite Community von Mozilla. Das Unternehmen startet auch eigene Initiativen wie etwa eine Kooperation mit der GIZ, um einen Korpus für Kinyarwanda aufzubauen, was das Unternehmen in einem Blog-Eintrag näher beschreibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ungewöhnlicher Kundenservice
Wie ich meine neuen Kopfhörer mit dem Hammer zerschlug

Normalerweise muss man sich in einem Garantiefall nicht dabei filmen, wie man das defekte Produkt zerstört. Ich schon - nur so bekam ich einen Ersatz für meinen Kopfhörer.
Ein Erfahrungsbericht von Tobias Költzsch

Ungewöhnlicher Kundenservice: Wie ich meine neuen Kopfhörer mit dem Hammer zerschlug
Artikel
  1. Deutschland auf Platz 3: Millionen von SSH-Servern anfällig für Terrapin-Angriff
    Deutschland auf Platz 3
    Millionen von SSH-Servern anfällig für Terrapin-Angriff

    Allein in Deutschland gibt es mehr als eine Million über das Internet erreichbare SSH-Server, die nicht gegen Terrapin gepatcht sind.

  2. Festnetz- und Mobilfunk: Telefónica beginnt Massenentlassungen in Spanien
    Festnetz- und Mobilfunk
    Telefónica beginnt Massenentlassungen in Spanien

    Von 16.500 Arbeitsplätzen beim Telefónica-Mutterkonzern soll rund ein Fünftel verschwinden. Der Stellenabbau betrifft vor allem Ältere.

  3. Streamer: Twitch verbietet vorgetäuschte Nacktheit
    Streamer
    Twitch verbietet vorgetäuschte Nacktheit

    Schwarze Balken über der scheinbar nackten Brust? Nicht erlaubt! Selbst wenn Unterwäsche hervorblitzt, verbietet Twitch solche Darstellungen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Crucial P3 Plus 4 TB + Acronis 194,83€ • MediaMarkt & Saturn: Gutscheinheft mit Rabattaktionen und 3 Games für 49€ • Alternate: Thermaltake-Produkte im Angebot • HP Victus 15.6" 144Hz (i5-13420H, 16 GB, RTX 3050) 777€ • MindStar: Corsair Vengeance RGB 64 GB DDR5-6000 199€ [Werbung]
    •  /