Abo
  • Services:

Common Voice: Mozilla stellt "größten öffentlichen Sprachdatensatz" bereit

In dem Projekt Common Voice sammelt Mozilla transkribierte freie Sprachdaten, um damit zum Beispiel eine freie Spracherkennung zu bauen. Mozilla hat nun den Datensatz für 18 Sprachen aus 1.400 Stunden Sprachsamples von mehr als 42.000 Beitragenden veröffentlicht.

Artikel veröffentlicht am ,
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt.
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt. (Bild: Mozilla)

Mozilla hat eigenen Angaben zufolge "den bisher größten öffentlichen transkribierten Sprachdatensatz" veröffentlicht. Gesammelt werden die nun verfügbaren Daten per Crowd-Sourcing im Rahmen des Projekts Common Voice, das Mozilla erstmals im Herbst 2017 vorstellte und im vergangenen Jahr auf mehrere Sprachen ausgeweitet hat.

Stellenmarkt
  1. Kliniken Schmieder, Allensbach am Bodensee
  2. EWM AG, Mündersbach

Der nun verfügbare Datensatz steht unter der CC-0-Lizenz, ist damit praktisch gemeinfrei und umfasst rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen in 18 Sprachen. Darunter sind die viel gesprochenen Sprachen Englisch, Französisch, Deutsch oder auch Mandarin-Chinesisch sowie Sprachen mit einem vergleichsweise sehr kleinen Sprecherkreis Walisisch oder die Berbersprache Kabylisch.

Ziel von Common Voice ist es, einen möglichst großen und vor allem sehr vielfältigen Datensatz zu erstellen. Das betreffe vor allem die Unterschiedlichkeit der Sprecher in Bezug auf Herkunft, Alter, Geschlecht oder auch Akzent. Das soll dazu beitragen, dass Spracherkennungssysteme, die auf Common Voice aufbauen wie Mozillas eigenes Deep-Speech-Projekt, besser und gezielter trainiert werden können.

Ebenso ist das Projekt insbesondere für jene Sprechergemeinschaften attraktiv, für die es sich für große Anbieter aus kommerziellen Gesichtspunkten nicht lohnt, in die Sprachdaten und -erkennung zu investieren. Hierbei hilft aber nicht nur die weltweite Community von Mozilla. Das Unternehmen startet auch eigene Initiativen wie etwa eine Kooperation mit der GIZ, um einen Korpus für Kinyarwanda aufzubauen, was das Unternehmen in einem Blog-Eintrag näher beschreibt.



Anzeige
Top-Angebote
  1. für 99€ auf otto.de
  2. 88,99€ (Bestpreis!)
  3. 56,99€ (Top-Produkt PCGH 12/2017)
  4. 65,99€ + Versand oder Marktabholung

Ach 01. Mär 2019 / Themenstart

Absolut, super geschrieben! Sich in die Cloud verabschiedet habende Softwaretools wieder...

Vogel22 01. Mär 2019 / Themenstart

LibriSpeech ist ein ähnliches Projekt. Ein freier Read-Speech-Korpus auf Englisch mit 1k...

Kommentieren


Folgen Sie uns
       


Far Cry New Dawn - Test

Far Cry New Dawn ist eine wesentlich rundere und damit spaßigere Version von Far Cry 5 - wenn man über den Ingame-Shop hinwegsieht.

Far Cry New Dawn - Test Video aufrufen
Verschlüsselung: Die meisten Nutzer brauchen kein VPN
Verschlüsselung
Die meisten Nutzer brauchen kein VPN

VPN-Anbieter werben aggressiv und preisen ihre Produkte als Allheilmittel in Sachen Sicherheit an. Doch im modernen Internet nützen sie wenig und bringen oft sogar Gefahren mit sich.
Eine Analyse von Hanno Böck

  1. Security Wireguard-VPN für MacOS erschienen
  2. Security Wireguard-VPN für iOS verfügbar
  3. Outline Digitalocean und Alphabet-Tochter bieten individuelles VPN

Fido-Sticks im Test: Endlich schlechte Passwörter
Fido-Sticks im Test
Endlich schlechte Passwörter

Sicher mit nur einer PIN oder einem schlechten Passwort: Fido-Sticks sollen auf Tastendruck Zwei-Faktor-Authentifizierung oder passwortloses Anmelden ermöglichen. Golem.de hat getestet, ob sie halten, was sie versprechen.
Ein Test von Moritz Tremmel

  1. Datenschutz Facebook speicherte Millionen Passwörter im Klartext
  2. E-Mail-Marketing Datenbank mit 800 Millionen E-Mail-Adressen online
  3. Webauthn Standard für passwortloses Anmelden verabschiedet

FreeNAS und Windows 10: Der erste NAS-Selbstbau macht glücklich
FreeNAS und Windows 10
Der erste NAS-Selbstbau macht glücklich

Es ist gar nicht so schwer, wie es aussieht: Mit dem Betriebssystem FreeNAS, den richtigen Hardwarekomponenten und Tutorials baue ich mir zum ersten Mal ein NAS-System auf und lerne auf diesem Weg viel darüber - auch warum es Spaß macht, selbst zu bauen, statt fertig zu kaufen.
Ein Erfahrungsbericht von Oliver Nickel

  1. TS-332X Qnaps Budget-NAS mit drei M.2-Slots und 10-GBit-Ethernet

    •  /