• IT-Karriere:
  • Services:

Common Voice: Mozilla stellt "größten öffentlichen Sprachdatensatz" bereit

In dem Projekt Common Voice sammelt Mozilla transkribierte freie Sprachdaten, um damit zum Beispiel eine freie Spracherkennung zu bauen. Mozilla hat nun den Datensatz für 18 Sprachen aus 1.400 Stunden Sprachsamples von mehr als 42.000 Beitragenden veröffentlicht.

Artikel veröffentlicht am ,
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt.
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt. (Bild: Mozilla)

Mozilla hat eigenen Angaben zufolge "den bisher größten öffentlichen transkribierten Sprachdatensatz" veröffentlicht. Gesammelt werden die nun verfügbaren Daten per Crowd-Sourcing im Rahmen des Projekts Common Voice, das Mozilla erstmals im Herbst 2017 vorstellte und im vergangenen Jahr auf mehrere Sprachen ausgeweitet hat.

Stellenmarkt
  1. UnternehmerTUM GmbH, Garching / München
  2. Stadt Frankfurt am Main, Frankfurt am Main

Der nun verfügbare Datensatz steht unter der CC-0-Lizenz, ist damit praktisch gemeinfrei und umfasst rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen in 18 Sprachen. Darunter sind die viel gesprochenen Sprachen Englisch, Französisch, Deutsch oder auch Mandarin-Chinesisch sowie Sprachen mit einem vergleichsweise sehr kleinen Sprecherkreis Walisisch oder die Berbersprache Kabylisch.

Ziel von Common Voice ist es, einen möglichst großen und vor allem sehr vielfältigen Datensatz zu erstellen. Das betreffe vor allem die Unterschiedlichkeit der Sprecher in Bezug auf Herkunft, Alter, Geschlecht oder auch Akzent. Das soll dazu beitragen, dass Spracherkennungssysteme, die auf Common Voice aufbauen wie Mozillas eigenes Deep-Speech-Projekt, besser und gezielter trainiert werden können.

Ebenso ist das Projekt insbesondere für jene Sprechergemeinschaften attraktiv, für die es sich für große Anbieter aus kommerziellen Gesichtspunkten nicht lohnt, in die Sprachdaten und -erkennung zu investieren. Hierbei hilft aber nicht nur die weltweite Community von Mozilla. Das Unternehmen startet auch eigene Initiativen wie etwa eine Kooperation mit der GIZ, um einen Korpus für Kinyarwanda aufzubauen, was das Unternehmen in einem Blog-Eintrag näher beschreibt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. Inno3D GeForce RTX 3090 Gaming X3 für 1.724€)
  2. (u. a. Xbox Wireless Controller Robot White für 59,99€)

Ach 01. Mär 2019

Absolut, super geschrieben! Sich in die Cloud verabschiedet habende Softwaretools wieder...

Vogel22 01. Mär 2019

LibriSpeech ist ein ähnliches Projekt. Ein freier Read-Speech-Korpus auf Englisch mit 1k...


Folgen Sie uns
       


Radeon RX 6800 (XT) im Test mit Benchmarks

Lange hatte AMD bei Highend-Grafikkarten nichts zu melden, mit den Radeon RX 6800 (XT) kehrt die Gaming-Konkurrenz zurück.

Radeon RX 6800 (XT) im Test mit Benchmarks Video aufrufen
Moodle: Was den Lernraum Berlin in die Knie zwang
Moodle
Was den Lernraum Berlin in die Knie zwang

Eine übermäßig große Datenbank und schlecht optimierte Abfragen in Moodle führten zu Ausfällen in der Online-Lernsoftware.
Eine Recherche von Hanno Böck


    Antivirus: Das Jahr der unsicheren Sicherheitssoftware
    Antivirus
    Das Jahr der unsicheren Sicherheitssoftware

    Antivirus-Software soll uns eigentlich schützen, doch das vergangene Jahr hat erneut gezeigt: Statt Schutz gibt es Sicherheitsprobleme frei Haus.
    Von Moritz Tremmel

    1. NortonLifeLock Norton kauft deutschen Antivirenhersteller Avira
    2. Sicherheitslücke 28 Antivirenprogramme konnten sich selbst zerstören

    Azure Active Directory: Weniger Verzeichnisdienst, mehr Tresor
    Azure Active Directory
    Weniger Verzeichnisdienst, mehr Tresor

    Microsofts bekannten Verzeichnisdienst Active Directory gibt es inzwischen auch in der Cloud des Herstellers. Golem.de zeigt, wie er dort funktioniert.
    Von Martin Loschwitz

    1. Microsoft Neue Datenschutzregeln für Sprachsteuerung
    2. Microsoft Betrüger erbeuten 20.000 Euro von Rentnerin
    3. Windows 10 20H2 Microsoft hebt Update-Sperre für einige Windows-PCs auf

      •  /