Abo
  • IT-Karriere:

Common Voice: Mozilla stellt "größten öffentlichen Sprachdatensatz" bereit

In dem Projekt Common Voice sammelt Mozilla transkribierte freie Sprachdaten, um damit zum Beispiel eine freie Spracherkennung zu bauen. Mozilla hat nun den Datensatz für 18 Sprachen aus 1.400 Stunden Sprachsamples von mehr als 42.000 Beitragenden veröffentlicht.

Artikel veröffentlicht am ,
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt.
Mozilla hat seinen Common-Voice-Datensatz bereitgestellt. (Bild: Mozilla)

Mozilla hat eigenen Angaben zufolge "den bisher größten öffentlichen transkribierten Sprachdatensatz" veröffentlicht. Gesammelt werden die nun verfügbaren Daten per Crowd-Sourcing im Rahmen des Projekts Common Voice, das Mozilla erstmals im Herbst 2017 vorstellte und im vergangenen Jahr auf mehrere Sprachen ausgeweitet hat.

Stellenmarkt
  1. Lebensversicherung von 1871 a. G. München, München
  2. Sanacorp Pharmahandel GmbH, Planegg bei München

Der nun verfügbare Datensatz steht unter der CC-0-Lizenz, ist damit praktisch gemeinfrei und umfasst rund 1.400 Stunden an Sprachaufzeichnungen von mehr als 42.000 Personen in 18 Sprachen. Darunter sind die viel gesprochenen Sprachen Englisch, Französisch, Deutsch oder auch Mandarin-Chinesisch sowie Sprachen mit einem vergleichsweise sehr kleinen Sprecherkreis Walisisch oder die Berbersprache Kabylisch.

Ziel von Common Voice ist es, einen möglichst großen und vor allem sehr vielfältigen Datensatz zu erstellen. Das betreffe vor allem die Unterschiedlichkeit der Sprecher in Bezug auf Herkunft, Alter, Geschlecht oder auch Akzent. Das soll dazu beitragen, dass Spracherkennungssysteme, die auf Common Voice aufbauen wie Mozillas eigenes Deep-Speech-Projekt, besser und gezielter trainiert werden können.

Ebenso ist das Projekt insbesondere für jene Sprechergemeinschaften attraktiv, für die es sich für große Anbieter aus kommerziellen Gesichtspunkten nicht lohnt, in die Sprachdaten und -erkennung zu investieren. Hierbei hilft aber nicht nur die weltweite Community von Mozilla. Das Unternehmen startet auch eigene Initiativen wie etwa eine Kooperation mit der GIZ, um einen Korpus für Kinyarwanda aufzubauen, was das Unternehmen in einem Blog-Eintrag näher beschreibt.



Anzeige
Spiele-Angebote
  1. 4,56€
  2. (-78%) 4,39€
  3. 2,80€

Ach 01. Mär 2019

Absolut, super geschrieben! Sich in die Cloud verabschiedet habende Softwaretools wieder...

Vogel22 01. Mär 2019

LibriSpeech ist ein ähnliches Projekt. Ein freier Read-Speech-Korpus auf Englisch mit 1k...


Folgen Sie uns
       


Xiaomi Mi 9T Pro - Fazit

Das Mi 9T Pro von Xiaomi ist eines der ersten Smartphones, das der chinesische Hersteller offiziell in Deutschland anbietet. Im Test überzeugt das Gerät durch sehr gute Hardware zu einem verhältnismäßig geringen Preis.

Xiaomi Mi 9T Pro - Fazit Video aufrufen
Deutsche Bahn: Die Bauzeit verzögert sich um wenige Jahre ...
Deutsche Bahn
Die Bauzeit verzögert sich um wenige Jahre ...

Dass der Bau neuer Bahnstrecken Jahrzehnte dauert, soll sich ändern. Aber jetzt wird die Klage einer Bürgerinitiative verhandelt, die alles noch verschlimmern könnte.
Eine Reportage von Caspar Schwietering

  1. DB Cargo Wagon Intelligence Die Hälfte der Güterwagen hat Funkmodule mit Sensorik
  2. Schienenverkehr Die Bahn hat wieder eine Vision
  3. DB Navigator Deutsche Bahn lädt iOS-Nutzer in Betaphase ein

Galaxy Fold im Hands on: Samsung hat sein faltbares Smartphone gerettet
Galaxy Fold im Hands on
Samsung hat sein faltbares Smartphone gerettet

Ifa 2019 Samsungs Überarbeitungen beim Galaxy Fold haben sich gelohnt: Das Gelenk wirkt stabil und dicht, die Schutzfolie ist gut in den Rahmen eingearbeitet. Im ersten Test von Golem.de haben wir trotz aller guten Eindrücke Bedenken hinsichtlich der Kratzempfindlichkeit des Displays.
Ein Hands on von Tobias Költzsch

  1. Orbi AX6000 Netgears Wi-Fi-6-Mesh-System ist teuer
  2. Motorola Tech 3 Bluetooth-Hörstöpsel sind auch mit Kabel nutzbar
  3. Wegen US-Sanktionen Huawei bringt Mate 30 ohne Play Store und Google Maps

MX Series im Hands on: Logitechs edle Eingabegeräte
MX Series im Hands on
Logitechs edle Eingabegeräte

Beleuchtet, tolles Tippgefühl und kabellos, dazu eine Maus mit magnetischem Schweizer Präzisionsrad: Logitech hat neue Eingabegeräte für seine Premium-Reihe veröffentlicht - beide unterstützen USB Typ C. Golem.de konnte MX Keys und MX Master 3 unter Windows und MacOS bereits ausprobieren.
Ein Hands on von Peter Steinlechner

  1. Unifying Sicherheitsupdate für Logitech-Tastaturen umgangen
  2. Gaming Logitech bringt mechanische Tastaturen mit flachen Schaltern
  3. Logitacker Kabellose Logitech-Tastaturen leicht zu hacken

    •  /