Abo
  • Services:

Common Voice sammelt freie Sprachdaten

Zusätzlich zu dem trainierten Modell sowie dem dazugehörigen Code stellt Mozilla einen sehr großen Korpus mit Sprachaufnahmen bereit. Laut Mozilla ist das sogar schon der zweitgrößte frei verfügbare Datensatz mit Sprachaufnahmen. Gesammelt worden sind diese Sprachaufzeichnungen über das Mozilla-Projekt Common Voice. Bisher umfassen die Daten von Common Voice "400.000 einzelne Aufnahmen von 20.000 verschiedenen Personen, was 500 Stunden gesprochene Sprache ergibt".

Stellenmarkt
  1. ING-DiBa AG, Nürnberg
  2. BWI GmbH, verschiedene Standorte

Der Name Common Voice sei dabei in Anlehnung an die Creative Commons gewählt, erklärt Michael Henretty, Digital Strategist bei Mozilla Open Innovation, und damit natürlich auch auf das Konzept der Commons, also eines frei verfügbaren Allgemeingutes. Die Idee zu Common Voice ist im Prinzip aus dem Deep-Speech-Projekt heraus entstanden, erklärt Henretty. Das freie Modell sollte durch freie Quelldaten begleitet werden. Analog zu Deep Speech soll auch der freie Datensatz von Common Voice helfen, die Einstiegshürden in die Nutzung von Spracherkennungssystemen zu überwinden.

Ein weiterer Vorteil von Common Voice, vor allem mit Blick auf Deep Speech, sei laut Henretty, dass die gesammelten Daten von sehr diversen Sprechern stamme, immerhin könne jeder auf der Welt einfach zu der Sammlung beitragen. Diese Diversität wiederum trage zu einer gewissen Robustheit der damit trainierten Spracherkennung bei, da auch Unterschiede in der Aussprache wie etwa verschiedene Akzente besser abgebildet werden können.

Ein noch großes Problem für Common Voice ist die Auswahl der Vorlesematerials für die Sprachaufzeichnungen. Diese müssen gemeinfrei oder CC-0-lizenziert sein, um auch die aufgezeichneten Daten unter entsprechender Lizenz veröffentlichen zu können. Historisch gemeinfreie Werke wie Bücher nutzten aber eine im Gegensatz zu heute klar veraltete Sprache, die so wohl kein Sprecher mehr verwenden würde. Deshalb bittet das Common-Voice-Projekt darum, zum Beispiel auch aktuelle Blog-Einträge oder Ähnliches zu "spenden".

Bisher stehen die Daten von Common Voice nur in Englisch zur Verfügung, das soll aber ebenfalls im kommenden Jahr auf weitere Sprachen ausgeweitet werden. Die Mozilla-Community ist hier eine wichtige Stütze, diese hat teils schon vor Wochen oder Monaten damit angefangen, die Webseite und App zum Sammeln der Daten in andere Sprachen zu übersetzen und nach passendem Quellmaterial zu suchen.

 Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  1.  
  2. 1
  3. 2


Anzeige
Top-Angebote
  1. (u. a. SanDisk SSD Plus 1 TB für 99€ + Versand oder Marktabholung)
  2. 339€ (Bestpreis!)
  3. 259€ + Versand

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Cinebench R20 auf Threadripper 2950X ausprobiert

Cinebench R20 soll mit bis zu 256 Threads umgehen können.

Cinebench R20 auf Threadripper 2950X ausprobiert Video aufrufen
Verschlüsselung: Die meisten Nutzer brauchen kein VPN
Verschlüsselung
Die meisten Nutzer brauchen kein VPN

VPN-Anbieter werben aggressiv und preisen ihre Produkte als Allheilmittel in Sachen Sicherheit an. Doch im modernen Internet nützen sie wenig und bringen oft sogar Gefahren mit sich.
Eine Analyse von Hanno Böck

  1. Security Wireguard-VPN für MacOS erschienen
  2. Security Wireguard-VPN für iOS verfügbar
  3. Outline Digitalocean und Alphabet-Tochter bieten individuelles VPN

Fido-Sticks im Test: Endlich schlechte Passwörter
Fido-Sticks im Test
Endlich schlechte Passwörter

Sicher mit nur einer PIN oder einem schlechten Passwort: Fido-Sticks sollen auf Tastendruck Zwei-Faktor-Authentifizierung oder passwortloses Anmelden ermöglichen. Golem.de hat getestet, ob sie halten, was sie versprechen.
Ein Test von Moritz Tremmel

  1. Datenschutz Facebook speicherte Millionen Passwörter im Klartext
  2. E-Mail-Marketing Datenbank mit 800 Millionen E-Mail-Adressen online
  3. Webauthn Standard für passwortloses Anmelden verabschiedet

Google: Stadia tritt gegen Gaming-PCs, Playstation und Xbox an
Google
Stadia tritt gegen Gaming-PCs, Playstation und Xbox an

GDC 2019 Google streamt nicht nur so ein bisschen - stattdessen tritt der Konzern mit Stadia in direkte Konkurrenz zur etablierten Spielebranche. Entwickler können für ihre Games mehr Teraflops verwenden als auf der PS4 Pro und der Xbox One X zusammen.
Von Peter Steinlechner


      •  /