Abo
  • Services:

Common Voice sammelt freie Sprachdaten

Zusätzlich zu dem trainierten Modell sowie dem dazugehörigen Code stellt Mozilla einen sehr großen Korpus mit Sprachaufnahmen bereit. Laut Mozilla ist das sogar schon der zweitgrößte frei verfügbare Datensatz mit Sprachaufnahmen. Gesammelt worden sind diese Sprachaufzeichnungen über das Mozilla-Projekt Common Voice. Bisher umfassen die Daten von Common Voice "400.000 einzelne Aufnahmen von 20.000 verschiedenen Personen, was 500 Stunden gesprochene Sprache ergibt".

Stellenmarkt
  1. Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO, Stuttgart, Esslingen
  2. eco Verband der Internetwirtschaft e.V., Köln

Der Name Common Voice sei dabei in Anlehnung an die Creative Commons gewählt, erklärt Michael Henretty, Digital Strategist bei Mozilla Open Innovation, und damit natürlich auch auf das Konzept der Commons, also eines frei verfügbaren Allgemeingutes. Die Idee zu Common Voice ist im Prinzip aus dem Deep-Speech-Projekt heraus entstanden, erklärt Henretty. Das freie Modell sollte durch freie Quelldaten begleitet werden. Analog zu Deep Speech soll auch der freie Datensatz von Common Voice helfen, die Einstiegshürden in die Nutzung von Spracherkennungssystemen zu überwinden.

Ein weiterer Vorteil von Common Voice, vor allem mit Blick auf Deep Speech, sei laut Henretty, dass die gesammelten Daten von sehr diversen Sprechern stamme, immerhin könne jeder auf der Welt einfach zu der Sammlung beitragen. Diese Diversität wiederum trage zu einer gewissen Robustheit der damit trainierten Spracherkennung bei, da auch Unterschiede in der Aussprache wie etwa verschiedene Akzente besser abgebildet werden können.

Ein noch großes Problem für Common Voice ist die Auswahl der Vorlesematerials für die Sprachaufzeichnungen. Diese müssen gemeinfrei oder CC-0-lizenziert sein, um auch die aufgezeichneten Daten unter entsprechender Lizenz veröffentlichen zu können. Historisch gemeinfreie Werke wie Bücher nutzten aber eine im Gegensatz zu heute klar veraltete Sprache, die so wohl kein Sprecher mehr verwenden würde. Deshalb bittet das Common-Voice-Projekt darum, zum Beispiel auch aktuelle Blog-Einträge oder Ähnliches zu "spenden".

Bisher stehen die Daten von Common Voice nur in Englisch zur Verfügung, das soll aber ebenfalls im kommenden Jahr auf weitere Sprachen ausgeweitet werden. Die Mozilla-Community ist hier eine wichtige Stütze, diese hat teils schon vor Wochen oder Monaten damit angefangen, die Webseite und App zum Sammeln der Daten in andere Sprachen zu übersetzen und nach passendem Quellmaterial zu suchen.

 Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  1.  
  2. 1
  3. 2


Anzeige
Hardware-Angebote
  1. (reduzierte Überstände, Restposten & Co.)

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Apple Pay ausprobiert

Dank Apple Pay können nun auch Nutzer in Deutschland kontaktlos mit ihrem iPhone bezahlen. Wir haben den Dienst bei unserem Lieblingscafé ausprobiert.

Apple Pay ausprobiert Video aufrufen
Datenschutz: Nie da gewesene Kontrollmacht für staatliche Stellen
Datenschutz
"Nie da gewesene Kontrollmacht für staatliche Stellen"

Zur G20-Fahndung nutzt Hamburgs Polizei eine Software, die Gesichter von Hunderttausenden speichert. Schluss damit, sagt der Datenschutzbeauftragte - und wird ignoriert.
Ein Interview von Oliver Hollenstein

  1. Brexit-Abstimmung IT-Wirtschaft warnt vor Datenchaos in Europa
  2. Österreich Post handelt mit politischen Einstellungen
  3. Digitalisierung Bär stößt Debatte um Datenschutz im Gesundheitswesen an

IT-Jobs: Ein Jahr als Freelancer
IT-Jobs
Ein Jahr als Freelancer

Sicher träumen nicht wenige festangestellte Entwickler, Programmierer und andere ITler davon, sich selbstständig zu machen. Unser Autor hat vor einem Jahr den Schritt ins Vollzeit-Freelancertum gewagt und bilanziert: Vieles an der Selbstständigkeit ist gut, aber nicht alles. Und: Die Freiheit des Freelancers ist relativ.
Ein Erfahrungsbericht von Marvin Engel

  1. Job-Porträt Cyber-Detektiv "Ich musste als Ermittler über 1.000 Onanie-Videos schauen"
  2. Bundesagentur für Arbeit Ausbildungsplätze in der Informatik sind knapp
  3. IT-Jobs "Jedes Unternehmen kann es besser machen"

IT-Sicherheit: 12 Lehren aus dem Politiker-Hack
IT-Sicherheit
12 Lehren aus dem Politiker-Hack

Ein polizeibekanntes Skriptkiddie hat offenbar jahrelang unbemerkt Politiker und Prominente ausspähen können und deren Daten veröffentlicht. Welche Konsequenzen sollten für die Sicherheit von Daten aus dem Datenleak gezogen werden?
Eine Analyse von Friedhelm Greis

  1. Datenleak Ermittler nehmen Verdächtigen fest
  2. Datenleak Politiker fordern Pflicht für Zwei-Faktor-Authentifizierung
  3. Politiker-Hack Wohnung in Heilbronn durchsucht

    •  /