Abo
  • Services:

Common Voice: Mozillas freie Sprachdatenbank wird mehrsprachig

Mit der Initiative Common Voice sammelt Mozilla frei verfügbare Sprachaufnahmen, um damit die eigene Spracherkennung Deep Speech und andere Projekte fördern zu können. Erstmals wird Common Voice nun offiziell mehrsprachig.

Artikel veröffentlicht am ,
Mozilla sammelt frei zugängliche Sprachdaten - jetzt auch mehrsprachig.
Mozilla sammelt frei zugängliche Sprachdaten - jetzt auch mehrsprachig. (Bild: Mozilla, Common Voice/CC-BY-SA 3.0)

Das von Mozilla im vergangenen Jahr gestartete Projekt Common Voice wird mehrsprachig. Das gab der für das Projekt zuständige Michael Henretty bekannt. Mit Common Voice sammelt Mozilla per Crowdsourcing Sprachaufnahmen, die unter einer freien Lizenz bereitgestellt werden. Das Common-Voice-Projekt wird nach Englisch nun auch auf offiziell auf Deutsch, Französisch und Walisisch ausgeweitet.

Stellenmarkt
  1. MediaMarktSaturn Deutschland, Ingolstadt
  2. Hella Gutmann Solutions GmbH, Ihringen

Alle, die wollen, können der Sprachdatenbank nun ihre Stimme in diesen Sprachen spenden. Dazu lesen Sprecher von Mozilla und der Community vorbereitete Sätze vor und nehmen sich dabei auf. In einem weiteren Teil des Common-Voice-Projektes werden diese Aufnahmen gesprochener Sprache von anderen Nutzern bewertet beziehungsweise validiert. Mozilla hat eine erste Version des Datensatzes für Englisch bereits unter CC-0-Lizenz veröffentlicht.

Ein wichtiger Teil der Arbeiten zur Unterstützung der Mehrsprachigkeit von Common Voice ist neben offensichtlichen Aufgaben wie der Übersetzung der Webseite vor allem die Auswahl des Vorlesematerials. Wie Henretty im Interview mit Golem.de im vergangenem Jahr sagte, bereitet die Suche nach gemeinfreiem oder CC-0-lizenziertem Material noch Probleme. So nutzen historisch gemeinfreie Werke wie Bücher eine im Gegensatz zu heute klar veraltete Sprache, die so wohl kein Sprecher mehr verwenden würde.

Weitere Sprachen in Vorbereitung

Ziel des Projektes ist es, die Daten als Grundlage für Spracherkennungprojekte und verwandte Techniken zu verwenden, wie etwa für Mozillas Deep Speech, das auch den Anstoß für Common Voice gab. Dem Team ist es dabei besonders wichtig, auch kleinere Sprach- und Sprechergemeinschaften repräsentieren zu können, die von kommerziellen Anbietern solcher Systeme oder Datensätze nicht oder wenig beachtet werden.

Zusätzlich zu den vorgestellten Sprachen arbeitet das Team mit seiner Community bereits daran, mehr als 40 weitere Sprachen als Teil von Common Voice zu unterstützen.



Anzeige
Top-Angebote
  1. 379€ (aktuell günstigster 27"-Monitor mit 144 Hz und WQHD)
  2. (u. a. Dragon's Dogma: Dark Arisen für 6,66€ und Disciples III Gold für 1,49€)
  3. für 134,98€/176,98€ (Bestpreise!)
  4. 19,99€ + 3,99€ Versand (Vergleichspreis 31,49€)

Folgen Sie uns
       


Alt gegen neu - Model M im Test

Das US-Unternehmen Unicomp bietet Tastaturen mit Buckling-Spring-Schalter an - so wie sie einst bei IBMs Model-M-Modellen verwendet wurden. Die Kunststoffteile sind zwar nicht so hochwertig wie die des Originals, die neuen Model Ms sind aber dennoch sehr gute Tastaturen.

Alt gegen neu - Model M im Test Video aufrufen
Shadow of the Tomb Raider angespielt: Lara und die Schwierigkeitsgrade
Shadow of the Tomb Raider angespielt
Lara und die Schwierigkeitsgrade

E3 2018 Düstere Höhlensysteme, eine prächtige Stadt in Südamerika und die Apokalypse: Im nächsten Tomb Raider erlebt Lara Croft wieder spannende Abenteuer. Beim Anspielen konnte Golem.de das ungewöhnliche System der Schwierigkeitsgrade kennenlernen.
Von Peter Steinlechner

  1. Remasters Tomb Raider 1 bis 3 bekommen neue Engine

IT-Jobs: Fünf neue Mitarbeiter in fünf Wochen?
IT-Jobs
Fünf neue Mitarbeiter in fünf Wochen?

Startups müssen oft kurzfristig viele Stellen besetzen. Wir waren bei dem Berliner Unternehmen Next Big Thing dabei, als es auf einen Schlag Bewerber für fünf Jobs suchte.
Ein Bericht von Juliane Gringer

  1. Frauen in IT-Berufen Programmierte Klischees
  2. Bitkom Research Höherer Frauenanteil in der deutschen IT-Branche
  3. Recruiting IT-Experten brauchen harte Fakten

Urheberrechtsreform: Die zehn Mythen des Leistungsschutzrechts
Urheberrechtsreform
Die zehn Mythen des Leistungsschutzrechts

Am Mittwoch gibt es eine wichtige Abstimmung zum Leistungsschutzrecht im Europaparlament. Leider werden von den Verfechtern des Gesetzes immer wieder Argumente ins Feld geführt, die keiner Überprüfung standhalten.
Eine Analyse von Friedhelm Greis

  1. Leistungsschutzrecht Nur Einschränkungen oder auch Chancen?
  2. Vor Abstimmung 100 EU-Abgeordnete lehnen Leistungsschutzrecht ab
  3. Urheberrecht EU-Staaten für Leistungsschutzrecht und Uploadfilter

    •  /