• IT-Karriere:
  • Services:

Common Voice: Mozillas freie Sprachdatenbank wird mehrsprachig

Mit der Initiative Common Voice sammelt Mozilla frei verfügbare Sprachaufnahmen, um damit die eigene Spracherkennung Deep Speech und andere Projekte fördern zu können. Erstmals wird Common Voice nun offiziell mehrsprachig.

Artikel veröffentlicht am ,
Mozilla sammelt frei zugängliche Sprachdaten - jetzt auch mehrsprachig.
Mozilla sammelt frei zugängliche Sprachdaten - jetzt auch mehrsprachig. (Bild: Mozilla, Common Voice/CC-BY-SA 3.0)

Das von Mozilla im vergangenen Jahr gestartete Projekt Common Voice wird mehrsprachig. Das gab der für das Projekt zuständige Michael Henretty bekannt. Mit Common Voice sammelt Mozilla per Crowdsourcing Sprachaufnahmen, die unter einer freien Lizenz bereitgestellt werden. Das Common-Voice-Projekt wird nach Englisch nun auch auf offiziell auf Deutsch, Französisch und Walisisch ausgeweitet.

Stellenmarkt
  1. Würth Industrie Service GmbH & Co. KG, Bad Mergentheim, Großraum Würzburg
  2. HxGN Safety & Infrastructure GmbH, Bonn

Alle, die wollen, können der Sprachdatenbank nun ihre Stimme in diesen Sprachen spenden. Dazu lesen Sprecher von Mozilla und der Community vorbereitete Sätze vor und nehmen sich dabei auf. In einem weiteren Teil des Common-Voice-Projektes werden diese Aufnahmen gesprochener Sprache von anderen Nutzern bewertet beziehungsweise validiert. Mozilla hat eine erste Version des Datensatzes für Englisch bereits unter CC-0-Lizenz veröffentlicht.

Ein wichtiger Teil der Arbeiten zur Unterstützung der Mehrsprachigkeit von Common Voice ist neben offensichtlichen Aufgaben wie der Übersetzung der Webseite vor allem die Auswahl des Vorlesematerials. Wie Henretty im Interview mit Golem.de im vergangenem Jahr sagte, bereitet die Suche nach gemeinfreiem oder CC-0-lizenziertem Material noch Probleme. So nutzen historisch gemeinfreie Werke wie Bücher eine im Gegensatz zu heute klar veraltete Sprache, die so wohl kein Sprecher mehr verwenden würde.

Weitere Sprachen in Vorbereitung

Ziel des Projektes ist es, die Daten als Grundlage für Spracherkennungprojekte und verwandte Techniken zu verwenden, wie etwa für Mozillas Deep Speech, das auch den Anstoß für Common Voice gab. Dem Team ist es dabei besonders wichtig, auch kleinere Sprach- und Sprechergemeinschaften repräsentieren zu können, die von kommerziellen Anbietern solcher Systeme oder Datensätze nicht oder wenig beachtet werden.

Zusätzlich zu den vorgestellten Sprachen arbeitet das Team mit seiner Community bereits daran, mehr als 40 weitere Sprachen als Teil von Common Voice zu unterstützen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. externe HDDs für PS4/XBO reduziert und Transformers 5 Movie Collection für 19,99€)
  2. (aktuell u. a. Acer XB241YU 165 Hz/WQHD für 349€ + Versand statt 438,44€ im Vergleich)
  3. 49,90€ + Versand (Vergleichspreis ca. 69€ + Versand)
  4. (u. a. Hitman 2 für 7,99€ und Ghost Recon Wildlands für 12,99€)

Folgen Sie uns
       


Galaxy Fold im Test

Das Galaxy Fold ist Samsungs erstes Smartphone mit faltbarem Display. Die Technologie ist spannend, im Alltag nervt uns das ständige Auf- und Zuklappen aber etwas.

Galaxy Fold im Test Video aufrufen
Dreams im Test: Bastelwastel im Traumiversum
Dreams im Test
Bastelwastel im Traumiversum

Bereits mit Little Big Planet hat das Entwicklerstudio Media Molecule eine Kombination aus Spiel und Editor produziert, nun geht es mit Dreams noch ein paar Schritte weiter. Mit dem PS4-Titel muss man sich fast schon anstrengen, um nicht schöne Eigenkreationen zu erträumen.
Ein Test von Peter Steinlechner

  1. Ausdiskutiert Sony schließt das Playstation-Forum
  2. Sony Absatz der Playstation 4 geht weiter zurück
  3. PS4-Rücktasten-Ansatzstück im Test Tuning für den Dualshock 4

Videostreaming: Was an Prime Video und Netflix nervt
Videostreaming
Was an Prime Video und Netflix nervt

Eine ständig anders sortierte Watchlist, ein automatisch startender Stream oder fehlende Markierungen für Aboinhalte: Oft sind es nur Kleinigkeiten, die den Spaß am Streaming vermiesen - eine Hassliste.
Ein IMHO von Ingo Pakalski

  1. WhatsOnFlix Smartphone-App für bessere Verwaltung der Netflix-Inhalte
  2. Netflix Staffel-2-Trailer zeigt Cyberpunk-Welt von Altered Carbon
  3. Videostreaming Netflix musste Night of the Living Dead entfernen

Wolcen im Test: Düster, lootig, wuchtig!
Wolcen im Test
Düster, lootig, wuchtig!

Irgendwo zwischen Diablo und Grim Dawn: Die dreckige Spielwelt von Wolcen - Lords Of Mayhem ist Schauplatz für ein tolles Hack'n Slay - egal ob offline oder online, alleine oder gemeinsam. Und mit Cryengine.
Ein Test von Marc Sauter

  1. Project Mara Microsoft kündigt Psychoterror-Simulation an
  2. Active Gaming Footwear Puma blamiert sich mit Spielersocken
  3. Simulatoren Nach Feierabend Arbeiten spielen

    •  /