Abo
  • IT-Karriere:

Common Voice sammelt freie Sprachdaten

Zusätzlich zu dem trainierten Modell sowie dem dazugehörigen Code stellt Mozilla einen sehr großen Korpus mit Sprachaufnahmen bereit. Laut Mozilla ist das sogar schon der zweitgrößte frei verfügbare Datensatz mit Sprachaufnahmen. Gesammelt worden sind diese Sprachaufzeichnungen über das Mozilla-Projekt Common Voice. Bisher umfassen die Daten von Common Voice "400.000 einzelne Aufnahmen von 20.000 verschiedenen Personen, was 500 Stunden gesprochene Sprache ergibt".

Stellenmarkt
  1. BWI GmbH, verschiedene Standorte
  2. Landratsamt Reutlingen, Reutlingen

Der Name Common Voice sei dabei in Anlehnung an die Creative Commons gewählt, erklärt Michael Henretty, Digital Strategist bei Mozilla Open Innovation, und damit natürlich auch auf das Konzept der Commons, also eines frei verfügbaren Allgemeingutes. Die Idee zu Common Voice ist im Prinzip aus dem Deep-Speech-Projekt heraus entstanden, erklärt Henretty. Das freie Modell sollte durch freie Quelldaten begleitet werden. Analog zu Deep Speech soll auch der freie Datensatz von Common Voice helfen, die Einstiegshürden in die Nutzung von Spracherkennungssystemen zu überwinden.

Ein weiterer Vorteil von Common Voice, vor allem mit Blick auf Deep Speech, sei laut Henretty, dass die gesammelten Daten von sehr diversen Sprechern stamme, immerhin könne jeder auf der Welt einfach zu der Sammlung beitragen. Diese Diversität wiederum trage zu einer gewissen Robustheit der damit trainierten Spracherkennung bei, da auch Unterschiede in der Aussprache wie etwa verschiedene Akzente besser abgebildet werden können.

Ein noch großes Problem für Common Voice ist die Auswahl der Vorlesematerials für die Sprachaufzeichnungen. Diese müssen gemeinfrei oder CC-0-lizenziert sein, um auch die aufgezeichneten Daten unter entsprechender Lizenz veröffentlichen zu können. Historisch gemeinfreie Werke wie Bücher nutzten aber eine im Gegensatz zu heute klar veraltete Sprache, die so wohl kein Sprecher mehr verwenden würde. Deshalb bittet das Common-Voice-Projekt darum, zum Beispiel auch aktuelle Blog-Einträge oder Ähnliches zu "spenden".

Bisher stehen die Daten von Common Voice nur in Englisch zur Verfügung, das soll aber ebenfalls im kommenden Jahr auf weitere Sprachen ausgeweitet werden. Die Mozilla-Community ist hier eine wichtige Stütze, diese hat teils schon vor Wochen oder Monaten damit angefangen, die Webseite und App zum Sammeln der Daten in andere Sprachen zu übersetzen und nach passendem Quellmaterial zu suchen.

 Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  1.  
  2. 1
  3. 2


Anzeige
Spiele-Angebote
  1. (-75%) 14,99€
  2. 26,99€
  3. 23,99€
  4. 1,19€

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Doom Eternal angespielt

Slayer im Kampf gegen die Höllendämonen: Doom Eternal soll noch in diesem Jahr erscheinen.

Doom Eternal angespielt Video aufrufen
Erasure Coding: Das Ende von Raid kommt durch Mathematik
Erasure Coding
Das Ende von Raid kommt durch Mathematik

In vielen Anwendungsszenarien sind Raid-Systeme mittlerweile nicht mehr die optimale Lösung. Zu langsam und starr sind sie. Abhilfe schaffen können mathematische Verfahren wie Erasure Coding. Noch existieren für beide Techniken Anwendungsgebiete. Am Ende wird Raid aber wohl verschwinden.
Eine Analyse von Oliver Nickel

  1. Agentur für Cybersicherheit Cyberwaffen-Entwicklung zieht in den Osten Deutschlands
  2. Yahoo Richterin lässt Vergleich zu Datenleck platzen

Forschung: Mehr Elektronen sollen Photovoltaik effizienter machen
Forschung
Mehr Elektronen sollen Photovoltaik effizienter machen

Zwei dünne Schichten auf einer Silizium-Solarzelle könnten ihre Effizienz erhöhen. Grünes und blaues Licht kann darin gleich zwei Elektronen statt nur eines freisetzen.
Von Frank Wunderlich-Pfeiffer

  1. ISS Tierbeobachtungssystem Icarus startet
  2. Sun To Liquid Solaranlage erzeugt Kerosin aus Sonnenlicht, Wasser und CO2
  3. Shell Ocean Discovery X Prize X-Prize für unbemannte Systeme zur Meereskartierung vergeben

Radeon RX 5700 (XT) im Test: AMDs günstige Navi-Karten sind auch super
Radeon RX 5700 (XT) im Test
AMDs günstige Navi-Karten sind auch super

Die Radeon RX 5700 (XT) liefern nach einer Preissenkung vor dem Launch eine gute Leistung ab: Wer auf Hardware-Raytracing verzichten kann, erhält zwei empfehlenswerte Navi-Grafikkarten. Bei der Energie-Effizienz hapert es aber trotz moderner 7-nm-Technik immer noch etwas.
Ein Test von Marc Sauter

  1. Radeon RX 5700 (XT) AMD senkt Navi-Preise noch vor Launch
  2. AMD Freier Navi-Treiber in Mesa eingepflegt
  3. AMDGPU AMD veröffentlicht Linux-Treiber für Navi

    •  /