Abo
  • Services:

Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle

Mit Deep Speech steht ein erstes freies Modell zur Spracherkennung von Mozilla bereit. Parallel dazu sammelt Mozilla mit Common Voice die Sprachdaten dafür und stellt diese ebenfalls frei zu Verfügung. Golem.de hat mit den Verantwortlichen der beiden Projekte gesprochen.

Artikel von veröffentlicht am
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten.
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten. (Bild: Mozilla/CC-BY 3.0)

Der Aufbau eines Modells zur Spracherkennung sei rechenintensiv und teuer, erklärt Kelly Davis, der Manager der Machine Learning Group in Mozillas Emerging-Technologies-Sparte, im Gespräch mit Golem.de. Das sei wohl auch der Grund, so mutmaßt Davis, warum das Feld der Spracherkennung bisher von Amazon, Google und Microsoft dominiert werde. Die Einstiegshürden für andere seien schlicht zu hoch.

Inhalt:
  1. Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  2. Common Voice sammelt freie Sprachdaten

Mozilla will diesen Status Quo mit dem Projekt Deep Speech durchbrechen und stellt nun ein erstes Modell frei zu Verfügung, das für die Spracherkennung auf Englisch trainiert ist und direkt zum sogenannten Inferencing genutzt werden kann - also für die Spracherkennung selbst.

Das Deep-Speech-Modell von Mozilla nutzt Erkenntnisse des chinesischen Unternehmens Baidu, das zwei aufeinander aufbauende Forschungsarbeiten unter diesem Namen veröffentlicht hat. Der Hauptvorteil von Deep Speech ist es laut Davis, dass das Modell für die Spracherkennung auch ohne viel "Hintergrundwissen" über eine bestimmte Sprache trainiert werden kann.

Das soll es dem Team von Mozilla ermöglichen, künftig leicht auch andere Sprachen als Englisch zu unterstützen, um die Spracherkennung so noch mehr Menschen zur Verfügung zu stellen. Und dem Mozilla typischen Ansatz folgend gilt das natürlich insbesondere für jene Sprachen, bei denen kommerzielle Anbieter wie eben Amazon, Google oder Microsoft kein finanzielles Interesse an entsprechenden Arbeiten haben. Mit der Umsetzung soll Anfang kommenden Jahres begonnen werden.

Stellenmarkt
  1. Bundeskriminalamt, Wiesbaden
  2. Bosch Gruppe, Hildesheim

Das nun zur Verfügung stehende Deep-Speech-Modell von Mozilla basiert zwar auf den Arbeiten von Baidu, ist von Davis' Team aber stark angepasst worden. Details dazu liefert ein sehr technischer Bericht des Entwicklers Reuben Morais. Interessant daran ist auch, dass Mozilla zum Trainieren des Modells einen Cluster mit zwei Knoten und acht Titan X Pascal GPUs von Nvidia verwendet. Davis sagte dazu, dass der Cluster künftig noch erweitert werden soll. Das Ergebnis der bisherigen Arbeiten ist auf jeden Fall vielversprechend. So berichtet das Team nach vergleichsweise kurzer Arbeitszeit bereits eine Fehlerrate bei der Worterkennung von rund 6,5 Prozent, die menschliche Fehlerrate liegt bei knapp unter 6 Prozent. Die Spracherkennung von Mozilla ist laut Davis damit fast auf menschlichem Niveau.

Mozilla arbeitet aber nicht nur an dem Modell zur Spracherkennung, sondern sammelt auch die Ausgangsdaten, damit diese Arbeiten überhaupt möglich sind: Sprachaufnahmen von und mit der Community.

Common Voice sammelt freie Sprachdaten 
  1. 1
  2. 2
  3.  


Anzeige
Top-Angebote
  1. (u. a. Samsung C27H711Q für 309€, MSI Optix MPG27C für 359€ und PlayStation Plus...
  2. (u. a. Adobe Photoshop Elements & Premiere Elements für 77,90€ und Corsair STRAFE RGB für 109...

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Amazons Echo Plus (2018) - Test

Der neue Echo Plus von Amazon liefert einen deutlich besseren Klang als alle bisherigen Echo-Lautsprecher. Praktisch ist außerdem der eingebaute Smart-Home-Hub. Der integrierte Temperatursensor muss aber noch bessser in Alexa integriert werden. Der neue Echo Plus ist zusammen mit einer Hue-Lampe von Philips für 150 Euro zu haben.

Amazons Echo Plus (2018) - Test Video aufrufen
Aufbruch zum Mond: Die schönste Fake-Mondlandung aller Zeiten
Aufbruch zum Mond
Die schönste Fake-Mondlandung aller Zeiten

Hollywood-Romantiker Damien Chazelle (La La Land) möchte sich mit Aufbruch zum Mond der Person Neil Armstrong annähern, fördert dabei aber kaum Spannendes zutage. Atemberaubend sind wie im wahren Leben dagegen Armstrongs erste Schritte auf dem Mond, für die alleine sich ein Kinobesuch sehr lohnt - der Film startet am Donnerstag.
Eine Rezension von Daniel Pook

  1. Solo - A Star Wars Story Gar nicht so solo, dieser Han
  2. The Cleaners Wie soziale Netzwerke ihre Verantwortung outsourcen
  3. Filmkritik Ready Player One Der Videospielfilm mit Nostalgiemacke

15 Jahre Extreme Edition: Als Intel noch AMD zuvorkommen musste
15 Jahre Extreme Edition
Als Intel noch AMD zuvorkommen musste

Seit 2003 verkauft Intel seine CPU-Topmodelle für Spieler und Enthusiasten als Extreme Edition. Wir blicken zurück auf 15 Jahre voller zweckentfremdeter Xeon-Chips, Mainboards mit Totenschädeln und extremer Prozessoren, die mit Phasenkühlung demonstriert wurden.
Von Marc Sauter

  1. Quartalszahlen Intel legt 19-Milliarden-USD-Rekord vor
  2. Ryan Shrout US-Journalist wird Chief Performance Strategist bei Intel
  3. Iris GPU Intel baut neuen und schnelleren Grafiktreiber unter Linux

Job-Porträt Cyber-Detektiv: Ich musste als Ermittler über 1.000 Onanie-Videos schauen
Job-Porträt Cyber-Detektiv
"Ich musste als Ermittler über 1.000 Onanie-Videos schauen"

Online-Detektive müssen permanent löschen, wo unvorsichtige Internetnutzer einen digitalen Flächenbrand gelegt haben. Mathias Kindt-Hopffer hat Golem.de von seinem Berufsalltag erzählt.
Von Maja Hoock

  1. Software-Entwickler CDU will Online-Weiterbildung à la Netflix
  2. Bundesagentur für Arbeit Ausbildungsplätze in der Informatik sind knapp
  3. IT-Jobs "Jedes Unternehmen kann es besser machen"

    •  /