• IT-Karriere:
  • Services:

Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle

Mit Deep Speech steht ein erstes freies Modell zur Spracherkennung von Mozilla bereit. Parallel dazu sammelt Mozilla mit Common Voice die Sprachdaten dafür und stellt diese ebenfalls frei zu Verfügung. Golem.de hat mit den Verantwortlichen der beiden Projekte gesprochen.

Artikel von veröffentlicht am
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten.
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten. (Bild: Mozilla/CC-BY 3.0)

Der Aufbau eines Modells zur Spracherkennung sei rechenintensiv und teuer, erklärt Kelly Davis, der Manager der Machine Learning Group in Mozillas Emerging-Technologies-Sparte, im Gespräch mit Golem.de. Das sei wohl auch der Grund, so mutmaßt Davis, warum das Feld der Spracherkennung bisher von Amazon, Google und Microsoft dominiert werde. Die Einstiegshürden für andere seien schlicht zu hoch.

Inhalt:
  1. Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  2. Common Voice sammelt freie Sprachdaten

Mozilla will diesen Status Quo mit dem Projekt Deep Speech durchbrechen und stellt nun ein erstes Modell frei zu Verfügung, das für die Spracherkennung auf Englisch trainiert ist und direkt zum sogenannten Inferencing genutzt werden kann - also für die Spracherkennung selbst.

Das Deep-Speech-Modell von Mozilla nutzt Erkenntnisse des chinesischen Unternehmens Baidu, das zwei aufeinander aufbauende Forschungsarbeiten unter diesem Namen veröffentlicht hat. Der Hauptvorteil von Deep Speech ist es laut Davis, dass das Modell für die Spracherkennung auch ohne viel "Hintergrundwissen" über eine bestimmte Sprache trainiert werden kann.

Das soll es dem Team von Mozilla ermöglichen, künftig leicht auch andere Sprachen als Englisch zu unterstützen, um die Spracherkennung so noch mehr Menschen zur Verfügung zu stellen. Und dem Mozilla typischen Ansatz folgend gilt das natürlich insbesondere für jene Sprachen, bei denen kommerzielle Anbieter wie eben Amazon, Google oder Microsoft kein finanzielles Interesse an entsprechenden Arbeiten haben. Mit der Umsetzung soll Anfang kommenden Jahres begonnen werden.

Stellenmarkt
  1. Berliner Stadtreinigungsbetriebe (BSR), Berlin
  2. Advantest Europe GmbH, Böblingen

Das nun zur Verfügung stehende Deep-Speech-Modell von Mozilla basiert zwar auf den Arbeiten von Baidu, ist von Davis' Team aber stark angepasst worden. Details dazu liefert ein sehr technischer Bericht des Entwicklers Reuben Morais. Interessant daran ist auch, dass Mozilla zum Trainieren des Modells einen Cluster mit zwei Knoten und acht Titan X Pascal GPUs von Nvidia verwendet. Davis sagte dazu, dass der Cluster künftig noch erweitert werden soll. Das Ergebnis der bisherigen Arbeiten ist auf jeden Fall vielversprechend. So berichtet das Team nach vergleichsweise kurzer Arbeitszeit bereits eine Fehlerrate bei der Worterkennung von rund 6,5 Prozent, die menschliche Fehlerrate liegt bei knapp unter 6 Prozent. Die Spracherkennung von Mozilla ist laut Davis damit fast auf menschlichem Niveau.

Mozilla arbeitet aber nicht nur an dem Modell zur Spracherkennung, sondern sammelt auch die Ausgangsdaten, damit diese Arbeiten überhaupt möglich sind: Sprachaufnahmen von und mit der Community.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Common Voice sammelt freie Sprachdaten 
  1. 1
  2. 2
  3.  


Anzeige
Top-Angebote
  1. 3 Monate nur 2,95€ pro Monat, danach 9,95€ pro Monat - jederzeit kündbar
  2. (u. a. Aladin 11,52€ (Blu-ray) & 22,99€ (4K), A Toy Story: Alles hört auf kein Kommando 12...
  3. 519€ statt 553,30€ im Vergleich
  4. (aktuell u. a. Hasbro Nerf Laser Ops für 21,99€, HP X27i Gaming-Monitor 339€, AK Racing Gaming...

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Razer Eracing Simulator ausprobiert (CES 2020)

Der Eracing Simulator von Razer versucht, das Fahrgefühl in einem Rennwagen wiederzugeben. Dank Motoren und einer großen Leinwand ist die Immersion sehr gut, wie Golem.de im Hands on feststellen konnte.

Razer Eracing Simulator ausprobiert (CES 2020) Video aufrufen
Dell Ultrasharp UP3218K im Test: 8K ist es noch nicht wert
Dell Ultrasharp UP3218K im Test
8K ist es noch nicht wert

Alles fing so gut an: Der Dell Ultrasharp UP3218K hat ein schön gestochen scharfes 8K-Bild und einen erstklassigen Standfuß zu bieten. Dann kommen aber die Probleme, die beim Spiegelpanel anfangen und bis zum absurd hohen Preis reichen.
Von Oliver Nickel

  1. Dell Anleitung hilft beim Desinfizieren von Servern und Clients
  2. STG Partners Dell will RSA für 2 Milliarden US-Dollar verkaufen
  3. Concept Duet und Concept Ori Dells Dualscreen-Geräte machen Microsoft Konkurrenz

Coronavirus: Spiele statt Schule
Coronavirus
Spiele statt Schule

Wer wegen des Coronavirus mit Kindern zu Hause ist, braucht einen spannenden Zeitvertreib. Unser Autor - selbst Vater - findet: Computerspiele können ein sinnvolles Angebot sein. Vorausgesetzt, man wählt die richtigen.
Von Rainer Sigl

  1. Google Chrome rollt Regeln für Same-Site-Cookies vorerst zurück
  2. Coronavirus Österreich diskutiert verpflichtendes Tracking
  3. Coronavirus Funktion zur Netflix-Drosselung war längst geplant

Coronakrise: Hardware-Industrie auf dem Weg der Besserung
Coronakrise
Hardware-Industrie auf dem Weg der Besserung

Fast alle Fabriken für Hardware laufen wieder - trotz verlängertem Chinese New Year. Bei Launches und Lieferengpässen sieht es anders aus.
Ein Bericht von Marc Sauter

  1. Kaufberatung (2020) Die richtige CPU und Grafikkarte
  2. SSDs Intel arbeitet an 144-Schicht-Speicher und 5-Bit-Zellen

    •  /