Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle

Mit Deep Speech steht ein erstes freies Modell zur Spracherkennung von Mozilla bereit. Parallel dazu sammelt Mozilla mit Common Voice die Sprachdaten dafür und stellt diese ebenfalls frei zu Verfügung. Golem.de hat mit den Verantwortlichen der beiden Projekte gesprochen.

Artikel von veröffentlicht am
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten.
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten. (Bild: Mozilla/CC-BY 3.0)

Der Aufbau eines Modells zur Spracherkennung sei rechenintensiv und teuer, erklärt Kelly Davis, der Manager der Machine Learning Group in Mozillas Emerging-Technologies-Sparte, im Gespräch mit Golem.de. Das sei wohl auch der Grund, so mutmaßt Davis, warum das Feld der Spracherkennung bisher von Amazon, Google und Microsoft dominiert werde. Die Einstiegshürden für andere seien schlicht zu hoch.

Inhalt:
  1. Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  2. Common Voice sammelt freie Sprachdaten

Mozilla will diesen Status Quo mit dem Projekt Deep Speech durchbrechen und stellt nun ein erstes Modell frei zu Verfügung, das für die Spracherkennung auf Englisch trainiert ist und direkt zum sogenannten Inferencing genutzt werden kann - also für die Spracherkennung selbst.

Das Deep-Speech-Modell von Mozilla nutzt Erkenntnisse des chinesischen Unternehmens Baidu, das zwei aufeinander aufbauende Forschungsarbeiten unter diesem Namen veröffentlicht hat. Der Hauptvorteil von Deep Speech ist es laut Davis, dass das Modell für die Spracherkennung auch ohne viel "Hintergrundwissen" über eine bestimmte Sprache trainiert werden kann.

Das soll es dem Team von Mozilla ermöglichen, künftig leicht auch andere Sprachen als Englisch zu unterstützen, um die Spracherkennung so noch mehr Menschen zur Verfügung zu stellen. Und dem Mozilla typischen Ansatz folgend gilt das natürlich insbesondere für jene Sprachen, bei denen kommerzielle Anbieter wie eben Amazon, Google oder Microsoft kein finanzielles Interesse an entsprechenden Arbeiten haben. Mit der Umsetzung soll Anfang kommenden Jahres begonnen werden.

Stellenmarkt
  1. Systemverantwortlicher (m/w/d) Modul - Ultrasonic Parking Functions
    IAV GmbH, Berlin, Chemnitz, Gifhorn
  2. Java Software Developer (w/m/d) Customer Service
    SSI SCHÄFER Automation GmbH, Giebelstadt, Dortmund, Münster, Oberviechtach
Detailsuche

Das nun zur Verfügung stehende Deep-Speech-Modell von Mozilla basiert zwar auf den Arbeiten von Baidu, ist von Davis' Team aber stark angepasst worden. Details dazu liefert ein sehr technischer Bericht des Entwicklers Reuben Morais. Interessant daran ist auch, dass Mozilla zum Trainieren des Modells einen Cluster mit zwei Knoten und acht Titan X Pascal GPUs von Nvidia verwendet. Davis sagte dazu, dass der Cluster künftig noch erweitert werden soll. Das Ergebnis der bisherigen Arbeiten ist auf jeden Fall vielversprechend. So berichtet das Team nach vergleichsweise kurzer Arbeitszeit bereits eine Fehlerrate bei der Worterkennung von rund 6,5 Prozent, die menschliche Fehlerrate liegt bei knapp unter 6 Prozent. Die Spracherkennung von Mozilla ist laut Davis damit fast auf menschlichem Niveau.

Mozilla arbeitet aber nicht nur an dem Modell zur Spracherkennung, sondern sammelt auch die Ausgangsdaten, damit diese Arbeiten überhaupt möglich sind: Sprachaufnahmen von und mit der Community.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Common Voice sammelt freie Sprachdaten 
  1. 1
  2. 2
  3.  


Aktuell auf der Startseite von Golem.de
LG HU915QE
Laserprojektor erzeugt 90-Zoll-Bild aus 5,6 cm Entfernung

LG hat einen Kurzdistanzprojektor mit Lasertechnik vorgestellt. Der HU915QE erzeugt ein riesiges Bild und steht dabei fast an der Wand.

LG HU915QE: Laserprojektor erzeugt 90-Zoll-Bild aus 5,6 cm Entfernung
Artikel
  1. Verkaufsstart des 9-Euro-Tickets: Was Fahrgäste wissen müssen
    Verkaufsstart des 9-Euro-Tickets
    Was Fahrgäste wissen müssen

    Das 9-Euro-Ticket für den ÖPNV ist beschlossene Sache, Verkehrsverbünde und -unternehmen sehen sich auf den Verkaufsstart in diesen Tagen gut vorbereitet. Doch es gibt viele offene Fragen.

  2. Sexualisierte Gewalt gegen Kinder: Bundesinnenministerin Faeser ändert Ansicht zu Chatkontrolle
    Sexualisierte Gewalt gegen Kinder
    Bundesinnenministerin Faeser ändert Ansicht zu Chatkontrolle

    Ursprünglich hat die Sozialdemokratin die geplante EU-Überwachung des Internets befürwortet. Nun sagt sie etwas anderes zur Chatkontrolle.

  3. LTE-Patent: Ford droht Verkaufs- und Produktionsverbot in Deutschland
    LTE-Patent
    Ford droht Verkaufs- und Produktionsverbot in Deutschland

    Ford fehlen Mobilfunk-Patentlizenzen, weshalb das Landgericht München eine drastische Entscheidung gefällt hat. Autos droht sogar die Vernichtung.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer Predator X38S (UWQHD, 175 Hz OC) 1.499€ • MindStar (u. a. AMD Ryzen 7 5700X 268€ und PowerColor RX 6750 XT Red Devil 609€ und RX 6900 XT Red Devil Ultimate 949€) • Alternate (u. a. Cooler Master Caliber R1 159,89€) • SanDisk Portable SSD 1 TB 81€ • Motorola Moto G60s 149€ [Werbung]
    •  /