• IT-Karriere:
  • Services:

Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle

Mit Deep Speech steht ein erstes freies Modell zur Spracherkennung von Mozilla bereit. Parallel dazu sammelt Mozilla mit Common Voice die Sprachdaten dafür und stellt diese ebenfalls frei zu Verfügung. Golem.de hat mit den Verantwortlichen der beiden Projekte gesprochen.

Artikel von veröffentlicht am
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten.
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten. (Bild: Mozilla/CC-BY 3.0)

Der Aufbau eines Modells zur Spracherkennung sei rechenintensiv und teuer, erklärt Kelly Davis, der Manager der Machine Learning Group in Mozillas Emerging-Technologies-Sparte, im Gespräch mit Golem.de. Das sei wohl auch der Grund, so mutmaßt Davis, warum das Feld der Spracherkennung bisher von Amazon, Google und Microsoft dominiert werde. Die Einstiegshürden für andere seien schlicht zu hoch.

Inhalt:
  1. Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  2. Common Voice sammelt freie Sprachdaten

Mozilla will diesen Status Quo mit dem Projekt Deep Speech durchbrechen und stellt nun ein erstes Modell frei zu Verfügung, das für die Spracherkennung auf Englisch trainiert ist und direkt zum sogenannten Inferencing genutzt werden kann - also für die Spracherkennung selbst.

Das Deep-Speech-Modell von Mozilla nutzt Erkenntnisse des chinesischen Unternehmens Baidu, das zwei aufeinander aufbauende Forschungsarbeiten unter diesem Namen veröffentlicht hat. Der Hauptvorteil von Deep Speech ist es laut Davis, dass das Modell für die Spracherkennung auch ohne viel "Hintergrundwissen" über eine bestimmte Sprache trainiert werden kann.

Das soll es dem Team von Mozilla ermöglichen, künftig leicht auch andere Sprachen als Englisch zu unterstützen, um die Spracherkennung so noch mehr Menschen zur Verfügung zu stellen. Und dem Mozilla typischen Ansatz folgend gilt das natürlich insbesondere für jene Sprachen, bei denen kommerzielle Anbieter wie eben Amazon, Google oder Microsoft kein finanzielles Interesse an entsprechenden Arbeiten haben. Mit der Umsetzung soll Anfang kommenden Jahres begonnen werden.

Stellenmarkt
  1. operational services GmbH & Co. KG, Frankfurt am Main
  2. Concordia Versicherungsgesellschaft a.G., Hannover

Das nun zur Verfügung stehende Deep-Speech-Modell von Mozilla basiert zwar auf den Arbeiten von Baidu, ist von Davis' Team aber stark angepasst worden. Details dazu liefert ein sehr technischer Bericht des Entwicklers Reuben Morais. Interessant daran ist auch, dass Mozilla zum Trainieren des Modells einen Cluster mit zwei Knoten und acht Titan X Pascal GPUs von Nvidia verwendet. Davis sagte dazu, dass der Cluster künftig noch erweitert werden soll. Das Ergebnis der bisherigen Arbeiten ist auf jeden Fall vielversprechend. So berichtet das Team nach vergleichsweise kurzer Arbeitszeit bereits eine Fehlerrate bei der Worterkennung von rund 6,5 Prozent, die menschliche Fehlerrate liegt bei knapp unter 6 Prozent. Die Spracherkennung von Mozilla ist laut Davis damit fast auf menschlichem Niveau.

Mozilla arbeitet aber nicht nur an dem Modell zur Spracherkennung, sondern sammelt auch die Ausgangsdaten, damit diese Arbeiten überhaupt möglich sind: Sprachaufnahmen von und mit der Community.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Common Voice sammelt freie Sprachdaten 
  1. 1
  2. 2
  3.  


Anzeige
Top-Angebote
  1. (u. a. Samsung-SSDs, Monitore, Laptops, Saugroboter und vieles mehr zu Bestpreisen)
  2. (u. a. G.Skill 16GB DDR4-3200 Kit für 54,90€, AMD Ryzen 9 3900XT für 419€, MSI B450 Tomahawk...
  3. mit 222,22€ neuer Bestpreis auf Geizhals
  4. (u. a. Samsung GQ55Q70TGTXZG QLED TV 55 Zoll für 777€, Samsung Galaxy A20e 32GB 5,8 Zoll für...

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


iPhone 12 und iPhone 12 Pro - Fazit

Beim iPhone 12 und 12 Pro hat sich Apple vom bisherigen Design verabschiedet - im Test überzeugen Verarbeitung, Kamera und Display.

iPhone 12 und iPhone 12 Pro - Fazit Video aufrufen
Radeon RX 6800 (XT) im Test: Die Rückkehr der Radeon-Ritter
Radeon RX 6800 (XT) im Test
Die Rückkehr der Radeon-Ritter

Lange hatte AMD bei Highend-Grafikkarten nichts zu melden, mit den Radeon RX 6800 (XT) kehrt die Gaming-Konkurrenz zurück.
Ein Test von Marc Sauter

  1. Radeon RX 6800 (XT) Das Unboxing als Gelegenheit
  2. Radeon RX 6000 AMD sieht sich in Benchmarks vor Nvidia
  3. Big Navi (RDNA2) Radeon RX 6900 XT holt Geforce RTX 3090 ein

Weiterbildung: Was IT-Führungskräfte können sollten
Weiterbildung
Was IT-Führungskräfte können sollten

Wenn IT-Spezialisten zu Führungskräften aufsteigen, müssen sie Fachwissen in fremden Gebieten aufbauen - um Probleme im neuen Job zu vermeiden.
Ein Bericht von Manuel Heckel

  1. IT-Profis und Visualisierung Sag's in Bildern
  2. IT-Jobs Die schwierige Suche nach dem richtigen Arbeitgeber
  3. Digitalisierung in Firmen Warum IT-Teams oft übergangen werden

iPhone 12 Pro Max im Test: Das Display macht den Hauptunterschied
iPhone 12 Pro Max im Test
Das Display macht den Hauptunterschied

Das iPhone 12 Pro Max ist größer als das 12 Pro und hat eine etwas bessere Kamera - grundsätzlich liegen die beiden Topmodelle von Apple aber nah beieinander, wie unser Test zeigt. Käufer des iPhone 12 Pro müssen keine Angst haben, etwas zu verpassen.
Ein Test von Tobias Költzsch

  1. Apple Bauteile des iPhone 12 kosten 313 Euro
  2. Touchscreen und Hörgeräte iOS 14.2.1 beseitigt iPhone-12-Fehler
  3. iPhone Magsafe ist nicht gleich Magsafe

    •  /