Abo
  • IT-Karriere:

Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle

Mit Deep Speech steht ein erstes freies Modell zur Spracherkennung von Mozilla bereit. Parallel dazu sammelt Mozilla mit Common Voice die Sprachdaten dafür und stellt diese ebenfalls frei zu Verfügung. Golem.de hat mit den Verantwortlichen der beiden Projekte gesprochen.

Artikel von veröffentlicht am
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten.
Mozilla stellt eine freie Spracherkennung bereit ebenso wie Sprachdaten. (Bild: Mozilla/CC-BY 3.0)

Der Aufbau eines Modells zur Spracherkennung sei rechenintensiv und teuer, erklärt Kelly Davis, der Manager der Machine Learning Group in Mozillas Emerging-Technologies-Sparte, im Gespräch mit Golem.de. Das sei wohl auch der Grund, so mutmaßt Davis, warum das Feld der Spracherkennung bisher von Amazon, Google und Microsoft dominiert werde. Die Einstiegshürden für andere seien schlicht zu hoch.

Inhalt:
  1. Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle
  2. Common Voice sammelt freie Sprachdaten

Mozilla will diesen Status Quo mit dem Projekt Deep Speech durchbrechen und stellt nun ein erstes Modell frei zu Verfügung, das für die Spracherkennung auf Englisch trainiert ist und direkt zum sogenannten Inferencing genutzt werden kann - also für die Spracherkennung selbst.

Das Deep-Speech-Modell von Mozilla nutzt Erkenntnisse des chinesischen Unternehmens Baidu, das zwei aufeinander aufbauende Forschungsarbeiten unter diesem Namen veröffentlicht hat. Der Hauptvorteil von Deep Speech ist es laut Davis, dass das Modell für die Spracherkennung auch ohne viel "Hintergrundwissen" über eine bestimmte Sprache trainiert werden kann.

Das soll es dem Team von Mozilla ermöglichen, künftig leicht auch andere Sprachen als Englisch zu unterstützen, um die Spracherkennung so noch mehr Menschen zur Verfügung zu stellen. Und dem Mozilla typischen Ansatz folgend gilt das natürlich insbesondere für jene Sprachen, bei denen kommerzielle Anbieter wie eben Amazon, Google oder Microsoft kein finanzielles Interesse an entsprechenden Arbeiten haben. Mit der Umsetzung soll Anfang kommenden Jahres begonnen werden.

Stellenmarkt
  1. Haufe Group, Freiburg
  2. Universität Hamburg, Hamburg

Das nun zur Verfügung stehende Deep-Speech-Modell von Mozilla basiert zwar auf den Arbeiten von Baidu, ist von Davis' Team aber stark angepasst worden. Details dazu liefert ein sehr technischer Bericht des Entwicklers Reuben Morais. Interessant daran ist auch, dass Mozilla zum Trainieren des Modells einen Cluster mit zwei Knoten und acht Titan X Pascal GPUs von Nvidia verwendet. Davis sagte dazu, dass der Cluster künftig noch erweitert werden soll. Das Ergebnis der bisherigen Arbeiten ist auf jeden Fall vielversprechend. So berichtet das Team nach vergleichsweise kurzer Arbeitszeit bereits eine Fehlerrate bei der Worterkennung von rund 6,5 Prozent, die menschliche Fehlerrate liegt bei knapp unter 6 Prozent. Die Spracherkennung von Mozilla ist laut Davis damit fast auf menschlichem Niveau.

Mozilla arbeitet aber nicht nur an dem Modell zur Spracherkennung, sondern sammelt auch die Ausgangsdaten, damit diese Arbeiten überhaupt möglich sind: Sprachaufnahmen von und mit der Community.

Common Voice sammelt freie Sprachdaten 
  1. 1
  2. 2
  3.  


Anzeige
Hardware-Angebote

felix.schwarz 30. Nov 2017

Direkt mitmachen kann man immerhin jetzt schon bei "Common Voice" (https://voice.mozilla...

Hypfer 30. Nov 2017

Ach DA! Wow. Danke!


Folgen Sie uns
       


Boses Noise Cancelling Headphones 700 im Vergleich

Wir haben die ANC-Leistung von drei ANC-Kopfhörern miteinander verglichen. Wir ließen Boses neue Noise Cancelling Headphones 700 gegen Boses Quiet Comfort 35 II und Sonys WH-1000XM3 antreten.

Boses Noise Cancelling Headphones 700 im Vergleich Video aufrufen
TVs, Konsolen und HDMI 2.1: Wann wir mit 8K rechnen können
TVs, Konsolen und HDMI 2.1
Wann wir mit 8K rechnen können

Ifa 2019 Die Ifa 2019 ist bezüglich 8K nüchtern. Wird die hohe Auflösung wie 4K fast eine Dekade lang eine Nische bleiben? Oder bringen kommende Spielekonsolen und Anschlussstandards die Auflösung schneller als gedacht?
Eine Analyse von Oliver Nickel

  1. Kameras und Fernseher Ein 120-Zoll-TV mit 8K reicht Sharp nicht
  2. Sony ZG9 Erste 8K-Fernseher werden bald verkauft
  3. 8K Sharp schließt sich dem Micro-Four-Thirds-System an

Serielle Hybride: Unterschätzte Zwischenlösung oder längst überholt?
Serielle Hybride
Unterschätzte Zwischenlösung oder längst überholt?

Die reine E-Mobilität kommt nicht so schnell voran, wie es Klimaziele und Luftreinhaltepläne erfordern. Doch viele Fahrzeughersteller stellen derweil eine vergleichsweise simple Technologie auf die Räder, die für eine Zukunft ohne fossile Kraftstoffe Erkenntnisse liefern kann.
Von Mattias Schlenker

  1. ADAC Keyless-Go bietet Autofahrern keine Sicherheit
  2. Gesetzentwurf beschlossen Regierung verlängert Steuervorteile für Elektroautos
  3. Cabrio Renault R4 Plein Air als Elektro-Retroauto

Acer Predator Thronos im Sit on: Der Nerd-Olymp
Acer Predator Thronos im Sit on
Der Nerd-Olymp

Ifa 2019 Ob wir es nun den eisernen Thron oder den Sitz der Götter nennen: Der Predator Thronos von Acer fällt auf dem Messestand des Herstellers schon auf. Golem.de konnte den skurrilen Stuhl ausprobieren. Er ist eines Gaming-Kellers würdig.
Ein Hands on von Oliver Nickel

  1. Nitro XV273X Acer baut ersten Monitor mit IPS-Panel und 240 Hz
  2. Acer Beim Predator-Notebook fährt die Tastatur wie eine Rampe aus
  3. Geräte für Mediengestalter Acer gibt Verfügbarkeit der Concept-D-Laptops bekannt

    •  /