Original-URL des Artikels: https://www.golem.de/news/deep-speech-0-2-mozillas-spracherkennung-wird-kleiner-und-kann-echtzeit-1809-136645.html    Veröffentlicht: 19.09.2018 13:05    Kurz-URL: https://glm.io/136645

Deep Speech 0.2

Mozillas Spracherkennung wird kleiner und kann Echtzeit

Mit Deep Speech will Mozilla ein freies System zur Spracherkennung bereitstellen. Die aktuelle Version 0.2 ist nun deutlich kleiner und ermöglicht Echtzeitanwendungen für die Spracherkennung, wie das automatische Erstellen von Untertiteln.

Damit das Feld der Spracherkennung langfristig nicht wie bisher von Amazon, Google und Microsoft dominiert bleibt, hat sich Mozilla die ambitionierte Aufgabe gestellt, eine eigene und vor allem freie Spracherkennung zu entwickeln. Dieses als Deep Speech bezeichnete Projekt steht nun in Version 0.2 bereit, das eine Echtzeitanwendung ermöglicht.

Das eröffne eine Vielzahl verschiedener Einsatzmöglichkeiten für Deep Speech wie "Live-Untertitel für Radioprogramme, Twitch-Streams und Keynote-Präsentationen, Heimautomatisierung, sprachbasierte UIs" und Weiteres, wie der beteiligte Entwickler Reuben Morais in einem Blogeintrag schreibt.

Stream-Verarbeitung beim Inferencing

Das heißt, die Verarbeitung von Daten sowie die Anwendung des trainierten Modells - das Inferencing - ist nun nicht nur schneller als das Sprachsample lang ist, sondern das neue Modell kann das Inferencing auch schon während der Aufnahme der Sprachdaten beginnen. Bisher konnte das Modell nur mit einer abgeschlossenen Spracheingabe arbeiten.

Damit dies funktioniert, hat das Team das zugrundeliegende Modell so umgebaut, dass dies eben mit Streams zurechtkommt. Dazu werden nun die Audiodaten stückweise analysiert und das Ergebnis daraus zusammengesetzt. Technische Details zur Vorgehensweise liefert der Blogeintrag.

Zusätzlich zu der Geschwindigkeitssteigerung ist das neue trainierte Modell, das Mozilla zur Weiterverwendung unter einer freien Lizenz bereitstellt, nun nur noch rund 180 MByte groß - eine Reduktion um mehr als 60 Prozent. Ebenso sinkt die maximale Speicherbelastung von 12 GByte auf nur noch 264 MByte.  (sg)


Verwandte Artikel:
Firefox Reality: Mozillas VR-Browser erreicht erste stabile Version   
(18.09.2018, https://glm.io/136623 )
Common Voice: Mozillas freie Sprachdatenbank wird mehrsprachig   
(07.06.2018, https://glm.io/134824 )
Deep Speech und Common Voice: Mozilla bringt freie Spracherkennung für alle   
(30.11.2017, https://glm.io/131414 )
Dopamine: Google-Framework soll Machine Learning reproduzierbar machen   
(28.08.2018, https://glm.io/136228 )
Bing: Microsoft gibt 125 Millionen Gebäudedaten an Openstreetmap   
(03.07.2018, https://glm.io/135280 )

© 1997–2019 Golem.de, https://www.golem.de/