Mozilla: Deep Speech wird klein und schnell

Mozilla arbeitet seit rund zwei Jahren an der freien Spracherkennung Deep Speech und hat nun Version 0.6 des Systems vorgestellt. Laut der Ankündigung auf dem Hacks-Entwicklerblog(öffnet im neuen Fenster) wird Deep Speech "schnell, schlank und allgegenwärtig" . Die wichtigsten Neuerungen der Version sind demnach Leistungsverbesserungen.
Anwendungs-Entwickler seien dadurch nicht mehr gezwungen, ihre Systeme für Deep Speech fein anzupassen. Der neue Streaming Decoder stelle in diesem Zusammenhang den größten Fortschritt dar. Er ermögliche einen konsistenten Betrieb mit geringen Latenzen und Speicherverbrauch, egal wie lang das Soundmuster sei, schreibt Entwickler Reuben Morais in dem Blog-Eintrag.
Hinzugekommen sei außerdem die Unterstützung für Tensorflow Lite. Damit verringere sich die Paketgröße von Deep Speech entscheidend. Tensorflow Lite ist speziell auf den Einsatz für Embedded- und mobile Geräte optimiert. Das englische Akustik-Modell von Deep Speech sei damit von 188 auf nur 47 MByte geschrumpft. Die Nutzung von Tensorflow Lite beschleunigt Deep Speech darüber hinaus auch auf Desktop-Systemen. Laut dem Entwickler läuft Deep Speech nun auf nur einem Kern des Raspberry Pi 4 schneller als Echtzeit.
Deep Speech liefert in der aktuellen Version zudem Metadaten und Timing-Informationen über die API aus. Damit seien ausgefeiltere Anwendungen möglich, so Mozilla. Das Upgrade auf Tensorflow 1.14 ermögliche zudem ein deutlich schnelleres Training als bisher, wodurch das Team besser experimentieren könne. Weitere Details liefert die Ankündigung in dem Blog. Das Modell und der Code von Deep Speech finden sich auf Github(öffnet im neuen Fenster) .