• IT-Karriere:
  • Services:

Mozilla: Deep Speech wird klein und schnell

Die freie Spracherkennung Deep Speech von Mozilla läuft in der aktuellen Version 0.6 auch auf wenig leistungsfähigen Chips in Echtzeit. Darüber hinaus hat das Team das Modell weiter deutlich verkleinert.

Artikel veröffentlicht am , /Ulrich Bantle/Linux Magazin
Die Spracherkennung von Mozilla steht in Version 0.6 bereit. (Symbolbild)
Die Spracherkennung von Mozilla steht in Version 0.6 bereit. (Symbolbild) (Bild: istolethetv, flickr.com/CC-BY 2.0)

Mozilla arbeitet seit rund zwei Jahren an der freien Spracherkennung Deep Speech und hat nun Version 0.6 des Systems vorgestellt. Laut der Ankündigung auf dem Hacks-Entwicklerblog wird Deep Speech "schnell, schlank und allgegenwärtig". Die wichtigsten Neuerungen der Version sind demnach Leistungsverbesserungen.

Stellenmarkt
  1. dmTECH GmbH, Karlsruhe (Home-Office möglich)
  2. comuny GmbH, Weinheim

Anwendungs-Entwickler seien dadurch nicht mehr gezwungen, ihre Systeme für Deep Speech fein anzupassen. Der neue Streaming Decoder stelle in diesem Zusammenhang den größten Fortschritt dar. Er ermögliche einen konsistenten Betrieb mit geringen Latenzen und Speicherverbrauch, egal wie lang das Soundmuster sei, schreibt Entwickler Reuben Morais in dem Blog-Eintrag.

Hinzugekommen sei außerdem die Unterstützung für Tensorflow Lite. Damit verringere sich die Paketgröße von Deep Speech entscheidend. Tensorflow Lite ist speziell auf den Einsatz für Embedded- und mobile Geräte optimiert. Das englische Akustik-Modell von Deep Speech sei damit von 188 auf nur 47 MByte geschrumpft. Die Nutzung von Tensorflow Lite beschleunigt Deep Speech darüber hinaus auch auf Desktop-Systemen. Laut dem Entwickler läuft Deep Speech nun auf nur einem Kern des Raspberry Pi 4 schneller als Echtzeit.

Deep Speech liefert in der aktuellen Version zudem Metadaten und Timing-Informationen über die API aus. Damit seien ausgefeiltere Anwendungen möglich, so Mozilla. Das Upgrade auf Tensorflow 1.14 ermögliche zudem ein deutlich schnelleres Training als bisher, wodurch das Team besser experimentieren könne. Weitere Details liefert die Ankündigung in dem Blog. Das Modell und der Code von Deep Speech finden sich auf Github.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Darksiders 3 für 15,99€, The Moment of Silence für 2,50€, Steel Division: Normandy 44...
  2. (u. a. Die Sims 4 - Nachhaltig leben (DLC) - Eco Lifestyle für 28,49€, F1 2019 - Legends Edition...
  3. (u. a. Huawei Mediapad T5 für 159€, Acer ED273URP WQHD-Monitor mit 144 Hz für 289€ statt 328...

FreiGeistler 12. Dez 2019

Hmpf! Kaffee kocht der immer noch keinen guten! >:-(

Hotohori 07. Dez 2019

Komisch, unter Win 10 mit Firefox keinerlei Probleme, hat auf Anhieb beides funktioniert.

m9898 07. Dez 2019

Schneller als Echtzeit bedeutet, dass ein System höhere Datenmengen verarbeiten kann als...


Folgen Sie uns
       


Kuschelroboter Lovot angesehen (CES 2020)

Lovot ist ein kleiner Roboter, der bei seinem Besitzer für gute Stimmung sorgen soll. Er lässt sich streicheln und reagiert mit freudigen Geräuschen.

Kuschelroboter Lovot angesehen (CES 2020) Video aufrufen
    •  /