Mozilla: Deep Speech wird klein und schnell

Die freie Spracherkennung Deep Speech von Mozilla läuft in der aktuellen Version 0.6 auch auf wenig leistungsfähigen Chips in Echtzeit. Darüber hinaus hat das Team das Modell weiter deutlich verkleinert.

Artikel veröffentlicht am , /Ulrich Bantle/Linux Magazin
Die Spracherkennung von Mozilla steht in Version 0.6 bereit. (Symbolbild)
Die Spracherkennung von Mozilla steht in Version 0.6 bereit. (Symbolbild) (Bild: istolethetv, flickr.com/CC-BY 2.0)

Mozilla arbeitet seit rund zwei Jahren an der freien Spracherkennung Deep Speech und hat nun Version 0.6 des Systems vorgestellt. Laut der Ankündigung auf dem Hacks-Entwicklerblog wird Deep Speech "schnell, schlank und allgegenwärtig". Die wichtigsten Neuerungen der Version sind demnach Leistungsverbesserungen.

Anwendungs-Entwickler seien dadurch nicht mehr gezwungen, ihre Systeme für Deep Speech fein anzupassen. Der neue Streaming Decoder stelle in diesem Zusammenhang den größten Fortschritt dar. Er ermögliche einen konsistenten Betrieb mit geringen Latenzen und Speicherverbrauch, egal wie lang das Soundmuster sei, schreibt Entwickler Reuben Morais in dem Blog-Eintrag.

Hinzugekommen sei außerdem die Unterstützung für Tensorflow Lite. Damit verringere sich die Paketgröße von Deep Speech entscheidend. Tensorflow Lite ist speziell auf den Einsatz für Embedded- und mobile Geräte optimiert. Das englische Akustik-Modell von Deep Speech sei damit von 188 auf nur 47 MByte geschrumpft. Die Nutzung von Tensorflow Lite beschleunigt Deep Speech darüber hinaus auch auf Desktop-Systemen. Laut dem Entwickler läuft Deep Speech nun auf nur einem Kern des Raspberry Pi 4 schneller als Echtzeit.

Deep Speech liefert in der aktuellen Version zudem Metadaten und Timing-Informationen über die API aus. Damit seien ausgefeiltere Anwendungen möglich, so Mozilla. Das Upgrade auf Tensorflow 1.14 ermögliche zudem ein deutlich schnelleres Training als bisher, wodurch das Team besser experimentieren könne. Weitere Details liefert die Ankündigung in dem Blog. Das Modell und der Code von Deep Speech finden sich auf Github.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


FreiGeistler 12. Dez 2019

Hmpf! Kaffee kocht der immer noch keinen guten! >:-(

Hotohori 07. Dez 2019

Komisch, unter Win 10 mit Firefox keinerlei Probleme, hat auf Anhieb beides funktioniert.

m9898 07. Dez 2019

Schneller als Echtzeit bedeutet, dass ein System höhere Datenmengen verarbeiten kann als...



Aktuell auf der Startseite von Golem.de
BrouwUnie
Tesla verkauft Giga Bier zu einem stolzen Preis

Tesla hat, wie von Elon Musk versprochen, nun eine eigene Biermarke im Angebot und verkauft drei Flaschen für knapp 90 Euro.

BrouwUnie: Tesla verkauft Giga Bier zu einem stolzen Preis
Artikel
  1. Direkte-E-Fuel-Produktion: Porsches Masterplan hinter dem Verbrennerkompromiss
    Direkte-E-Fuel-Produktion  
    Porsches Masterplan hinter dem Verbrennerkompromiss

    Der Sportwagenhersteller will künftig E-Fuels direkt im Fahrzeug produzieren. Dazu übernimmt Porsche das strauchelnde Start-up Sono Motors.
    Ein Bericht von Friedhelm Greis

  2. Tetris bei Apple TV+: Eine Vertriebsstory als Spionage-Thriller
    Tetris bei Apple TV+
    Eine Vertriebsstory als Spionage-Thriller

    Bei Apple TV+ wird mit Tetris die Geschichte eines Ost-West-Konflikts der besonderen Art erzählt - zeitweise sogar als Spionage-Thriller. Das ist mitreißend, und mitunter hanebüchen.
    Eine Rezension von Peter Osteried

  3. Sprachmodelle: Warum ChatGPT so erfolgreich ist
    Sprachmodelle
    Warum ChatGPT so erfolgreich ist

    KI-Insider Wie erklärt sich der Erfolg von ChatGPT, obwohl es nur eines von vielen Sprachmodellen und leistungsstarken KI-Systemen ist? Drei Faktoren sind ausschlaggebend.
    Von Thilo Hagendorff

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • ASUS VG27AQ1A QHD/170 Hz 269€ • Crucial P3 Plus 1 TB 60,98€ • ViewSonic VX3218-PC-MHDJ FHD/165 Hz 227,89€ • MindStar: be quiet! Pure Base 600 79€ • Alternate: Corsair Vengeance RGB 64-GB-Kit DDR5-6000 276,89€ und Weekend Sale • Elex II 12,99€ • 3 Spiele kaufen, 2 zahlen [Werbung]
    •  /