Deep Speech 0.2: Mozillas Spracherkennung wird kleiner und kann Echtzeit

Mit Deep Speech will Mozilla ein freies System zur Spracherkennung bereitstellen. Die aktuelle Version 0.2 ist nun deutlich kleiner und ermöglicht Echtzeitanwendungen für die Spracherkennung, wie das automatische Erstellen von Untertiteln.

Artikel veröffentlicht am ,
Mozillas Deep Speech erstellt ein freies Sprachmodell, Common Voice sammelt freie Sprachbeispiele.
Mozillas Deep Speech erstellt ein freies Sprachmodell, Common Voice sammelt freie Sprachbeispiele. (Bild: Mozilla/CC-BY 3.0)

Damit das Feld der Spracherkennung langfristig nicht wie bisher von Amazon, Google und Microsoft dominiert bleibt, hat sich Mozilla die ambitionierte Aufgabe gestellt, eine eigene und vor allem freie Spracherkennung zu entwickeln. Dieses als Deep Speech bezeichnete Projekt steht nun in Version 0.2 bereit, das eine Echtzeitanwendung ermöglicht.

Stellenmarkt
  1. Stabsstelle Prozess- und Qualitätsentwicklung der Schulen (m/w/d)
    Institut für soziale Berufe Stuttgart gGmbH, Stuttgart
  2. DevOps Engineer / Cloud Operator (m/w/d)
    GK Software SE, Schöneck (Vogtland), St. Ingbert, Pilsen (Tschechische Republik)
Detailsuche

Das eröffne eine Vielzahl verschiedener Einsatzmöglichkeiten für Deep Speech wie "Live-Untertitel für Radioprogramme, Twitch-Streams und Keynote-Präsentationen, Heimautomatisierung, sprachbasierte UIs" und Weiteres, wie der beteiligte Entwickler Reuben Morais in einem Blogeintrag schreibt.

Stream-Verarbeitung beim Inferencing

Das heißt, die Verarbeitung von Daten sowie die Anwendung des trainierten Modells - das Inferencing - ist nun nicht nur schneller als das Sprachsample lang ist, sondern das neue Modell kann das Inferencing auch schon während der Aufnahme der Sprachdaten beginnen. Bisher konnte das Modell nur mit einer abgeschlossenen Spracheingabe arbeiten.

Damit dies funktioniert, hat das Team das zugrundeliegende Modell so umgebaut, dass dies eben mit Streams zurechtkommt. Dazu werden nun die Audiodaten stückweise analysiert und das Ergebnis daraus zusammengesetzt. Technische Details zur Vorgehensweise liefert der Blogeintrag.

Golem Akademie
  1. CEH Certified Ethical Hacker v11: virtueller Fünf-Tage-Workshop
    10.–14. Januar 2022, Virtuell
  2. C++ Programmierung Basics: virtueller Fünf-Tage-Workshop
    13.–17. Dezember 2021, virtuell
Weitere IT-Trainings

Zusätzlich zu der Geschwindigkeitssteigerung ist das neue trainierte Modell, das Mozilla zur Weiterverwendung unter einer freien Lizenz bereitstellt, nun nur noch rund 180 MByte groß - eine Reduktion um mehr als 60 Prozent. Ebenso sinkt die maximale Speicherbelastung von 12 GByte auf nur noch 264 MByte.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


pitsch 09. Okt 2018

es gibt wohl auch ein raspi projekt zu snips https://medium.com/@zibra_/how-to-build-a...

Kukulkan 20. Sep 2018

Mal im Ernst, es geht mir schon seit einiger Zeit auf den Keks dass man Spracherkennung...

ul mi 20. Sep 2018

hätte man das nicht "Mozilla Free Speech" nennen können? Vermeidet auch, dass sich...

tundracomp 20. Sep 2018

Bei DeepSpeech ist vom relevanten Code wahrscheinlich sowieso 90%+ von Googles TensorFlow...



Aktuell auf der Startseite von Golem.de
Lieferengpässe
Ist es moralisch okay, eine PS5 auf Ebay zu kaufen?

Kein Warten mehr, 200 bis 300 Euro Aufpreis: Wer eine Playstation 5 will, kann sie sofort haben. Falls das Gewissen mitspielt.
Ein IMHO von Peter Steinlechner

Lieferengpässe: Ist es moralisch okay, eine PS5 auf Ebay zu kaufen?
Artikel
  1. Telefonie, SMS und Internet: EU-Roaming-Regeln werden bis 2032 verlängert
    Telefonie, SMS und Internet
    EU-Roaming-Regeln werden bis 2032 verlängert

    Damit kann das Smartphone auf Reisen weiterhin innerhalb der EU mit den gleichen Konditionen wie zu Hause verwendet werden.

  2. Code-Hoster: Github baut Code-Suche komplett neu
    Code-Hoster
    Github baut Code-Suche komplett neu

    Die neue Code-Suche von Github ist in Rust geschrieben, soll schneller sein als bisher und die Ergebnisse leichter verständlich machen.

  3. Verkehrssicherheit: Teslas werden zu rollender Spielkonsole und zur Gefahr
    Verkehrssicherheit
    Teslas werden zu rollender Spielkonsole und zur Gefahr

    Nach einem Software-Update können bei laufender Fahrt im Tesla drei Spiele gespielt werden. Die Verkehrssicherheitsbehörde ist entsetzt.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RAM-Module und SSDs von Crucial im Angebot • Acer-Monitore zu Bestpreisen (u. a. 27" FHD 165Hz OC 199€) • Kingston PCIe-SSD 1TB 69,90€ & 2TB 174,90€ • Microsoft Flight Simulator Xbox 29,99€ • Alternate (u. a. Kingston A400 480 GB SSD 37,99€) • Release: Halo Infinite 68,99€ [Werbung]
    •  /