Spracherkennung: Google mischt Sprachdaten für bessere Erkennung
Googles KI-Team hat erstmals viele verschiedene Sprachdaten zusammen zum Training eines Modells verwendet. Das Ergebnis überzeugt.

Ein Team aus Googles Forschungs- und Brain-Abteilungen hat eigenen Angaben zufolge "alle" derzeit verfügbaren Ausgangsdaten zur Spracherkennung genutzt, um daraus ein einziges riesiges neuronales Netz zu trainieren. Dies berichtet das Magazin Venture Beat. Das Ergebnis erreiche in Bezug auf die Spracherkennung Werte, die mit anderen an vielen Details verbesserten Modellen mithalten könnten.
Oft werden Modelle zur Spracherkennung lediglich mit einem Satz von Ausgangsdaten trainiert, da diese etwa in Bezug auf ihre Annotation und vor allem Sprachqualität häufig sehr homogen sind. Das vereinfacht letztlich auch die Arbeit mit den Daten und das Optimieren eines Modells. Im Fall des nun vorgestellten Modells Speechstew, was so viel bedeutet wie Sprecheintopf, entschieden sich die beteiligten Forscher jedoch für einen gänzlich anderen Ansatz.
Den Angaben zufolge wurden für Speechstew die Sprachdaten aus folgenden Korpora für gesprochene Sprache kombiniert: "AMI, Broadcast News, Mozilla Common Voice, Librispeech, Switchboard/Fisher, Tedlium, und Wall Street Journal". Diese seien schlicht vermischt worden, ohne einzelne Bestandteile speziell zu gewichten oder aufeinander abzustimmen. Die Daten umfassen zusammen mehr als 5.000 Stunden annotierte Sprachdaten.
Spracherkennung übertrifft klassische Modelle
Laut den Aussagen des Teams erreicht Speechstew in einigen Benchmarks wie erwähnt die Spracherkennung anderer moderner Systeme oder übertrifft diese teils sogar. Darüber hinaus soll das Modell in der Lage dazu sein, sich an unterschiedliche Aufgaben anzupassen. Dazu reichten vergleichsweise wenige zusätzliche Ausgangsdaten, um letztlich die Ergebnisse von speziell trainierten und angepassten Modellen zu erreichen. Das dürfte auf die breite Vielfalt der gewählten Ausgangsdaten zurückzuführen sein.
Auf Nachfrage von Venture Beat zur praktischen Anwendung dieser Erkenntnisse antworten die beteiligten Forscher zurückhaltend. Möglicherweise seien Arbeiten wie Speechstew aber künftig als eine Art allgemein einsetzbares Modell nutzbar, das als Grundlage für weitere spezialisierte Aufgaben der Spracherkennung diene.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Als ich als studentische Hilfskraft 2009 noch oldschool mit C++ die Vorverarbeitung und...