Spracherkennung: Google mischt Sprachdaten für bessere Erkennung

Googles KI-Team hat erstmals viele verschiedene Sprachdaten zusammen zum Training eines Modells verwendet. Das Ergebnis überzeugt.

Artikel veröffentlicht am ,
Mit Speechstew zeigen Google-Forscher, wie Spracherkennung verbessert werden kann.
Mit Speechstew zeigen Google-Forscher, wie Spracherkennung verbessert werden kann. (Bild: Oriental Image via Reuters Connect)

Ein Team aus Googles Forschungs- und Brain-Abteilungen hat eigenen Angaben zufolge "alle" derzeit verfügbaren Ausgangsdaten zur Spracherkennung genutzt, um daraus ein einziges riesiges neuronales Netz zu trainieren. Dies berichtet das Magazin Venture Beat. Das Ergebnis erreiche in Bezug auf die Spracherkennung Werte, die mit anderen an vielen Details verbesserten Modellen mithalten könnten.

Stellenmarkt
  1. Partner & Business Operations Manager (w/m/d) OZG-Umsetzung
    HanseVision GmbH, Hamburg
  2. (Wirtschafts-)Informatikerin als IT-Serviceverantwortliche (m/w/d) für den Bereich Netzwerk
    Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V., München
Detailsuche

Oft werden Modelle zur Spracherkennung lediglich mit einem Satz von Ausgangsdaten trainiert, da diese etwa in Bezug auf ihre Annotation und vor allem Sprachqualität häufig sehr homogen sind. Das vereinfacht letztlich auch die Arbeit mit den Daten und das Optimieren eines Modells. Im Fall des nun vorgestellten Modells Speechstew, was so viel bedeutet wie Sprecheintopf, entschieden sich die beteiligten Forscher jedoch für einen gänzlich anderen Ansatz.

Den Angaben zufolge wurden für Speechstew die Sprachdaten aus folgenden Korpora für gesprochene Sprache kombiniert: "AMI, Broadcast News, Mozilla Common Voice, Librispeech, Switchboard/Fisher, Tedlium, und Wall Street Journal". Diese seien schlicht vermischt worden, ohne einzelne Bestandteile speziell zu gewichten oder aufeinander abzustimmen. Die Daten umfassen zusammen mehr als 5.000 Stunden annotierte Sprachdaten.

Spracherkennung übertrifft klassische Modelle

Laut den Aussagen des Teams erreicht Speechstew in einigen Benchmarks wie erwähnt die Spracherkennung anderer moderner Systeme oder übertrifft diese teils sogar. Darüber hinaus soll das Modell in der Lage dazu sein, sich an unterschiedliche Aufgaben anzupassen. Dazu reichten vergleichsweise wenige zusätzliche Ausgangsdaten, um letztlich die Ergebnisse von speziell trainierten und angepassten Modellen zu erreichen. Das dürfte auf die breite Vielfalt der gewählten Ausgangsdaten zurückzuführen sein.

Golem Akademie
  1. Einführung in die Programmierung mit Rust: virtueller Fünf-Halbtage-Workshop
    21.–25. März 2022, Virtuell
  2. Cloud Transformation Roadmap: Strategien, Roadmap, Governance: virtueller Zwei-Tage-Workshop
    7.–8. März 2022, Virtuell
Weitere IT-Trainings

Auf Nachfrage von Venture Beat zur praktischen Anwendung dieser Erkenntnisse antworten die beteiligten Forscher zurückhaltend. Möglicherweise seien Arbeiten wie Speechstew aber künftig als eine Art allgemein einsetzbares Modell nutzbar, das als Grundlage für weitere spezialisierte Aufgaben der Spracherkennung diene.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Lego Star Wars UCS AT-AT aufgebaut
"Das ist kein Mond, das ist ein Lego-Modell"

Ganz wie der Imperator es wünscht: Der Lego UCS AT-AT ist riesig und imposant - und eines der besten Star-Wars-Modelle aus Klemmbausteinen.
Ein Praxistest von Oliver Nickel

Lego Star Wars UCS AT-AT aufgebaut: Das ist kein Mond, das ist ein Lego-Modell
Artikel
  1. Kryptowährung im Fall: Bitcoin legt rasante Talfahrt hin
    Kryptowährung im Fall
    Bitcoin legt rasante Talfahrt hin

    Am Samstag setzte sich der Absturz des Bitcoin fort. Ein Bitcoin ist nur noch 34.200 US-Dollar wert. Auch andere Kryptowährungen machen Verluste.

  2. eStream: Airstream-Wohnwagen mit eigenem Elektroantrieb
    eStream
    Airstream-Wohnwagen mit eigenem Elektroantrieb

    Der Wohnwagen Airstream eStream besitzt einen eigenen Elektroantrieb nebst Akku. Das entlastet das Zugfahrzeug und eröffnet weitere Möglichkeiten.

  3. Andromeda: Dieses Microsoft-Smartphone-Betriebssystem erschien nie
    Andromeda
    Dieses Microsoft-Smartphone-Betriebssystem erschien nie

    Erstmals ist ein Blick auf Andromeda möglich - das Smartphone-Betriebssystem, das Microsoft bereits vor einigen Jahren eingestellt hat.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MediaMarkt & Saturn: Heute alle Produkte versandkostenfrei • Corsair Vengeance RGB RT 16-GB-Kit DDR4-4000 114,90€ • Alternate (u.a. DeepCool AS500 Plus 61,89€) • Acer XV282K UHD/144 Hz 724,61€ • MindStar (u.a. be quiet! Pure Power 11 CM 600W 59€) • Sony-TVs heute im Angebot [Werbung]
    •  /