Spracherkennung: Google mischt Sprachdaten für bessere Erkennung

Googles KI-Team hat erstmals viele verschiedene Sprachdaten zusammen zum Training eines Modells verwendet. Das Ergebnis überzeugt.

Artikel veröffentlicht am ,
Mit Speechstew zeigen Google-Forscher, wie Spracherkennung verbessert werden kann.
Mit Speechstew zeigen Google-Forscher, wie Spracherkennung verbessert werden kann. (Bild: Oriental Image via Reuters Connect)

Ein Team aus Googles Forschungs- und Brain-Abteilungen hat eigenen Angaben zufolge "alle" derzeit verfügbaren Ausgangsdaten zur Spracherkennung genutzt, um daraus ein einziges riesiges neuronales Netz zu trainieren. Dies berichtet das Magazin Venture Beat. Das Ergebnis erreiche in Bezug auf die Spracherkennung Werte, die mit anderen an vielen Details verbesserten Modellen mithalten könnten.

Stellenmarkt
  1. Specialist IT Strategy and IT Compliance (m/w/d)
    Allianz Kunde und Markt GmbH, Unterföhring (bei München)
  2. (Senior) Project Manager für Android- oder iOS-Applikationen (m/w/d)
    ALDI International Services SE & Co. oHG, Mülheim an der Ruhr
Detailsuche

Oft werden Modelle zur Spracherkennung lediglich mit einem Satz von Ausgangsdaten trainiert, da diese etwa in Bezug auf ihre Annotation und vor allem Sprachqualität häufig sehr homogen sind. Das vereinfacht letztlich auch die Arbeit mit den Daten und das Optimieren eines Modells. Im Fall des nun vorgestellten Modells Speechstew, was so viel bedeutet wie Sprecheintopf, entschieden sich die beteiligten Forscher jedoch für einen gänzlich anderen Ansatz.

Den Angaben zufolge wurden für Speechstew die Sprachdaten aus folgenden Korpora für gesprochene Sprache kombiniert: "AMI, Broadcast News, Mozilla Common Voice, Librispeech, Switchboard/Fisher, Tedlium, und Wall Street Journal". Diese seien schlicht vermischt worden, ohne einzelne Bestandteile speziell zu gewichten oder aufeinander abzustimmen. Die Daten umfassen zusammen mehr als 5.000 Stunden annotierte Sprachdaten.

Spracherkennung übertrifft klassische Modelle

Laut den Aussagen des Teams erreicht Speechstew in einigen Benchmarks wie erwähnt die Spracherkennung anderer moderner Systeme oder übertrifft diese teils sogar. Darüber hinaus soll das Modell in der Lage dazu sein, sich an unterschiedliche Aufgaben anzupassen. Dazu reichten vergleichsweise wenige zusätzliche Ausgangsdaten, um letztlich die Ergebnisse von speziell trainierten und angepassten Modellen zu erreichen. Das dürfte auf die breite Vielfalt der gewählten Ausgangsdaten zurückzuführen sein.

Golem Karrierewelt
  1. Go für Einsteiger: virtueller Zwei-Tages-Workshop
    30./31.03.2023, Virtuell
  2. Elastic Stack Fundamentals – Elasticsearch, Logstash, Kibana, Beats: virtueller Drei-Tage-Workshop
    10.-12.07.2023, Virtuell
Weitere IT-Trainings

Auf Nachfrage von Venture Beat zur praktischen Anwendung dieser Erkenntnisse antworten die beteiligten Forscher zurückhaltend. Möglicherweise seien Arbeiten wie Speechstew aber künftig als eine Art allgemein einsetzbares Modell nutzbar, das als Grundlage für weitere spezialisierte Aufgaben der Spracherkennung diene.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Morgan Stanley
Bank reicht Whatsapp-Millionen-Strafe an Angestellte weiter

Wegen der Nutzung von Whatsapp hatten Finanzregulatoren 2022 mehrere Banken mit hohen Strafen belegt.

Morgan Stanley: Bank reicht Whatsapp-Millionen-Strafe an Angestellte weiter
Artikel
  1. Mac Mini mit M2 Pro im Test: Der perfekte Einstieg in die Mac-Welt
    Mac Mini mit M2 Pro im Test
    Der perfekte Einstieg in die Mac-Welt

    In vielen Anwendungsszenarien kann der M2 Pro im Mac Mini mit dem M2 Max mithalten. Der Umstieg auf MacOS fällt so leicht wie nie zuvor.
    Ein Test von Oliver Nickel

  2. Künstliche Intelligenz: Buzzfeed will ChatGPT für personalisierte Inhalte nutzen
    Künstliche Intelligenz
    Buzzfeed will ChatGPT für personalisierte Inhalte nutzen

    Unter anderem seine bekannten Quizze will Buzzfeed mit Hilfe von ChatGPT verbessern. Mitarbeiter soll die KI nicht ersetzen.

  3. Galaxus: Onlinehändler macht Retouren- und Garantiequoten öffentlich
    Galaxus
    Onlinehändler macht Retouren- und Garantiequoten öffentlich

    Je mehr Informationen zu einem Produkt bekannt sind, desto besser lässt sich eine Kaufentscheidung fällen. Hierbei will Galaxus mit exklusiven Daten helfen.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • XFX RX 7900 XTX 1.199€ • WSV bei MM • Razer Viper V2 Pro 119,99€ • MindStar: XFX RX 6950 XT 799€, MSI RTX 4090 1.889€ • Epos Sennheiser Game One -55% • RAM/Graka-Preisrutsch • Gaming-Stuhl Razer/HP bis -41% • 3D-Drucker 249€ • Kingston SSD 1TB 49€ • Asus RTX 4080 1.399€[Werbung]
    •  /