Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. IT Solutions Engineer S/4 HANA - Innovation & Technology Enablement (m/w/d)
    Schaeffler Technologies AG & Co. KG, Nürnberg (Home-Office möglich)
  2. Trainee (m/w/d) Controlling - Business Intelligence
    AOK Bayern - Die Gesundheitskasse, München
Detailsuche

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Neue Studie
Des Klimawandels unumkehrbare Folgen

Wer denkt, dass sich beim Klima alles wieder einrenkt, wenn wir nur langsam unseren Treibhausgas-Ausstoß reduzieren, irrt. Eine neue Studie zeigt: Es muss schnell viel passieren, denn manche Änderungen sind unumkehrbar.
Ein Bericht von Dirk Eidemüller

Neue Studie: Des Klimawandels unumkehrbare Folgen
Artikel
  1. Recruiting: Personalauswahl mit KI kann Unternehmen schaden
    Recruiting
    Personalauswahl mit KI kann Unternehmen schaden

    Software ist objektiv und kennt keine Vorurteile, das macht Künstliche Intelligenz interessant für die Personalauswahl. Ist KI also besser als Personaler? Die Bewerber sind skeptisch und die Wissenschaft liefert keinen Beweis dafür.
    Ein Bericht von Peter Ilg

  2. Ubisoft: Far Cry 6 schickt Dani in außerirdische Zwischendimension
    Ubisoft
    Far Cry 6 schickt Dani in außerirdische Zwischendimension

    Kristallgegener und verdrehte Siedlungen statt Südsee: In wenigen Tagen erscheint die Erweiterung Lost Between Worlds für Far Cry 6.

  3. Kraftfahrt-Bundesamt: Elektrischer Corsa sollte zur Abgasuntersuchung
    Kraftfahrt-Bundesamt
    Elektrischer Corsa sollte zur Abgasuntersuchung

    Das Kraftfahrt-Bundesamt ruft den Opel Corsa samt der Elektro-Variante zurück, weil ein Softwarefehler im Auto eine Messung verhindert.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5 bei Amazon bestellbar • Tiefstpreise: Crucial SSD 4TB 319€, Palit RTX 4080 1.499€, HTC Vive Pro 2 659€ • Alternate: Team Group SSD 512GB 29,99€, AOC Curved 27" 240 Hz 199,90€ • Samsung Cyber Week • Top-TVs (2022) LG & Samsung über 40% günstiger • AOC Curved 34" WQHD 389€ [Werbung]
    •  /