Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
OpenAI
Girlfriend-Chatbots verstoßen gegen die Regeln des GPT-Store

Nur einen Tag, nachdem OpenAI ChatGPT für Entwickler geöffnet hat, lassen sich Angebote finden, die es nicht geben dürfte.

OpenAI: Girlfriend-Chatbots verstoßen gegen die Regeln des GPT-Store
Artikel
  1. AVM: Huawei-Patent kommt in Fritzboxen nicht zum Einsatz
    AVM
    Huawei-Patent kommt in Fritzboxen nicht "zum Einsatz"

    Huawei hat einen großen Patentpool zu Wi-Fi 6. Fritzbox-Hersteller AVM hat die Patente nach eigenen Angaben in seinen Wi-Fi-6-Routern nicht genutzt, will sie aber dennoch für ungültig erklären lassen.

  2. LTE: Kaum weniger Funklöcher in Deutschland
    LTE
    Kaum weniger Funklöcher in Deutschland

    Während bei 5G viel ausgebaut wurde, haben die Netzbetreiber zu wenig LTE-Funklöcher geschlossen. Das ergab zumindest eine Auswertung von Verivox.

  3. E-Corner: Hyundai entwickelt Klappräder zum seitlichen Einparken
    E-Corner
    Hyundai entwickelt Klappräder zum seitlichen Einparken

    Die Hyundai-Tochter Mobis präsentiert eine Technik, mit der sich die Autoräder seitlich drehen lassen, um das parallele Einparken zu erleichtern.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Lenovo 34" 21:9 Curved WQHD 299€ • ASRock RX 7900 XTX 1.039,18€ • War Hospital 21,59€ • Amazon-Geräte -50% • Acer 34" OLED UWQHD 175Hz 999€ • PS5 + Spider-Man 2 569€ • AMD Ryzen 9 5950X 379€ • Switch-Controller 17,84€ • AOC 27" QHD 165Hz 229€ • 3 Spiele für 49€ [Werbung]
    •  /