• IT-Karriere:
  • Services:

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. Heinrich-Heine-Universität Düsseldorf, Düsseldorf
  2. Apotheke im Paunsdorf Center Inh. Kirsten Fritsch e. K., Markkleeberg

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. (u. a. Sharkoon PureWriter TKL RGB Gaming-Tastatur für 49,90€, Cooler Master Silencio FP 140 PWM...
  2. 119,90€ (Bestpreis!)
  3. mit 279€ Tiefpreis bei Geizhals
  4. (u. a. Total War Three Kingdoms - Royal Edition für 18,49€, Ride 4 für 20,99€, Resident Evil...

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.


Folgen Sie uns
       


Einfache Fluid-Simulation in Blender - Tutorial

Wir zeigen im Video, wie man in 15 Minuten eine Flüssigkeit in Blender animiert.

Einfache Fluid-Simulation in Blender - Tutorial Video aufrufen
The Secret of Monkey Island: Ich bin ein übelriechender, groggurgelnder Pirat!
The Secret of Monkey Island
"Ich bin ein übelriechender, groggurgelnder Pirat!"

Das wunderbare The Secret of Monkey Island feiert seinen 30. Geburtstag. Golem.de hat einen neuen Durchgang gewagt - und wüst geschimpft.
Von Benedikt Plass-Fleßenkämper


    Corsair K60 RGB Pro im Test: Teuer trotz Viola
    Corsair K60 RGB Pro im Test
    Teuer trotz Viola

    Corsair verwendet in der K60 Pro RGB als erster Hersteller Cherrys neue preiswerte Viola-Switches. Anders als Cherrys günstige MY-Schalter aus den 80ern hinterlassen diese einen weitaus besseren Eindruck bei uns - der Preis der Tastatur hingegen nicht.
    Ein Test von Tobias Költzsch

    1. Corsair K100 RGB im Test Das RGB-Monster mit der Lichtschranke
    2. Corsair Externes Touchdisplay ermöglicht schnelle Einstellungen
    3. Corsair One a100 im Test Ryzen-Wasserturm richtig gemacht

    Pinephone im Test: Das etwas pineliche Linux-Phone für Bastler
    Pinephone im Test
    Das etwas pineliche Linux-Phone für Bastler

    Mit dem Pinephone gibt es endlich wieder ein richtiges Linux-Telefon, samt freier Treiber und ohne Android. Das Projekt scheitert aber leider noch an der Realität.
    Ein Test von Sebastian Grüner

    1. Linux Mehr Multi-Touch-Support in Elementary OS 6
    2. Kernel Die Neuerungen im kommenden Linux 5.9
    3. VA-API Firefox bringt Linux-Hardwarebeschleunigung auch für X11

      •  /