Abo
  • Services:

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. soft-nrg Development GmbH', Dornach
  2. 10X Innovation GmbH & Co. KG, Berlin

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".



Anzeige
Top-Angebote
  1. (u. a. Razer DeathAdder Elite Destiny 2 Edition für 29€ statt 65,99€ im Vergleich und Razer...
  2. (u. a. LG OLED65W8PLA für 4.444€ statt 4.995€ im Vergleich)
  3. 79,90€ + Versand (Vergleichspreis ca. 103€)
  4. (u. a. WARHAMMER für 11,99€ und WARHAMMER II für 32,99€)

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.


Folgen Sie uns
       


3D Mark Raytracing Demo (RTX 2080 Ti vs. GTX 1080 Ti)

Wir haben die Raytracing Demo von 3D Mark auf Nvidias neuer Geforce RTX 2080 Ti und der älteren Geforce GTX 1080 Ti abspielen lassen.

3D Mark Raytracing Demo (RTX 2080 Ti vs. GTX 1080 Ti) Video aufrufen
Athlon 200GE im Test: Celeron und Pentium abgehängt
Athlon 200GE im Test
Celeron und Pentium abgehängt

Mit dem Athlon 200GE belebt AMD den alten CPU-Markennamen wieder: Der Chip gefällt durch seine Zen-Kerne und die integrierte Vega-Grafikeinheit, die Intel-Konkurrenz hat dem derzeit preislich wenig entgegenzusetzen.
Ein Test von Marc Sauter

  1. AMD Threadripper erhalten dynamischen NUMA-Modus
  2. HP Elitedesk 705 Workstation Edition Minitower mit AMD-CPU startet bei 680 Euro
  3. Ryzen 5 2600H und Ryzen 7 2800H 45-Watt-CPUs mit Vega-Grafik für Laptops sind da

Life is Strange 2 im Test: Interaktiver Road-Movie-Mystery-Thriller
Life is Strange 2 im Test
Interaktiver Road-Movie-Mystery-Thriller

Keine heile Teenagerwelt mit Partys und Liebeskummer: Allein in den USA der Trump-Ära müssen zwei Brüder mit mexikanischen Wurzeln in Life is Strange 2 nach einem mysteriösen Unfall überleben. Das Adventure ist bewegend und spannend - trotz eines grundsätzlichen Problems.
Von Peter Steinlechner

  1. Adventure Leisure Suit Larry landet im 21. Jahrhundert

Shine 3: Neuer Tolino-Reader bringt mehr Lesekomfort
Shine 3
Neuer Tolino-Reader bringt mehr Lesekomfort

Die Tolino-Allianz bringt das Nachfolgemodell des Shine 2 HD auf den Markt. Das Shine 3 erhält mehr Ausstattungsdetails aus der E-Book-Reader-Oberklasse. Vor allem beim Lesen macht sich das positiv bemerkbar.
Ein Hands on von Ingo Pakalski

  1. E-Book-Reader Update macht Tolino-Geräte unbrauchbar

    •  /