Abo
  • IT-Karriere:

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. Techniker Krankenkasse, Hamburg
  2. Wirecard Technologies GmbH, Aschheim bei München

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".



Anzeige
Spiele-Angebote
  1. 4,99€
  2. (-80%) 5,99€
  3. 69,99€ (Release am 21. Februar 2020, mit Vorbesteller-Preisgarantie)
  4. 4,99€

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.


Folgen Sie uns
       


Tolino Vision 5 HD und Epos 2 im Hands On

Tolino zeigt mit Vision 5 HD und Epos 2 zwei neue Oberklasse-E-Book-Reader. Der Epos 2 kann durch ein besonders dünnes Display begeistern.

Tolino Vision 5 HD und Epos 2 im Hands On Video aufrufen
Telekom Smart Speaker im Test: Der smarte Lautsprecher, der mit zwei Zungen spricht
Telekom Smart Speaker im Test
Der smarte Lautsprecher, der mit zwei Zungen spricht

Die Deutsche Telekom bietet derzeit den einzigen smarten Lautsprecher an, mit dem sich parallel zwei digitale Assistenten nutzen lassen. Der Magenta-Assistent lässt einiges zu wünschen übrig, aber die Parallelnutzung von Alexa funktioniert schon fast zu gut.
Ein Test von Ingo Pakalski

  1. Smarte Lautsprecher Amazon liegt nicht nur in Deutschland vor Google
  2. Pure Discovr Schrumpfender Alexa-Lautsprecher mit Akku wird teurer
  3. Bose Portable Home Speaker Lautsprecher mit Akku, Airplay 2, Alexa und Google Assistant

Banken: Die Finanzbranche braucht eine neue Strategie für ihre IT
Banken
Die Finanzbranche braucht eine neue Strategie für ihre IT

Ob Deutsche Bank, Commerzbank oder DKB: Immer wieder wackeln Server und Anwendungen bei großen Finanzinstituten. Viele Kernbanksysteme sind zu alt für aktuelle Anforderungen. Die Branche sucht nach Auswegen.
Eine Analyse von Manuel Heckel

  1. Bafin Kunden beklagen mehr Störungen beim Online-Banking
  2. PSD2 Giropay soll bald nahezu allen Kunden zur Verfügung stehen
  3. Klarna Der Schrecken der traditionellen Banken

Minecraft Earth angespielt: Die Invasion der Klötzchen
Minecraft Earth angespielt
Die Invasion der Klötzchen

Kämpfe mit Skeletten im Stadtpark, Begegnungen mit Schweinchen im Einkaufszentrum: Golem.de hat Minecraft Earth ausprobiert. Trotz Sammelaspekten hat das AR-Spiel ein ganz anderes Konzept als Pokémon Go - aber spannend ist es ebenfalls.
Von Peter Steinlechner

  1. Microsoft Minecraft hat 112 Millionen Spieler im Monat
  2. Machine Learning Facebooks KI-Assistent hilft beim Bau von Minecraft-Werken
  3. Nvidia Minecraft bekommt Raytracing statt Super-Duper-Grafik

    •  /