• IT-Karriere:
  • Services:

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. IHK Industrie- und Handelskammer Gießen-Friedberg, Friedberg
  2. Deutsche Rentenversicherung Bund, Berlin

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. MSI Optix G24C für 155,00€, Asus VP278H für 125,00€, LG 27UD59-W für 209,00€ und HP...
  2. (u. a. 970 Evo 1 TB für 149,90€, 970 Evo 500 GB für 77,90€)

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.


Folgen Sie uns
       


Google Stadia - Test

Beim Test haben wir verschiedene Spiele auf Stadia von Google ausprobiert und uns mit der Einrichtung und dem Zugang beschäftigt.

Google Stadia - Test Video aufrufen
SpaceX: Der Weg in den Weltraum ist frei
SpaceX
Der Weg in den Weltraum ist frei

Das Raumschiff hob noch ohne Besatzung ab, aber der Testflug war ein voller Erfolg. Der Crew Dragon von SpaceX hat damit seine letzte große Bewährungsprobe bestanden, bevor die Astronauten auch mitfliegen dürfen.
Ein Bericht von Frank Wunderlich-Pfeiffer

  1. Raumfahrt SpaceX macht Sicherheitstest bei höchster Belastung
  2. Raumfahrt SpaceX testet dunkleren Starlink-Satelliten
  3. SpaceX Starship platzt bei Tanktest

Kailh-Box-Switches im Test: Besser und lauter geht ein klickender Switch kaum
Kailh-Box-Switches im Test
Besser und lauter geht ein klickender Switch kaum

Wer klickende Tastatur-Switches mag, wird die dunkelblauen Kailh-Box-Schalter lieben: Eine eingebaute Stahlfeder sorgt für zwei satte Klicks pro Anschlag. Im Test merken unsere Finger aber schnell den hohen taktilen Widerstand.
Ein Test von Tobias Költzsch

  1. Keychron K6 Kompakte drahtlose Tastatur mit austauschbaren Switches
  2. Charachorder Schneller tippen als die Tastatur erlaubt
  3. Brydge+ iPad-Tastatur mit Multi-Touch-Trackpad

Sicherheitslücken: Microsoft-Parkhäuser ungeschützt im Internet
Sicherheitslücken
Microsoft-Parkhäuser ungeschützt im Internet

Eigentlich sollte die Parkhaussteuerung nicht aus dem Internet erreichbar sein. Doch auf die Parkhäuser am Microsoft-Hauptsitz in Redmond konnten wir problemlos zugreifen. Nicht das einzige Sicherheitsproblem auf dem Parkhaus-Server.
Von Moritz Tremmel

  1. Datenleck Microsoft-Datenbank mit 250 Millionen Support-Fällen im Netz
  2. Office 365 Microsoft testet Werbebanner in Wordpad für Windows 10
  3. Application Inspector Microsoft legt Werkzeug zur Code-Analyse offen

    •  /