Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. Sachbearbeiter Datenmanagement Netz (m/w/d)
    WEMAG Netz GmbH, Schwerin
  2. (Junior) IT-Anforderungsmanager (m/w/x) Warenwirtschaftssysteme / Filialhandel - International
    ALDI International Services GmbH & Co. oHG, Mülheim an der Ruhr
Detailsuche

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Gesetz tritt in Kraft
Die Uploadfilter sind da

Ab sofort haften große Plattformen für die Uploads ihrer Nutzer. Zu mehr Lizenzvereinbarungen hat das bei der Gema noch nicht geführt.
Ein Bericht von Friedhelm Greis

Gesetz tritt in Kraft: Die Uploadfilter sind da
Artikel
  1. Mercedes-Benz: Daimler rechnet mit Abbau von Arbeitsplätzen durch E-Autos
    Mercedes-Benz
    Daimler rechnet mit Abbau von Arbeitsplätzen durch E-Autos

    Mehr Elektroautos bei Daimler bedeuten nach Ansicht der Chefetage weniger Arbeitsplätze. Grund sei der einfachere Einbau eines Elektromotors.

  2. VW, BMW, Daimler: Jedes sechste Elektroauto ist von deutschem Hersteller
    VW, BMW, Daimler
    Jedes sechste Elektroauto ist von deutschem Hersteller

    Das Elektroauto gewinnt an Fahrt bei den deutschen Herstellern und Autokäufern. Bei Angebot und Nachfrage dominiert China.

  3. Sicherheitslücken: Zoom zahlt 85 Millionen US-Dollar an Kunden
    Sicherheitslücken
    Zoom zahlt 85 Millionen US-Dollar an Kunden

    Zoom soll Kunden mit falschen Sicherheitsversprechen in die Irre geführt und Daten mit Facebook ausgetauscht haben.

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.



Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Schnäppchen • Acer XB323UGP (WQHD, 170Hz) 580,43€ • Acer XV340CKP (UWQHD, 144 Hz) 465,78€ • Razer BlackShark V2 + Base Station V2 Chroma 94,98€ • Mega-Marken-Sparen bei MM • Saturn: 1 Produkt zahlen, 2 erhalten • Alternate (u. a. AKRacing Core EX-Wide SE 248,99€) • Fallout 4 GOTY 9,99€ [Werbung]
    •  /