Abo
  • Services:

Tacotron 2: Googles Sprachsynthese erreicht fast menschliche Qualität

Für die aktuelle Version seiner Sprachsynthese aus Text kombiniert Google verschiedene Ansätze und erreicht so fast die Qualität professionell vorgelesener Aufnahmen. Das System, Tacotron 2, hat aber noch große Schwierigkeiten mit Fremdwörtern und praktische Probleme.

Artikel veröffentlicht am ,
Die neue Sprachsynthese von Google kombiniert zwei verschiedene Ansätze.
Die neue Sprachsynthese von Google kombiniert zwei verschiedene Ansätze. (Bild: Google)

In einer nur vier Seiten langen Abhandlung beschreibt ein Forscherteam von Google einen neues System für die Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS). Das Modell mit dem Namen Tacotron 2, das Google auch kurz in seinem Forschungsblog vorstellt und beschreibt, soll laut eigenen Untersuchungen fast so gute Ergebnisse liefern wie professionelle Aufnahmen, in denen Menschen Texte vorlesen. Diese Qualität dürfte bisher völlig unerreicht sein.

Stellenmarkt
  1. item Industrietechnik GmbH, Solingen
  2. MED-EL Medical Electronics, Innsbruck (Österreich)

Für dieses Ergebnis kombiniert das Forscherteam von Google gleich zwei relativ junge und vergleichsweise sehr fortschrittliche Arbeiten auf dem Gebiet des maschinellen Lernen zur Spracherzeugung. Dazu gehört einerseits Tacotron in Version 1, das Google erst in diesem Frühjahr vorgestellt hat sowie Wavenet, das aus dem Google-Schwesterunternehmen Deepmind stammt und inzwischen in Googles Assistant genutzt wird.

Aus zwei mach eins

Tacotron 1 nutzt als Ausgangslage, um das Modell zu trainieren, Paare aus Text und dazugehörigem Audiomaterial. Die Aufnahmen stammen von einer professionellen Sprecherin des North-American-English. Dies wird für einen Ende-zu-Ende-Ansatz genutzt, sodass die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden kann. Dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase erzeugt Tacotron auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Wavenet ist darauf ausgelegt, direkt eine Wellenform für Sprache zu erzeugen, was durch ein Training auf entsprechendem Audiomaterial basiert. Wavenet lernt aus diesen Beispielen wiederum selbstständig und theoretisch auch sprachunabhängig die eigentliche Struktur der gesprochenen Sprache, "also etwa, welche Töne aufeinander folgen und welche Wellenformen realistisch sind (und welche nicht)".

Für Tacotron 2 wird nun ein Sequence-to-Sequence-Modell genutzt, das aus einer gegebenen Sequenz von Buchstaben eine Sequenz von Eigenschaften erzeugt, die das gewünschte Audiosignal kodieren. Gespeichert wird dies in einem Mel-Frequenz-Spektrogramm, was also psychoakustische Signale enthält, die nicht nur die gewünschte Aussprache repräsentieren, sondern auch Lautstärke, Geschwindigkeit oder auch Betonung.

Eine modifizierte Version von Wavenet erzeugt aus diesem Spektrogramm das zur Ausgebe vorgesehene Audiosignal. Die so erstellte Sprachsynthese vereint die Prosodie-Fähigkeiten von Tacotron mit der Audioqualität von Wavenet.

Ausgezeichnete Qualität mit Ausreißern

Mit einem extrem guten Mean Opinion Score (MOS) von 4,53 erreicht das Modell sogar annähernd die Qualität, mit der auch die professionellen Sprachaufnahmen im Mittel bewertet werden. Von der Güte des Modells können sich Interessierte selbst überzeugen, da Google einige Synthese-Beispiele bereitstellt.

Das Unternehmen geht aber auch selbstkritisch auf Mängel des Systems ein. Probleme hat Tacotron 2 derzeit zum Beispiel noch mit Fremdwörtern wie etwa der Weinsorte Merlot. Im Extremfall werde sogar nur zufälliges Rauschen erzeugt. Problematisch für eine praktische Anwendung ist auch noch, dass das Modell nicht in Echtzeit synthetisieren kann, ebenso wenig könnten Stimmungen über das Sprachsignal ausgedrückt werden. Traurig oder glücklich klingt die Stimme also nie, sondern immer gleich. Das alles seien aber Möglichkeiten für weiter Forschungsarbeiten, so Google.



Anzeige
Blu-ray-Angebote
  1. (u. a. Der Marsianer, Spaceballs, Titanic, Batman v Superman)
  2. (u. a. Deadpool, Alien Covenant, Assassins Creed)
  3. (2 Monate Sky Ticket für nur 4,99€)

ashahaghdsa 22. Dez 2017

Wenn die hierzu den Code veröffentlichen, dann musst du nur einfach einen Amiga 200...

Chrizzl 22. Dez 2017

Ja, echt jetzt :D

Christian72D 22. Dez 2017

Ich würde ZU gerne mal profesionelle Sprecher hören die die beiden Zungenbrecher vorlesen...

Dromedarius 21. Dez 2017

Durch den End-To-End-Ansatz sind aber andere Sprachen an sich kein Problem mehr. Es muss...


Folgen Sie uns
       


HTC Vive Pro - Test

Das HTC Vive Pro ist ein beeindruckendes Headset und ein sehr gutes Gesamtkonzept. Allerdings zweifeln wir am Erfolg des Produktes in unserem Test - und zwar wegen des sehr hohen Kaufpreises und fehlenden Zubehörs.

HTC Vive Pro - Test Video aufrufen
P20 Pro im Kameratest: Huaweis Dreifach-Kamera schlägt die Konkurrenz
P20 Pro im Kameratest
Huaweis Dreifach-Kamera schlägt die Konkurrenz

Mit dem P20 Pro will Huawei sich an die Spitze der Smartphone-Kameras katapultieren. Im Vergleich mit der aktuellen Konkurrenz zeigt sich, dass das P20 Pro tatsächlich über eine sehr gute Kamera verfügt: Die KI-Funktionen können unerfahrenen Nutzern zudem das Fotografieren erleichtern.
Ein Test von Tobias Költzsch

  1. Android Huawei präsentiert drei neue Smartphones ab 120 Euro
  2. Wie Samsung Huawei soll noch für dieses Jahr faltbares Smartphone planen
  3. Porsche Design Mate RS Huawei bringt 512-GByte-Smartphone für 2.100 Euro

NUC8i7HVK (Hades Canyon) im Test: Intels Monster-Mini mit Radeon-Grafikeinheit
NUC8i7HVK (Hades Canyon) im Test
Intels Monster-Mini mit Radeon-Grafikeinheit

Unter dem leuchtenden Schädel steckt der bisher schnellste NUC: Der buchgroße Hades Canyon kombiniert einen Intel-Quadcore mit AMDs Vega-GPU und strotzt förmlich vor Anschlüssen. Obendrein ist er recht leise und eignet sich für VR - selten hat uns ein System so gut gefallen.
Ein Test von Marc Sauter und Sebastian Grüner

  1. NUC7CJYS und NUC7PJYH Intel bringt Atom-betriebene Mini-PCs
  2. NUC8 Intels Mini-PC hat mächtig viel Leistung
  3. Hades Canyon Intel bringt NUC mit dedizierter GPU

Datenverkauf bei Kommunen: Öffentliche Daten nicht verhökern, sondern sinnvoll nutzen
Datenverkauf bei Kommunen
Öffentliche Daten nicht verhökern, sondern sinnvoll nutzen

Der Städte- und Gemeindebund hat vorgeschlagen, Kommunen sollten ihre Daten verkaufen. Wie man es auch dreht und wendet: Es bleibt eine schlechte Idee.
Ein IMHO von Michael Peters und Walter Palmetshofer

  1. Gerichtsurteil Kein Recht auf anonyme IFG-Anfrage in Rheinland-Pfalz
  2. CDLA Linux Foundation veröffentlicht Open-Data-Lizenzen
  3. Deutscher Wetterdienst Wetterdaten sind jetzt Open Data

    •  /