Abo
  • Services:

Google Deepmind: Cloud Text-to-Speech liest Texte mit fast natürlichem Klang

Mit neuronalen Netzen sind jetzt auch recht natürlich klingende Vorlesestunden möglich. Googles Deepmind-Team hat einen Text-to-Speech-Algorithmus entwickelt, den Entwickler einfach in ihre Projekte einbinden können - inklusive 32 Stimmen in vielen Sprachen wie Englisch, Deutsch und Japanisch.

Artikel veröffentlicht am ,
Maschinen klingen immer natürlicher.
Maschinen klingen immer natürlicher. (Bild: Pixabay.com/Montage: Golem.de/CC0 1.0)

Google hat seinen Cloud-Dienst Text-to-Speech in einer Betaversion vorgestellt. Dieses System soll geschriebene Texte in möglichst natürlich klingende Sprache umwandeln. Dazu nutzt Google Deepmind, eine Abteilung, die sich mit neuronalen Netzen für verschiedene Aufgaben beschäftigt - neben Go-Spielen und Starcraft 2 auch das Sprechen von Texten.

Stellenmarkt
  1. Bosch Gruppe, Hildesheim
  2. Landeshauptstadt München, München

Entwickler sollen Cloud Text-to-Speech für ihre eigenen Projekte verwenden können. Dazu stellt Google eine Programmierschnittstelle (API) zur Verfügung, die vortrainierte Modelle aus der Cloud beziehen und ansprechen können. Das Unternehmen nutzt Wavenet-Technik, um möglichst natürlich klingende Sprache zu erzeugen. Dabei handelt es sich um ein neuronales Netzwerk, das Audiosignale aus verschiedenen Neuronen erzeugt. Momentan ist das aber nur für US-amerikanische Stimmen verfügbar.

Die meisten Stimmen in englischer Sprache

Der Dienst funktioniert auf mobilen Endgeräten wie Smartphones und auf PCs, Lautsprechern und Fernsehern. Momentan bietet er außerdem eine Auswahl aus 30 verschiedenen Stimmen. Allerdings ist ein Großteil mit britischem oder amerikanischem Englisch verknüpft. Ein weiterer US-Dialekt kann auch mit Wavenet selbst genutzt werden. Der Unterschied ist marginal. In deutscher Sprache gibt es hingegen nur zwei Stimmen ohne Wavenet-Unterstützung: eine weibliche und eine männliche. Lustiger Nebeneffekt: Das Vorlesen englischer Texte mit deutscher Stimme funktioniert mit typisch deutsch klingendem Akzent. Weitere Sprachen sind etwa Spanisch, Portugiesisch, Französisch, Türkisch und Japanisch. Die Qualität kann in einem Webtool mit Probetexten ausprobiert werden.

Neben der Wahl der Stimme sind dabei weitere Parameter veränderbar. Nutzer können die Stimmlage und die Sprechgeschwindigkeit einstellen. Beide Regler verfälschen jedoch auch den Stimmklang, so dass beispielsweise ein schnell redender Vorleser mehr wie ein Computer klingt. Im Webtool lassen sich auch die JSON-Quelltexte anzeigen, so dass Entwickler es recht einfach haben, Texte in ihre Apps einzubauen. Texte lassen sich in verschiedene Audiodateien, etwa MP3, Linear16 und Ogg Opus, exportieren. Auch SSML-Unterstützung wird geboten. Darüber lässt sich die Betonung und Pausen während des Sprechens manuell per Tags anpassen.

Cloud Text-to-Speech kann kostenlos getestet werden. Dazu sind jedoch ein Google-Konto und eine Mitgliedschaft der Google Cloud Platform notwendig, die ebenfalls zwölf Monate lang mit einem Guthaben von 300 US-Dollar getestet werden kann.



Anzeige
Hardware-Angebote
  1. 482,99€ inkl. Versand (aktuell günstigste GTX 1080)
  2. mit Gutschein: HARDWARE50 (nur für Neukunden, Warenwert 104 - 1.000 Euro)
  3. und Assassins Creed Odyssey, Strange Brigade und Star Control Origins kostenlos dazu erhalten
  4. 469€ + Versand (Bestpreis!)

MickeyKay 16. Apr 2018

Ja, habe ich. Ehrlich gesagt höre ich zu Basic auch kaum einen Unterschied.

MickeyKay 16. Apr 2018

Aktuelle Navi-Daten plus Verkehrsinfos würdest du dann bei einer Navi-App auch nicht...

MickeyKay 16. Apr 2018

Das steht sogar direkt im ersten Satz des Artikels.....

logi 30. Mär 2018

Wenn du bei Google die Sprache auf Deutsch stellst, dann steht die neue TTS-Engine...

Hotohori 29. Mär 2018

Ich finde "en-US-Wavenet-E" Speed ~0.80 Pitch: +3.00 klingt schon etwas besser was das...


Folgen Sie uns
       


We Happy Few - Golem.de Live

Anspruchsvolle Abenteuer wie Bioshock und Dishonored waren offenbar Vorbild für We Happy Few. Wer mag, kann die Kampagne des Action-Adventures fast sofort nach dem Start abschließen - oder sich in eine dystopische 60er-Jahre-Parallelwelt stürzen.

We Happy Few - Golem.de Live Video aufrufen
Stromversorgung: Das Märchen vom Blackout durch Elektroautos
Stromversorgung
Das Märchen vom Blackout durch Elektroautos

Die massenhafte Verbreitung von Elektroautos stellt das Stromnetz vor neue Herausforderungen. Doch verschiedenen Untersuchungen zufolge sind diese längst nicht so gravierend, wie von Kritikern befürchtet.
Ein Bericht von Friedhelm Greis

  1. Ladekabel Startup Ubitricity gewinnt Klimaschutzpreis in New York
  2. TU Graz Der Roboter als E-Tankwart
  3. WLTP VW kann Elektro- und Hybridautos 2018 nicht mehr verkaufen

The Cycle angespielt: Wenn Freunde sich in den Rücken fallen
The Cycle angespielt
Wenn Freunde sich in den Rücken fallen

Unter 20 Leuten findet sich immer ein Verbündeter - und der ist bei The Cycle des Berliner Studios Yager wichtig, denn wir haben nur 20 Minuten, um Aufträge zu erfüllen und von einem Planeten zu fliehen. In der Closed Alpha klappte das nämlich nicht immer so, wie von uns beabsichtigt.
Ein Hands on von Marc Sauter

  1. Contracts Sniper Ghost Warrior 4 ohne offene Welt
  2. Human Head Studios Wikingerspiel Rune kommt in den Early Access
  3. Games Deutsche Spielentwickler verlieren weiter Marktanteile

Threadripper 2990WX und 2950X im Test: Viel hilft nicht immer viel
Threadripper 2990WX und 2950X im Test
Viel hilft nicht immer viel

Für Workstations: AMDs Threadripper 2990WX mit 32 Kernen schlägt Intels ähnlich teure 18-Core-CPU klar und der günstigere Threadripper 2950X hält noch mit. Für das Ryzen-Topmodell muss aber die Software angepasst sein und sie darf nicht zu viel Datentransferrate benötigen.
Ein Test von Marc Sauter

  1. Threadripper 2990X AMDs 32-Kerner soll mit 4,2 GHz laufen
  2. AMD Threadripper v2 mit 32 Kernen erscheint im Sommer 2018
  3. Raven Ridge AMDs Athlon kehrt zurück

    •  /