Abo
  • Services:

Google Deepmind: Cloud Text-to-Speech liest Texte mit fast natürlichem Klang

Mit neuronalen Netzen sind jetzt auch recht natürlich klingende Vorlesestunden möglich. Googles Deepmind-Team hat einen Text-to-Speech-Algorithmus entwickelt, den Entwickler einfach in ihre Projekte einbinden können - inklusive 32 Stimmen in vielen Sprachen wie Englisch, Deutsch und Japanisch.

Artikel veröffentlicht am ,
Maschinen klingen immer natürlicher.
Maschinen klingen immer natürlicher. (Bild: Pixabay.com/Montage: Golem.de/CC0 1.0)

Google hat seinen Cloud-Dienst Text-to-Speech in einer Betaversion vorgestellt. Dieses System soll geschriebene Texte in möglichst natürlich klingende Sprache umwandeln. Dazu nutzt Google Deepmind, eine Abteilung, die sich mit neuronalen Netzen für verschiedene Aufgaben beschäftigt - neben Go-Spielen und Starcraft 2 auch das Sprechen von Texten.

Stellenmarkt
  1. engelbert strauss GmbH & Co. KG, Biebergemünd
  2. Robert Bosch GmbH, Renningen

Entwickler sollen Cloud Text-to-Speech für ihre eigenen Projekte verwenden können. Dazu stellt Google eine Programmierschnittstelle (API) zur Verfügung, die vortrainierte Modelle aus der Cloud beziehen und ansprechen können. Das Unternehmen nutzt Wavenet-Technik, um möglichst natürlich klingende Sprache zu erzeugen. Dabei handelt es sich um ein neuronales Netzwerk, das Audiosignale aus verschiedenen Neuronen erzeugt. Momentan ist das aber nur für US-amerikanische Stimmen verfügbar.

Die meisten Stimmen in englischer Sprache

Der Dienst funktioniert auf mobilen Endgeräten wie Smartphones und auf PCs, Lautsprechern und Fernsehern. Momentan bietet er außerdem eine Auswahl aus 30 verschiedenen Stimmen. Allerdings ist ein Großteil mit britischem oder amerikanischem Englisch verknüpft. Ein weiterer US-Dialekt kann auch mit Wavenet selbst genutzt werden. Der Unterschied ist marginal. In deutscher Sprache gibt es hingegen nur zwei Stimmen ohne Wavenet-Unterstützung: eine weibliche und eine männliche. Lustiger Nebeneffekt: Das Vorlesen englischer Texte mit deutscher Stimme funktioniert mit typisch deutsch klingendem Akzent. Weitere Sprachen sind etwa Spanisch, Portugiesisch, Französisch, Türkisch und Japanisch. Die Qualität kann in einem Webtool mit Probetexten ausprobiert werden.

Neben der Wahl der Stimme sind dabei weitere Parameter veränderbar. Nutzer können die Stimmlage und die Sprechgeschwindigkeit einstellen. Beide Regler verfälschen jedoch auch den Stimmklang, so dass beispielsweise ein schnell redender Vorleser mehr wie ein Computer klingt. Im Webtool lassen sich auch die JSON-Quelltexte anzeigen, so dass Entwickler es recht einfach haben, Texte in ihre Apps einzubauen. Texte lassen sich in verschiedene Audiodateien, etwa MP3, Linear16 und Ogg Opus, exportieren. Auch SSML-Unterstützung wird geboten. Darüber lässt sich die Betonung und Pausen während des Sprechens manuell per Tags anpassen.

Cloud Text-to-Speech kann kostenlos getestet werden. Dazu sind jedoch ein Google-Konto und eine Mitgliedschaft der Google Cloud Platform notwendig, die ebenfalls zwölf Monate lang mit einem Guthaben von 300 US-Dollar getestet werden kann.



Anzeige
Top-Angebote
  1. 499,00€
  2. 54,99€
  3. (-80%) 3,99€
  4. 3,84€

MickeyKay 16. Apr 2018 / Themenstart

Ja, habe ich. Ehrlich gesagt höre ich zu Basic auch kaum einen Unterschied.

MickeyKay 16. Apr 2018 / Themenstart

Aktuelle Navi-Daten plus Verkehrsinfos würdest du dann bei einer Navi-App auch nicht...

MickeyKay 16. Apr 2018 / Themenstart

Das steht sogar direkt im ersten Satz des Artikels.....

logi 30. Mär 2018 / Themenstart

Wenn du bei Google die Sprache auf Deutsch stellst, dann steht die neue TTS-Engine...

Hotohori 29. Mär 2018 / Themenstart

Ich finde "en-US-Wavenet-E" Speed ~0.80 Pitch: +3.00 klingt schon etwas besser was das...

Kommentieren


Folgen Sie uns
       


Rimac Concept Two (C_Two) angesehen (Genf 2018)

Wir haben uns auf dem Genfer Autosalon 2018 den C_Two von Rimac angesehen.

Rimac Concept Two (C_Two) angesehen (Genf 2018) Video aufrufen
P20 Pro im Kameratest: Huaweis Dreifach-Kamera schlägt die Konkurrenz
P20 Pro im Kameratest
Huaweis Dreifach-Kamera schlägt die Konkurrenz

Mit dem P20 Pro will Huawei sich an die Spitze der Smartphone-Kameras katapultieren. Im Vergleich mit der aktuellen Konkurrenz zeigt sich, dass das P20 Pro tatsächlich über eine sehr gute Kamera verfügt: Die KI-Funktionen können unerfahrenen Nutzern zudem das Fotografieren erleichtern.
Ein Test von Tobias Költzsch

  1. Android Huawei präsentiert drei neue Smartphones ab 120 Euro
  2. Wie Samsung Huawei soll noch für dieses Jahr faltbares Smartphone planen
  3. Porsche Design Mate RS Huawei bringt 512-GByte-Smartphone für 2.100 Euro

Physik: Maserlicht aus Diamant
Physik
Maserlicht aus Diamant

Ein Stickstoff-Fehlstellen-basierter Maser liefert kontinuierliche und kohärente Mikrowellenstrahlung bei Raumtemperatur. Eine mögliche Anwendung ist die Kommunikation mit Satelliten.
Von Dirk Eidemüller

  1. Colorfab 3D-gedruckte Objekte erhalten neue Farbgestaltung
  2. Umwelt China baut 100-Meter-Turm für die Luftreinigung
  3. Crayfis Smartphones sollen kosmische Strahlung erfassen

God of War im Test: Der Super Nanny
God of War im Test
Der Super Nanny

Ein Kriegsgott als Erziehungsberechtigter: Das neue God of War macht nahezu alles anders als seine Vorgänger. Neben Action bietet das nur für die Playstation 4 erhältliche Spiel eine wunderbar erzählte Handlung um Kratos und seinen Sohn Atreus.
Von Peter Steinlechner

  1. God of War Papa Kratos kämpft ab April 2018

    •  /