Google Deepmind: Cloud Text-to-Speech liest Texte mit fast natürlichem Klang

Mit neuronalen Netzen sind jetzt auch recht natürlich klingende Vorlesestunden möglich. Googles Deepmind-Team hat einen Text-to-Speech-Algorithmus entwickelt, den Entwickler einfach in ihre Projekte einbinden können - inklusive 32 Stimmen in vielen Sprachen wie Englisch, Deutsch und Japanisch.

Artikel veröffentlicht am ,
Maschinen klingen immer natürlicher.
Maschinen klingen immer natürlicher. (Bild: Pixabay.com/Montage: Golem.de/CC0 1.0)

Google hat seinen Cloud-Dienst Text-to-Speech in einer Betaversion vorgestellt. Dieses System soll geschriebene Texte in möglichst natürlich klingende Sprache umwandeln. Dazu nutzt Google Deepmind, eine Abteilung, die sich mit neuronalen Netzen für verschiedene Aufgaben beschäftigt - neben Go-Spielen und Starcraft 2 auch das Sprechen von Texten.

Stellenmarkt
  1. Software Developer (d/m/w) - Firmware
    OSRAM GmbH, Paderborn
  2. Entwicklungsingenieur Software/HMI (m/w/d)
    KHS GmbH, Dortmund
Detailsuche

Entwickler sollen Cloud Text-to-Speech für ihre eigenen Projekte verwenden können. Dazu stellt Google eine Programmierschnittstelle (API) zur Verfügung, die vortrainierte Modelle aus der Cloud beziehen und ansprechen können. Das Unternehmen nutzt Wavenet-Technik, um möglichst natürlich klingende Sprache zu erzeugen. Dabei handelt es sich um ein neuronales Netzwerk, das Audiosignale aus verschiedenen Neuronen erzeugt. Momentan ist das aber nur für US-amerikanische Stimmen verfügbar.

Die meisten Stimmen in englischer Sprache

Der Dienst funktioniert auf mobilen Endgeräten wie Smartphones und auf PCs, Lautsprechern und Fernsehern. Momentan bietet er außerdem eine Auswahl aus 30 verschiedenen Stimmen. Allerdings ist ein Großteil mit britischem oder amerikanischem Englisch verknüpft. Ein weiterer US-Dialekt kann auch mit Wavenet selbst genutzt werden. Der Unterschied ist marginal. In deutscher Sprache gibt es hingegen nur zwei Stimmen ohne Wavenet-Unterstützung: eine weibliche und eine männliche. Lustiger Nebeneffekt: Das Vorlesen englischer Texte mit deutscher Stimme funktioniert mit typisch deutsch klingendem Akzent. Weitere Sprachen sind etwa Spanisch, Portugiesisch, Französisch, Türkisch und Japanisch. Die Qualität kann in einem Webtool mit Probetexten ausprobiert werden.

Neben der Wahl der Stimme sind dabei weitere Parameter veränderbar. Nutzer können die Stimmlage und die Sprechgeschwindigkeit einstellen. Beide Regler verfälschen jedoch auch den Stimmklang, so dass beispielsweise ein schnell redender Vorleser mehr wie ein Computer klingt. Im Webtool lassen sich auch die JSON-Quelltexte anzeigen, so dass Entwickler es recht einfach haben, Texte in ihre Apps einzubauen. Texte lassen sich in verschiedene Audiodateien, etwa MP3, Linear16 und Ogg Opus, exportieren. Auch SSML-Unterstützung wird geboten. Darüber lässt sich die Betonung und Pausen während des Sprechens manuell per Tags anpassen.

Golem Karrierewelt
  1. Einführung in Unity: virtueller Ein-Tages-Workshop
    13.10.2022, Virtuell
  2. AZ-104 Microsoft Azure Administrator: virtueller Vier-Tage-Workshop
    07.-10.11.2022, virtuell
Weitere IT-Trainings

Cloud Text-to-Speech kann kostenlos getestet werden. Dazu sind jedoch ein Google-Konto und eine Mitgliedschaft der Google Cloud Platform notwendig, die ebenfalls zwölf Monate lang mit einem Guthaben von 300 US-Dollar getestet werden kann.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


MickeyKay 16. Apr 2018

Ja, habe ich. Ehrlich gesagt höre ich zu Basic auch kaum einen Unterschied.

MickeyKay 16. Apr 2018

Aktuelle Navi-Daten plus Verkehrsinfos würdest du dann bei einer Navi-App auch nicht...

MickeyKay 16. Apr 2018

Das steht sogar direkt im ersten Satz des Artikels.....

logi 30. Mär 2018

Wenn du bei Google die Sprache auf Deutsch stellst, dann steht die neue TTS-Engine...



Aktuell auf der Startseite von Golem.de
Meta
"Es ist euer Job, euch in Horizon Worlds zu verlieben!"

Amüsante Auszüge aus Memos von Meta zeigen, dass nicht mal die Entwickler von Horizon Worlds gerne in ihre virtuelle Welt eintauchen.

Meta: Es ist euer Job, euch in Horizon Worlds zu verlieben!
Artikel
  1. Corning: Moderne Glasfaser ist ihren Vorgängern nur wenig ähnlich
    Corning
    Moderne Glasfaser ist ihren Vorgängern nur wenig ähnlich

    Lichtwellenleiter sind eine alte Technik. Heute müssen sie für Glasfaser-Verkabelung in Gebäuden fast neu erfunden werden.

  2. Klage gegen Datenschutzaufsicht: Bundeskriminalamt weigert sich, Funkzellendaten zu löschen
    Klage gegen Datenschutzaufsicht
    Bundeskriminalamt weigert sich, Funkzellendaten zu löschen

    Das BKA will gesammelte Überwachungsdaten nicht löschen müssen. Deswegen klagt die Polizei gegen einen Bescheid des obersten Datenschützers.
    Eine Exklusivmeldung von Lennart Mühlenmeier

  3. Justizminister: Ausweiskopien sollen aus dem Handelsregister gelöscht werden
    Justizminister
    Ausweiskopien sollen aus dem Handelsregister gelöscht werden

    Im Online-Handelsregister lassen sich persönliche Daten wie Ausweiskopien oder Unterschriften einfach abrufen. Justizminister Marco Buschmann will das ändern.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Prime-Filme leihen für je 0,99€ • iPhone 14 Plus jetzt erhältlich • Günstig wie nie: Gigabyte RTX 3090 Ti 1.099€, KF DDR5-5600 16GB 99,39€, Logitech Gaming-Maus 69,99€, MSI Curved 27" WQHD 165Hz 289€ • AMD Ryzen 7 5800X3D 429€ • NfS Unbound vorbestellbar • 3 Spiele für 49€ [Werbung]
    •  /