Abo
  • IT-Karriere:

Neural Text-to-Speech: Amazons Maschinenvorleserin klingt fast wie eine Moderatorin

Amazon Polly wird um Neural Text-to-Speech erweitert. Dieses soll natürlicher klingen als traditionelle Ansätze. Das System kann etwa Nachrichtenmoderatoren imitieren. Erste Audiobeispiele klingen bereits recht überzeugend, auch wenn einige Dinge die synthetische Herkunft verraten.

Artikel veröffentlicht am ,
Amazon Polly liest Texte schon recht überzeugend vor.
Amazon Polly liest Texte schon recht überzeugend vor. (Bild: Pixabay.com/Montage: Golem.de/CC0 1.0)

Amazon hat seine maschinensynthetisierte Stimme Amazon Polly verbessert. Das Unternehmen führt Neural Text-to-Speech (Ntts) ein. Damit soll die Software natürlicher klingen und menschliche Betonung besser imitieren. Das Produkt resultiert aus den Arbeiten des Unternehmens im vergangenen Jahr, bei denen ein neuronales Netzwerk mit Hilfe englischsprachiger Quelldaten trainiert wurde. Der Vorteil daraus soll sein, dass es Betonungen und Emotionen besser umsetzen können soll als eine manuell erstellte Datenbank verschiedener Wortgruppen. "Mit der verbesserten Flexibilität können wir einfach den Sprachstil ändern", schreibt AWS-Entwickler und -Manager Trevor Wood im Vorstellungsartikel von Ntts von 2018.

Stellenmarkt
  1. OEDIV KG, Bielefeld
  2. Friedrich Schütt + Sohn Baugesellschaft mbH & Co. KG, Lübeck

Amazon stellt in der aktuellen Ankündigung einige Sprachschnipsel zur Verfügung. Dort liest Amazon Polly einen englischsprachigen Text vor. Die Stimme unterscheidet sich kaum von der 2018er-Version und betont den Satzbau ähnlich gut. Bereits vor einem Jahr klangen die synthetischen Vorleser bereits überzeugend. Allerdings sind noch immer einige Artefakte und monotone Stimmlagen in den Sounddateien zu hören.

Eine erste Abwandlung von Ntts bringt Amazon parallel zur Ankündigung. Der Newscaster liest Sätze im Stile eines Nachrichtensprechers vor, wie er im US-Fernsehen typisch ist. Auch hier klingt die Betonung bereits recht überzeugend, auch wenn einige identische Tonlagen in schneller Folge hintereinander ausgesprochen werden. Dadurch merken menschliche Zuhörer noch immer die synthetische Herkunft von Ntts.

Insgesamt elf englischsprachige Stimmen wird es vorerst geben: Amy, Emma und Brian sprechen im britischen Akzent, während Ivy, Joanna, Kendra, Kimberly, Salli, Joey, Justin und Matthew US-amerikanisches Englisch sprechen. Das Unternehmen verkündet nicht, ob und wann es die Funktion auch in anderen Sprachen geben wird. Sie kann in den USA und Europa kostenlos ausprobiert werden. Die Demoversion enthält eine Million Zeichen pro Monat und steht ein Jahr lang zur Verfügung.



Anzeige
Top-Angebote
  1. 27“ großer NANO-IPS-Monitor mit 1 ms Reaktionszeit und WQHD-Auflösung (2.560 x 1.440)
  2. (u. a. Ghost Recon Wildlands Ultimate Edition für 35,99€, The Banner Saga 3 für 9,99€, Mega...
  3. (u. a. Predator - Upgrade, Red Sparrow, Specttre, White Collar - komplette Serie)
  4. (Samsung 970 EVO PLus 1 TB für 204,90€ oder Samsung 860 EVO 1 TB für 135,90€)

brotiger 01. Aug 2019

60-80% der Menschen würden einen Touring-Test nicht bestehen.

AllDayPiano 01. Aug 2019

https://aws.amazon.com/de/blogs/aws/amazon-polly-introduces-neural-text-to-speech-and...

bummelbär 01. Aug 2019

Das liegt daran, dass es keine deutschen Modelle gibt. ;-) Die gibt es nur für englisch.

Anonymer Nutzer 01. Aug 2019

Irgendwann vielleicht. Gegenwärtig ist das Ding nicht so überzeugend.


Folgen Sie uns
       


iPhone 11 Pro Max - Test

Das neue iPhone 11 Pro Max ist das erste iPhone mit einer Dreifachkamera. Dass sich diese lohnt, zeigt unser Test.

iPhone 11 Pro Max - Test Video aufrufen
SSD-Kompendium: AHCI, M.2, NVMe, PCIe, Sata, U.2 - ein Überblick
SSD-Kompendium
AHCI, M.2, NVMe, PCIe, Sata, U.2 - ein Überblick

Heutige SSDs gibt es in allerhand Formfaktoren mit diversen Anbindungen und Protokollen, selbst der verwendete Speicher ist längst nicht mehr zwingend NAND-Flash. Wir erläutern die Unterschiede und Gemeinsamkeiten der Solid State Drives.
Von Marc Sauter

  1. PM1733 Samsungs PCIe-Gen4-SSD macht die 8 GByte/s voll
  2. PS5018-E18 Phisons PCIe-Gen4-SSD-Controller liefert 7 GByte/s
  3. Ultrastar SN640 Western Digital bringt SSD mit 31 TByte im E1.L-Ruler-Format

Rohstoffe: Lithium aus dem heißen Untergrund
Rohstoffe
Lithium aus dem heißen Untergrund

Liefern Geothermiekraftwerke in Südwestdeutschland bald nicht nur Strom und Wärme, sondern auch einen wichtigen Rohstoff für die Akkus von Smartphones, Tablets und Elektroautos? Das Thermalwasser hat einen so hohen Gehalt an Lithium, dass sich ein Abbau lohnen könnte. Doch es gibt auch Gegner.
Ein Bericht von Werner Pluta

  1. Wasserkraft Strom aus dem Strom
  2. Energie Wie Mikroben Methan mit Windstrom produzieren
  3. Erneuerbare Energien Die Energiewende braucht Wasserstoff

Medienkompetenz: Was, Ihr Kind kann nicht programmieren?
Medienkompetenz
Was, Ihr Kind kann nicht programmieren?

Lesen, schreiben, rechnen und coden: Müssen Kinder programmieren lernen? Vielleicht nicht. Aber sie sollen verstehen, wie Computer funktionieren. Wie das am besten geht.
Von Jakob von Lindern

  1. 5G Milliardenlücke beim Digitalpakt Schule droht
  2. Digitalpakt Schuldigitalisierung kann starten
  3. Whatsapp bei Lehrern Kultusministerkonferenz pocht auf Datenschutz

    •  /