Base TTS: Amazons größtes Sprachmodell liest Texte wie ein Mensch
Die Forschungsabteilung von Amazon arbeitet am bisher größten Text-to-Speech-Modell. Base TTS(öffnet im neuen Fenster) soll durch seine vielen Trainingsdaten und Parameter vor allem bei emotionalen Aussagen und bei der Betonung sehr gut abschneiden. In ersten Beispielen zeigt Amazon das Konzept: Es scheint bereits überzeugend zu funktionieren und diverse bisher für KI-Systeme schwierige Sätze mit menschlich wirkender Betonung auszusprechen.
Trainiert wurde das Modell (Paper)(öffnet im neuen Fenster) auf der Grundlage von etwa 100.000 Stunden an Sprechdaten innerhalb der Public Domain. Ein Großteil dieser Daten, etwa 90 Prozent, liegt in englischer Sprache vor. Die restlichen zehn Prozent teilen sich auf Sprachen wie Deutsch, Niederländisch und Spanisch auf. Aktuell kann das Modell nur Texte auf Englisch und auf Spanisch vorlesen.
Riesiges Modell für mehr Genauigkeit
Mit etwa 980 Millionen Parametern scheint die Variante Base-large das größte Modell dieser Art zu sein. Amazon testete zudem Modelle mit jeweils 400 und 150 Millionen Parametern und einem Trainingsset von 10.000 und 1.000 Stunden Sprachmaterial. Das Ziel sollte es sein, den Grenzwert für ein überzeugendes Modell zu finden. Offenbar sind 150 Millionen Parameter zu wenig, um komplexe Sätze vorlesen zu können. Ab 400 Millionen Parametern scheint das Modell hingegen Satzzeichen, Emotionen und Fragestellungen besser zu identifizieren und vorlesen zu können.
Dafür erstellte das Team eine Art Benchmark mit diversen Beispielsätzen. Das Modell soll beispielsweise sein Können bei normalen Aussagen, bei Fragen und bei Sätzen mit vielen Fremdwörtern unter Beweis stellen. Erste Ausschnitte zeigen, dass das bereits sehr gut funktioniert. Amazon stellt die Beispiele auf der Base-TTS-Webseite zur Verfügung
- Anzeige Hier geht es zu Künstliche Intelligenz: Wissensverarbeitung bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



