Coqui AI: Eigene Sprache klonen und in "fremden Zungen" sprechen
Das neue Modell von Mozillas ehemaligem KI-Sprachforschungsteam soll leicht Sprache synthetisieren und so Text-to-Speech transferieren können.

Das auf KI-Sprachforschung spezialisierte Startup Coqui hat mit YourTTS ein neues Sprachmodell veröffentlicht, das geschriebenen Text in vorgelesene Sprache synthetisiert (Text-to-Speech, TTS), wobei sogar eine besonders kurze Spracheingabe ausreichen soll. Darüber hinaus sollen sich die gesprochenen Eingaben auch dazu nutzen lassen, diese in andere Sprachen zu übertragen.
Wie das Team von Coqui in seinem Blog zu dem Modell schreibt, nutzen die meisten bisher verfügbaren TTS-Modelle wohl mindestens 20-40 Stunden gesprochene Eingaben von professionellen Sprecherinnen und Sprechern. "In dieser Umgebung ist die Erweiterung der Lösung auf mehrere Sprachen und Sprecher nicht für jeden möglich", heißt es dazu bei Coqui. Besonders schwer sei dies zudem für jene Sprachen, die in der Forschung eher wenig beachtet werden und über wenige Ressourcen hierfür verfügen.
Diese Limitierungen soll YourTTS von Coqui überwinden können. Das Modell könne dabei Stimmen in verschiedenen Sprachen synthetisieren und reduziere die Voraussetzungen für die Datenmengen "signifikant", indem Wissen aus einer Sprache in eine andere transferiert werde, heißt es in der Beschreibung. So könnten letztlich zum Beispiel Stimmen für brasilianisches Portugiesisch auch aus einer englischen Stimmeingabe erzeugt werden.
Davon, ob und wie gut das funktioniert, können sich interessierte Nutzer zunächst durch eine kleine Demo überzeugen, die das Coqui-Team derzeit auf seiner Homepage unter der Überschrift "in fremden Zungen sprechen" anbietet. Dazu schreiben die Beteiligten, dass sie sich durchaus auch des möglichen Missbrauchspotenzials ihrer Technik bewusst seien. Um dies zumindest für die öffentliche Demo abzumildern, werden die so verfügbaren Clips mit Hintergrundmusik unterlegt.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Fehlt nur noch eine Sprachübersetzung. Gibt es hierfür offene Lösungen?