Machine Learning: Die eigene Stimme als TTS-Modell
Mit Machine Learning kann man ein lokal lauffähiges und hochwertiges TTS-Modell der eigenen Stimme herstellen. Dauert das lange? Ja. Braucht man das? Nein. Ist das absolut nerdig? Definitv!

Kleine Warnung vorweg: Wer glaubt, dass die Erzeugung einer hochqualitativen künstlichen Stimme, die klingt wie man selbst, innerhalb weniger Stunden oder Tage möglich ist, den muss ich leider enttäuschen. Der Audioexperte Dominik Kreutz und ich arbeiten im Rahmen des Projektes Thorsten-Voice seit über zwei Jahren an der Bereitstellung einer hochqualitativen, freien, deutschen künstlichen Stimme, die beispielsweise in einem offline arbeitenden Sprachassistenten verwendet werden kann. Mit folgenden Tipps kommt man allerdings schneller zum Ziel.
- Machine Learning: Die eigene Stimme als TTS-Modell
- Was bei der Erstellung des Text Corpus zu beachten ist
- Training des TTS-Modells
- Beenden des Trainings und Verwendung des Modells
Die Erzeugung eines künstlichen Stimmenmodells ist kein simpler "Weiter, weiter, fertigstellen"-Prozess. Aufgrund der hohen Komplexität des Themas kann ich den Prozess hier nur rudimentär beschreiben sowie Tools oder Communities empfehlen und auf Fehler hinweisen, die ich extra für diesen Artikel alle selbst gemacht habe. Ein hohes Durchhaltevermögen im Fehlerfall ist sicherlich eine äußerst vorteilhafte Eigenschaft.
Eigene Stimmaufnahmen: Viel hilft viel
Wenig überraschend ist, dass man für eine künstliche Version seiner eigenen Stimme natürlich Audioaufnahmen derselben benötigt. Zur notwendigen Audiodauer oder Anzahl von Aufnahmen gibt es weniger feste Werte als vielmehr eine grobe Orientierung auf Basis von Erfahrungen. Generell gilt: Je mehr Aufnahmen und je vielseitiger die phonetische Abdeckung, desto besser wird die spätere Qualität der künstlichen TTS-Stimme werden. Als grobe Orientierung kann man von mehreren Tausend aufgenommenen Sätzen und einer Gesamtdauer von einigen Stunden reinem Audio ausgehen.
Wer auf die Idee kommt, statt der eigenen Stimme Aufnahmen des Lieblingsschauspielers oder Youtubers für die Erzeugung einer künstlichen Stimme zu verwenden, dem sei geraten, dies unter Copyright und Datenschutzaspekten gründlich zu überprüfen und im Zweifelsfall davon abzusehen.
Während es bei der Menge der Audioaufnahmen keine festen Vorgaben gibt, gibt es bezüglich der Aufnahmequalität sehr wohl wesentliche Kriterien. Weil die für ein TTS-Modell zugrundeliegende Technologie (Machine Learning) auf Basis der Aufnahmen lernt, gilt die einfache Regel: Je besser die Aufnahmen, desto besser das Ergebnis - oder englisch: "Shit in, shit out". Daher wird sich die in ein gutes Audiosetup investierte Zeit später auch in einem guten TTS-Modell bezahlt machen.
Hier einige Tipps:
- Ein gutes Mikrofon verwenden
- Immer den gleichen Aufnahmeraum verwenden
- Konstanten Mund/Mikrofon-Abstand einhalten
- Konstante Sprechgeschwindigkeit
- Neutrale, deutliche und natürliche Sprechweise
- Keine Silben verschlucken
- Hintergrundgeräusche wie PC-Lüfter, Klimaanlagen, Hundegebell etc. vermeiden
- Stimme vorher warmsprechen
- Regelmäßige Aufnahmepausen machen, um die Stimme nicht zu überanstrengen
- Laute Kopfhörerkontrolle der Aufnahmen machen, um Hintergrundstörgeräusche wie Rauschen oder Piepsen rechtzeitig zu erkennen.
Prinzipiell kann jedes Audio-Aufnahmeprogramm (beispielsweise Audacity) verwendet werden, um Stimmaufnahmen durchzuführen. In diesem speziellen Anwendungsfall empfehle ich allerdings das Werkzeug Mimic-Recording-Studio von Mycroft. Es hat hilfreiche Funktionen für die Aufnahmen eines Voice Dataset, welches die Grundlage des späteren TTS-Modells ist:
- Es signalisiert eventuelle Abweichungen von der durchschnittlichen Sprechgeschwindigkeit.
- Es benennt die Aufnahmen automatisch anhand einer eindeutigen GUID.
- Stille am Anfang und Ende jeder Aufnahme werden automatisch abgeschnitten.
- Es läuft als Webapplikation in einer Container-Umgebung.
- Es verwendet eine Sqlite-Datenbank, um Informationen zu den Aufnahmen zu speichern.
Gerade die Zuordnung von gesprochenem Text zu Dateinamen in der mitgelieferten Sqlite-Datenbank leistet im weiteren Verlauf dieses Prozesses noch gute Dienste.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Was bei der Erstellung des Text Corpus zu beachten ist |
Durchaus. Aber wenn man mit dem 12MP ( Ton bei normaler Geschwindigkeit...
excellenter artikel, fehlt nur der link darauf ohne paginierung.
die gruppe für das Projekt ist MycroftAI nicht mycroft: https://github.com/MycroftAI...