Machine Learning: Die eigene Stimme als TTS-Modell

Mit Machine Learning kann man ein lokal lauffähiges und hochwertiges TTS-Modell der eigenen Stimme herstellen. Dauert das lange? Ja. Braucht man das? Nein. Ist das absolut nerdig? Definitv!

Eine Anleitung von Thorsten Müller veröffentlicht am
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst (Bild: spoiu23/Pixabay)

Kleine Warnung vorweg: Wer glaubt, dass die Erzeugung einer hochqualitativen künstlichen Stimme, die klingt wie man selbst, innerhalb weniger Stunden oder Tage möglich ist, den muss ich leider enttäuschen. Der Audioexperte Dominik Kreutz und ich arbeiten im Rahmen des Projektes Thorsten-Voice seit über zwei Jahren an der Bereitstellung einer hochqualitativen, freien, deutschen künstlichen Stimme, die beispielsweise in einem offline arbeitenden Sprachassistenten verwendet werden kann. Mit folgenden Tipps kommt man allerdings schneller zum Ziel.

Die Erzeugung eines künstlichen Stimmenmodells ist kein simpler "Weiter, weiter, fertigstellen"-Prozess. Aufgrund der hohen Komplexität des Themas kann ich den Prozess hier nur rudimentär beschreiben sowie Tools oder Communities empfehlen und auf Fehler hinweisen, die ich extra für diesen Artikel alle selbst gemacht habe. Ein hohes Durchhaltevermögen im Fehlerfall ist sicherlich eine äußerst vorteilhafte Eigenschaft.

Eigene Stimmaufnahmen: Viel hilft viel

Wenig überraschend ist, dass man für eine künstliche Version seiner eigenen Stimme natürlich Audioaufnahmen derselben benötigt. Zur notwendigen Audiodauer oder Anzahl von Aufnahmen gibt es weniger feste Werte als vielmehr eine grobe Orientierung auf Basis von Erfahrungen. Generell gilt: Je mehr Aufnahmen und je vielseitiger die phonetische Abdeckung, desto besser wird die spätere Qualität der künstlichen TTS-Stimme werden. Als grobe Orientierung kann man von mehreren Tausend aufgenommenen Sätzen und einer Gesamtdauer von einigen Stunden reinem Audio ausgehen.

Wer auf die Idee kommt, statt der eigenen Stimme Aufnahmen des Lieblingsschauspielers oder Youtubers für die Erzeugung einer künstlichen Stimme zu verwenden, dem sei geraten, dies unter Copyright und Datenschutzaspekten gründlich zu überprüfen und im Zweifelsfall davon abzusehen.

Während es bei der Menge der Audioaufnahmen keine festen Vorgaben gibt, gibt es bezüglich der Aufnahmequalität sehr wohl wesentliche Kriterien. Weil die für ein TTS-Modell zugrundeliegende Technologie (Machine Learning) auf Basis der Aufnahmen lernt, gilt die einfache Regel: Je besser die Aufnahmen, desto besser das Ergebnis - oder englisch: "Shit in, shit out". Daher wird sich die in ein gutes Audiosetup investierte Zeit später auch in einem guten TTS-Modell bezahlt machen.

Hier einige Tipps:

  • Ein gutes Mikrofon verwenden
  • Immer den gleichen Aufnahmeraum verwenden
  • Konstanten Mund/Mikrofon-Abstand einhalten
  • Konstante Sprechgeschwindigkeit
  • Neutrale, deutliche und natürliche Sprechweise
  • Keine Silben verschlucken
  • Hintergrundgeräusche wie PC-Lüfter, Klimaanlagen, Hundegebell etc. vermeiden
  • Stimme vorher warmsprechen
  • Regelmäßige Aufnahmepausen machen, um die Stimme nicht zu überanstrengen
  • Laute Kopfhörerkontrolle der Aufnahmen machen, um Hintergrundstörgeräusche wie Rauschen oder Piepsen rechtzeitig zu erkennen.

Prinzipiell kann jedes Audio-Aufnahmeprogramm (beispielsweise Audacity) verwendet werden, um Stimmaufnahmen durchzuführen. In diesem speziellen Anwendungsfall empfehle ich allerdings das Werkzeug Mimic-Recording-Studio von Mycroft. Es hat hilfreiche Funktionen für die Aufnahmen eines Voice Dataset, welches die Grundlage des späteren TTS-Modells ist:

  • Es signalisiert eventuelle Abweichungen von der durchschnittlichen Sprechgeschwindigkeit.
  • Es benennt die Aufnahmen automatisch anhand einer eindeutigen GUID.
  • Stille am Anfang und Ende jeder Aufnahme werden automatisch abgeschnitten.
  • Es läuft als Webapplikation in einer Container-Umgebung.
  • Es verwendet eine Sqlite-Datenbank, um Informationen zu den Aufnahmen zu speichern.

Gerade die Zuordnung von gesprochenem Text zu Dateinamen in der mitgelieferten Sqlite-Datenbank leistet im weiteren Verlauf dieses Prozesses noch gute Dienste.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Was bei der Erstellung des Text Corpus zu beachten ist 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Aktuell auf der Startseite von Golem.de
Endzeit
Experten warnen vor der Ausrottung der Menschheit durch KI

Unternehmen wie Microsoft, Google und OpenAI stehen hinter einer sehr drastischen Stellungnahme. Die warnt vor der Auslöschung durch KI.

Endzeit: Experten warnen vor der Ausrottung der Menschheit durch KI
Artikel
  1. Apple: iPhone 15 soll mit USB-C und neuem Mute-Button kommen
    Apple
    iPhone 15 soll mit USB-C und neuem Mute-Button kommen

    Erste Dummys der kommenden iPhone-15-Reihe verraten bereits ein paar interessante kleinere Details - der Mute-Button etwa wird ersetzt.

  2. Künstliche Intelligenz: So funktionieren KI-Bildgeneratoren
    Künstliche Intelligenz
    So funktionieren KI-Bildgeneratoren

    Im Netz wimmelt es mittlerweile von künstlich erzeugten Bildern reitender Astronauten, skateboardfahrender Teddys oder stylish gekleideter Päpste. Aber wie machen Dall-E, Stable Diffusion & Co. das eigentlich?
    Von Helmut Linde

  3. Blizzard: Erste Wertungen für Diablo 4 sind da
    Blizzard
    Erste Wertungen für Diablo 4 sind da

    Gamer stehen vor einem Großereignis: Blizzard veröffentlicht bald Diablo 4. Nun gibt es erste Wertungen der Fachpresse.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • MindStar: 14 Grafikkarten im Sale • Logitech G Pro Wireless Maus 89€ • Amazon-Geräte für Alexa bis -50% • The A500 Mini 74,99€ • Logitech G213 Prodigy Tastatur 49,90€ • Crucial P5 Plus (PS5-komp.) 1TB 71,99€, 2TB 133,99€ • HyperX Cloud II Headset 62,99€ [Werbung]
    •  /