Machine Learning: Die eigene Stimme als TTS-Modell

Mit Machine Learning kann man ein lokal lauffähiges und hochwertiges TTS-Modell der eigenen Stimme herstellen. Dauert das lange? Ja. Braucht man das? Nein. Ist das absolut nerdig? Definitv!

Eine Anleitung von Thorsten Müller veröffentlicht am
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst (Bild: spoiu23/Pixabay)

Kleine Warnung vorweg: Wer glaubt, dass die Erzeugung einer hochqualitativen künstlichen Stimme, die klingt wie man selbst, innerhalb weniger Stunden oder Tage möglich ist, den muss ich leider enttäuschen. Der Audioexperte Dominik Kreutz und ich arbeiten im Rahmen des Projektes Thorsten-Voice seit über zwei Jahren an der Bereitstellung einer hochqualitativen, freien, deutschen künstlichen Stimme, die beispielsweise in einem offline arbeitenden Sprachassistenten verwendet werden kann. Mit folgenden Tipps kommt man allerdings schneller zum Ziel.

Die Erzeugung eines künstlichen Stimmenmodells ist kein simpler "Weiter, weiter, fertigstellen"-Prozess. Aufgrund der hohen Komplexität des Themas kann ich den Prozess hier nur rudimentär beschreiben sowie Tools oder Communities empfehlen und auf Fehler hinweisen, die ich extra für diesen Artikel alle selbst gemacht habe. Ein hohes Durchhaltevermögen im Fehlerfall ist sicherlich eine äußerst vorteilhafte Eigenschaft.

Eigene Stimmaufnahmen: Viel hilft viel

Wenig überraschend ist, dass man für eine künstliche Version seiner eigenen Stimme natürlich Audioaufnahmen derselben benötigt. Zur notwendigen Audiodauer oder Anzahl von Aufnahmen gibt es weniger feste Werte als vielmehr eine grobe Orientierung auf Basis von Erfahrungen. Generell gilt: Je mehr Aufnahmen und je vielseitiger die phonetische Abdeckung, desto besser wird die spätere Qualität der künstlichen TTS-Stimme werden. Als grobe Orientierung kann man von mehreren Tausend aufgenommenen Sätzen und einer Gesamtdauer von einigen Stunden reinem Audio ausgehen.

Wer auf die Idee kommt, statt der eigenen Stimme Aufnahmen des Lieblingsschauspielers oder Youtubers für die Erzeugung einer künstlichen Stimme zu verwenden, dem sei geraten, dies unter Copyright und Datenschutzaspekten gründlich zu überprüfen und im Zweifelsfall davon abzusehen.

Stellenmarkt
  1. SAP Logistik Berater (m/w/x) mit Know-How in SD/WM/PP/QM
    über duerenhoff GmbH, Bonn
  2. Master Data Specialist (m/w / divers)
    edding Aktiengesellschaft, Ahrensburg
Detailsuche

Während es bei der Menge der Audioaufnahmen keine festen Vorgaben gibt, gibt es bezüglich der Aufnahmequalität sehr wohl wesentliche Kriterien. Weil die für ein TTS-Modell zugrundeliegende Technologie (Machine Learning) auf Basis der Aufnahmen lernt, gilt die einfache Regel: Je besser die Aufnahmen, desto besser das Ergebnis - oder englisch: "Shit in, shit out". Daher wird sich die in ein gutes Audiosetup investierte Zeit später auch in einem guten TTS-Modell bezahlt machen.

Hier einige Tipps:

  • Ein gutes Mikrofon verwenden
  • Immer den gleichen Aufnahmeraum verwenden
  • Konstanten Mund/Mikrofon-Abstand einhalten
  • Konstante Sprechgeschwindigkeit
  • Neutrale, deutliche und natürliche Sprechweise
  • Keine Silben verschlucken
  • Hintergrundgeräusche wie PC-Lüfter, Klimaanlagen, Hundegebell etc. vermeiden
  • Stimme vorher warmsprechen
  • Regelmäßige Aufnahmepausen machen, um die Stimme nicht zu überanstrengen
  • Laute Kopfhörerkontrolle der Aufnahmen machen, um Hintergrundstörgeräusche wie Rauschen oder Piepsen rechtzeitig zu erkennen.

Machine Learning und Neuronale Netze: Der verständliche Einstieg mit Python

Prinzipiell kann jedes Audio-Aufnahmeprogramm (beispielsweise Audacity) verwendet werden, um Stimmaufnahmen durchzuführen. In diesem speziellen Anwendungsfall empfehle ich allerdings das Werkzeug Mimic-Recording-Studio von Mycroft. Es hat hilfreiche Funktionen für die Aufnahmen eines Voice Dataset, welches die Grundlage des späteren TTS-Modells ist:

  • Es signalisiert eventuelle Abweichungen von der durchschnittlichen Sprechgeschwindigkeit.
  • Es benennt die Aufnahmen automatisch anhand einer eindeutigen GUID.
  • Stille am Anfang und Ende jeder Aufnahme werden automatisch abgeschnitten.
  • Es läuft als Webapplikation in einer Container-Umgebung.
  • Es verwendet eine Sqlite-Datenbank, um Informationen zu den Aufnahmen zu speichern.

Gerade die Zuordnung von gesprochenem Text zu Dateinamen in der mitgelieferten Sqlite-Datenbank leistet im weiteren Verlauf dieses Prozesses noch gute Dienste.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Was bei der Erstellung des Text Corpus zu beachten ist 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Aktuell auf der Startseite von Golem.de
Kabelnetz
Vodafone setzt neuartige Antennendosen ein

Ohne Radioport kommt die neue Antennendose und ist damit schon für DOCSIS 4.0 vorbereitet. Doch sie soll bereits jetzt Vorteile für Vodafone-Kunden bringen.

Kabelnetz: Vodafone setzt neuartige Antennendosen ein
Artikel
  1. Hybridmagnet: Chinesische Forscher erzeugen Rekord-Magnetfeld
    Hybridmagnet
    Chinesische Forscher erzeugen Rekord-Magnetfeld

    Mit einem Hybridmagneten hat ein Team in China einen Rekord aus den USA für das stärkste stabile Magnetfeld überboten.

  2. Clop: Ransomwaregruppe erpresst scheinbar falsches Wasserwerk
    Clop
    Ransomwaregruppe erpresst scheinbar falsches Wasserwerk

    Eine Ransomwaregruppe hat sich nach einem Hack eines Wasserversorgungsunternehmens in Großbritannien offenbar vertan und ein anderes Werk erpresst.

  3. MacTigr: Das Keyboard präsentiert mechanische Mac-Tastatur
    MacTigr
    Das Keyboard präsentiert mechanische Mac-Tastatur

    Die MacTigr ist eine speziell für Mac-Nutzer gedachte mechanische Tastatur mit USB-Hub, Cherry-Switches und Metallgehäuse.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: Zotac RTX 3080 12GB 829€, Mac mini 16GB 1.047,26€, Samsung SSD 1TB/2TB (PS5) 111€/199,99€ • MindStar (Sapphire RX 6900XT 939€, G.Skill DDR4-3200 32GB 98€) • PS5 bestellbar • Games für PS5/PS4 bis 84% günstiger • Bester 2.000€-Gaming-PC[Werbung]
    •  /