Machine Learning: Die eigene Stimme als TTS-Modell

Mit Machine Learning kann man ein lokal lauffähiges und hochwertiges TTS-Modell der eigenen Stimme herstellen. Dauert das lange? Ja. Braucht man das? Nein. Ist das absolut nerdig? Definitv!

Eine Anleitung von Thorsten Müller veröffentlicht am
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst
Eine künstliche Stimme zu erzeugen, die klingt wie man selbst (Bild: spoiu23/Pixabay)

Kleine Warnung vorweg: Wer glaubt, dass die Erzeugung einer hochqualitativen künstlichen Stimme, die klingt wie man selbst, innerhalb weniger Stunden oder Tage möglich ist, den muss ich leider enttäuschen. Der Audioexperte Dominik Kreutz und ich arbeiten im Rahmen des Projektes Thorsten-Voice seit über zwei Jahren an der Bereitstellung einer hochqualitativen, freien, deutschen künstlichen Stimme, die beispielsweise in einem offline arbeitenden Sprachassistenten verwendet werden kann. Mit folgenden Tipps kommt man allerdings schneller zum Ziel.

Die Erzeugung eines künstlichen Stimmenmodells ist kein simpler "Weiter, weiter, fertigstellen"-Prozess. Aufgrund der hohen Komplexität des Themas kann ich den Prozess hier nur rudimentär beschreiben sowie Tools oder Communities empfehlen und auf Fehler hinweisen, die ich extra für diesen Artikel alle selbst gemacht habe. Ein hohes Durchhaltevermögen im Fehlerfall ist sicherlich eine äußerst vorteilhafte Eigenschaft.

Eigene Stimmaufnahmen: Viel hilft viel

Wenig überraschend ist, dass man für eine künstliche Version seiner eigenen Stimme natürlich Audioaufnahmen derselben benötigt. Zur notwendigen Audiodauer oder Anzahl von Aufnahmen gibt es weniger feste Werte als vielmehr eine grobe Orientierung auf Basis von Erfahrungen. Generell gilt: Je mehr Aufnahmen und je vielseitiger die phonetische Abdeckung, desto besser wird die spätere Qualität der künstlichen TTS-Stimme werden. Als grobe Orientierung kann man von mehreren Tausend aufgenommenen Sätzen und einer Gesamtdauer von einigen Stunden reinem Audio ausgehen.

Wer auf die Idee kommt, statt der eigenen Stimme Aufnahmen des Lieblingsschauspielers oder Youtubers für die Erzeugung einer künstlichen Stimme zu verwenden, dem sei geraten, dies unter Copyright und Datenschutzaspekten gründlich zu überprüfen und im Zweifelsfall davon abzusehen.

Stellenmarkt
  1. IT-Business Relations Manager (m/w/d)
    GEMA Gesellschaft für musikalische Aufführungs- und mechanische Vervielfältigungsrechte, München
  2. Head of IT (m/w/d)
    Glasfaser Direkt GmbH, Köln
Detailsuche

Während es bei der Menge der Audioaufnahmen keine festen Vorgaben gibt, gibt es bezüglich der Aufnahmequalität sehr wohl wesentliche Kriterien. Weil die für ein TTS-Modell zugrundeliegende Technologie (Machine Learning) auf Basis der Aufnahmen lernt, gilt die einfache Regel: Je besser die Aufnahmen, desto besser das Ergebnis - oder englisch: "Shit in, shit out". Daher wird sich die in ein gutes Audiosetup investierte Zeit später auch in einem guten TTS-Modell bezahlt machen.

Hier einige Tipps:

  • Ein gutes Mikrofon verwenden
  • Immer den gleichen Aufnahmeraum verwenden
  • Konstanten Mund/Mikrofon-Abstand einhalten
  • Konstante Sprechgeschwindigkeit
  • Neutrale, deutliche und natürliche Sprechweise
  • Keine Silben verschlucken
  • Hintergrundgeräusche wie PC-Lüfter, Klimaanlagen, Hundegebell etc. vermeiden
  • Stimme vorher warmsprechen
  • Regelmäßige Aufnahmepausen machen, um die Stimme nicht zu überanstrengen
  • Laute Kopfhörerkontrolle der Aufnahmen machen, um Hintergrundstörgeräusche wie Rauschen oder Piepsen rechtzeitig zu erkennen.

Machine Learning und Neuronale Netze: Der verständliche Einstieg mit Python

Prinzipiell kann jedes Audio-Aufnahmeprogramm (beispielsweise Audacity) verwendet werden, um Stimmaufnahmen durchzuführen. In diesem speziellen Anwendungsfall empfehle ich allerdings das Werkzeug Mimic-Recording-Studio von Mycroft. Es hat hilfreiche Funktionen für die Aufnahmen eines Voice Dataset, welches die Grundlage des späteren TTS-Modells ist:

  • Es signalisiert eventuelle Abweichungen von der durchschnittlichen Sprechgeschwindigkeit.
  • Es benennt die Aufnahmen automatisch anhand einer eindeutigen GUID.
  • Stille am Anfang und Ende jeder Aufnahme werden automatisch abgeschnitten.
  • Es läuft als Webapplikation in einer Container-Umgebung.
  • Es verwendet eine Sqlite-Datenbank, um Informationen zu den Aufnahmen zu speichern.

Gerade die Zuordnung von gesprochenem Text zu Dateinamen in der mitgelieferten Sqlite-Datenbank leistet im weiteren Verlauf dieses Prozesses noch gute Dienste.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
Was bei der Erstellung des Text Corpus zu beachten ist 
  1. 1
  2. 2
  3. 3
  4. 4
  5.  


Aktuell auf der Startseite von Golem.de
Sparmaßnahmen
"Komplettes Chaos" nach Entlassungen bei Oracle

Auch Oracle hat einen massiven Stellenabbau begonnen. Das Unternehmen will eine Milliarde US-Dollar an Kosten einsparen.

Sparmaßnahmen: Komplettes Chaos nach Entlassungen bei Oracle
Artikel
  1. Klimawandel: SSDs sind klimaschädlicher als mechanische Festplatten
    Klimawandel
    SSDs sind klimaschädlicher als mechanische Festplatten

    Während ihrer Lebensdauer verursacht eine SSD fast doppelt so hohe CO2-Emissionen wie eine mechanische HDD.

  2. Staatstrojaner-Statistik 2020: Ermittler hacken 23 Endgeräte
    Staatstrojaner-Statistik 2020
    Ermittler hacken 23 Endgeräte

    Weniger Onlinedurchsuchungen, mehr Quellen-TKÜs: Die Staatstrojanerstatistik zeigt Einsatzschwerpunkte in wenigen Bundesländern.

  3. Microsoft Loop: Riesenkonzept mit Riesenchance auf Riesenchaos
    Microsoft Loop
    Riesenkonzept mit Riesenchance auf Riesenchaos

    Sehr unauffällig rollt Microsoft seine neue Technik Loop für die Onlinezusammenarbeit aus. Admins sollten sie jetzt schon auf dem Schirm haben, denn sie ist vielversprechend, erfordert aber viel Eindenken. Wir erklären sie im Detail.
    Von Mathias Küfner

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • MindStar (Gainward RTX 3070 559€, ASRock RX 6800 639€) • WD Black 2TB m. Kühlkörper (PS5) 219,90€ • Gigabyte Deals • Alternate (DeepCool Wakü 114,90€) • Apple Week bei Media Markt • be quiet! Deals • SSV bei Saturn (u. a. WD_BLACK SN850 1TB 119€) • Gamesplant Summer Sale [Werbung]
    •  /