Was bei der Erstellung des Text Corpus zu beachten ist
Die aufzunehmenden Texte bezieht Mimic-Recording-Studio aus einer CSV-Datei, dem sogenannten Text Corpus. Für englische Aufnahmen wird eine passende Datei mitgeliefert - für andere Sprachen muss eine solche Datei selbst erstellt werden.
Bei der Erstellung eines Text Corpus ist eine gute Mischung (Satzlänge und Satzart, Sonderzeichen und Zeichen wie Kommas oder Semikolons, die Einfluss auf die Betonung haben) der Sätze vorteilhaft. Das fertige TTS-Modell kann nur so gut und vielseitig sein wie die Aufnahmen, auf denen es trainiert wurde. Beinhaltet der Text Corpus beispielsweise nur kurze Sätze, dann hat das spätere Modell möglicherweise Schwierigkeiten beim Erzeugen längerer Sätze oder umgekehrt.
Bei der Zusammenstellung der Texte für den Corpus spielen auch Lizenzen der entsprechenden Texte eine Rolle, insbesondere wenn das Voice Dataset später veröffentlicht werden soll.
Das Lesen der genannten Tipps zu Beginn jeder Aufnahmesession hilft dabei, eine konstante Aufnahmequalität zu erreichen. Gerade die Kombination aus natürlichem Sprachfluss, neutraler Betonung und konstanter Sprechgeschwindigkeit stellte sich für mich persönlich als schwieriger heraus, als ich ursprünglich angenommen hatte.
Von vielen Aufnahmen zu einem Voice Dataset
Nach Abschluss der Aufnahmen folgt als nächster Schritt die Erzeugung eines Voice Dataset. Dabei handelt es sich um ein Paket aus den aufgenommenen Wavedateien und einer Metadaten-CSV-Datei, die den Dateinamen der Aufnahme dem darin gesprochenen Text zuordnet. Um unnötigen Aufwand bei der weiteren Verarbeitung zu vermeiden, bietet sich die Verwendung einer weit verbreitete Voice-Dataset-Struktur wie LJSpeech an.
Die Sqlite-Datenbank kann mit einem Programm wie DBeaver geöffnet werden und hält alle Informationen für das Erstellen der metadata.csv-Datei bereit.
Die Aufnahmedateien im Wave-Format speichert Mimic-Recording-Studio im Verzeichnis MRS-Basis/backend/audio_files/
Mit folgendem Pytho-3-Skript kann auf Basis der Mimic-Recording-Studio-Aufnahmen ein Voice Dataset mit der LJSpeech-Struktur hergestellt werden.
Einrichten von Coqui TTS und analysieren des Voice Dataset
Für die nächsten Schritte im Prozess zu einer eigenen künstlichen Stimme verwende ich das Code-Repository von Coqui TTS. Die auf Python3 basierende Umgebung kann anhand der Dokumentation recht schnell aufgesetzt werden. Nach dem Auflösen diverser Paketabhängigkeiten kann die Analyse des Voice Dataset beginnen. Auf Basis von Jupyter Notebooks stellt Coqui TTS einige Analysemöglichkeiten des Voice Dataset bereit. Bei Fragen zur Einrichtung oder zu den umfangreichen Einstellungsmöglichkeiten steht die Coqui-Community sicherlich hilfsbereit zur Seite.
Auf Basis der Ergebnisse der Analyse können unpassende Aufnahmen aus dem Voice Dataset entfernt oder fehlende Aufnahmen ergänzt werden, bevor das Training des TTS-Modells gestartet wird.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Machine Learning: Die eigene Stimme als TTS-Modell | Training des TTS-Modells |
Durchaus. Aber wenn man mit dem 12MP ( Ton bei normaler Geschwindigkeit...
excellenter artikel, fehlt nur der link darauf ohne paginierung.
die gruppe für das Projekt ist MycroftAI nicht mycroft: https://github.com/MycroftAI...
Kommentieren