Was bei der Erstellung des Text Corpus zu beachten ist

Die aufzunehmenden Texte bezieht Mimic-Recording-Studio aus einer CSV-Datei, dem sogenannten Text Corpus. Für englische Aufnahmen wird eine passende Datei mitgeliefert - für andere Sprachen muss eine solche Datei selbst erstellt werden.

Bei der Erstellung eines Text Corpus ist eine gute Mischung (Satzlänge und Satzart, Sonderzeichen und Zeichen wie Kommas oder Semikolons, die Einfluss auf die Betonung haben) der Sätze vorteilhaft. Das fertige TTS-Modell kann nur so gut und vielseitig sein wie die Aufnahmen, auf denen es trainiert wurde. Beinhaltet der Text Corpus beispielsweise nur kurze Sätze, dann hat das spätere Modell möglicherweise Schwierigkeiten beim Erzeugen längerer Sätze oder umgekehrt.

Bei der Zusammenstellung der Texte für den Corpus spielen auch Lizenzen der entsprechenden Texte eine Rolle, insbesondere wenn das Voice Dataset später veröffentlicht werden soll.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)

Das Lesen der genannten Tipps zu Beginn jeder Aufnahmesession hilft dabei, eine konstante Aufnahmequalität zu erreichen. Gerade die Kombination aus natürlichem Sprachfluss, neutraler Betonung und konstanter Sprechgeschwindigkeit stellte sich für mich persönlich als schwieriger heraus, als ich ursprünglich angenommen hatte.

Von vielen Aufnahmen zu einem Voice Dataset

Nach Abschluss der Aufnahmen folgt als nächster Schritt die Erzeugung eines Voice Dataset. Dabei handelt es sich um ein Paket aus den aufgenommenen Wavedateien und einer Metadaten-CSV-Datei, die den Dateinamen der Aufnahme dem darin gesprochenen Text zuordnet. Um unnötigen Aufwand bei der weiteren Verarbeitung zu vermeiden, bietet sich die Verwendung einer weit verbreitete Voice-Dataset-Struktur wie LJSpeech an.

Die Sqlite-Datenbank kann mit einem Programm wie DBeaver geöffnet werden und hält alle Informationen für das Erstellen der metadata.csv-Datei bereit.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)

Die Aufnahmedateien im Wave-Format speichert Mimic-Recording-Studio im Verzeichnis MRS-Basis/backend/audio_files/[GUID der Aufnahmesession]/[audio_id].wav ab.

Mit folgendem Pytho-3-Skript kann auf Basis der Mimic-Recording-Studio-Aufnahmen ein Voice Dataset mit der LJSpeech-Struktur hergestellt werden.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)

Einrichten von Coqui TTS und analysieren des Voice Dataset

Für die nächsten Schritte im Prozess zu einer eigenen künstlichen Stimme verwende ich das Code-Repository von Coqui TTS. Die auf Python3 basierende Umgebung kann anhand der Dokumentation recht schnell aufgesetzt werden. Nach dem Auflösen diverser Paketabhängigkeiten kann die Analyse des Voice Dataset beginnen. Auf Basis von Jupyter Notebooks stellt Coqui TTS einige Analysemöglichkeiten des Voice Dataset bereit. Bei Fragen zur Einrichtung oder zu den umfangreichen Einstellungsmöglichkeiten steht die Coqui-Community sicherlich hilfsbereit zur Seite.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)

Auf Basis der Ergebnisse der Analyse können unpassende Aufnahmen aus dem Voice Dataset entfernt oder fehlende Aufnahmen ergänzt werden, bevor das Training des TTS-Modells gestartet wird.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Übersicht der Aufnahmenanzahl pro Satzlänge (Screenshot: Thorsten Müller)
 Machine Learning: Die eigene Stimme als TTS-ModellTraining des TTS-Modells 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Aktuell auf der Startseite von Golem.de
Whistleblower
Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen

Wieder hat sich in den USA ein ehemals hochrangiger Militär und Beamter über Kontakte mit Aliens geäußert.

Whistleblower: Ehemaliger US-Konteradmiral äußert sich zu Außerirdischen
Artikel
  1. Schadstoffnorm 7: Neue Grenzwerte für Abrieb gelten auch für E-Autos
    Schadstoffnorm 7
    Neue Grenzwerte für Abrieb gelten auch für E-Autos

    Die neue Euronorm 7 legt nicht nur Grenzwerte für Bremsen- und Reifenabrieb fest, sondern auch Mindestanforderungen für Akkus.

  2. Ramjet: General Electric testet Hyperschalltriebwerk
    Ramjet
    General Electric testet Hyperschalltriebwerk

    Das Triebwerk soll Flüge mit Mach 5 ermöglichen.

  3. Elektroautos: Mercedes und Stellantis übernehmen komplette Umweltprämie
    Elektroautos
    Mercedes und Stellantis übernehmen komplette Umweltprämie

    Nach dem abrupten Aus der staatlichen Förderung springen erste Hersteller von Elektroautos ein.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Last-Minute-Angebote bei Amazon • Avatar & The Crew Motorfest bis -50% • Xbox Series X 399€ • Cherry MX Board 3.0 S 49,95€ • Crucial MX500 2 TB 110,90€ • AVM FRITZ!Box 7590 AX + FRITZ!DECT 500 219€ [Werbung]
    •  /