Was bei der Erstellung des Text Corpus zu beachten ist

Die aufzunehmenden Texte bezieht Mimic-Recording-Studio aus einer CSV-Datei, dem sogenannten Text Corpus. Für englische Aufnahmen wird eine passende Datei mitgeliefert - für andere Sprachen muss eine solche Datei selbst erstellt werden.

Stellenmarkt
  1. (Senior) SAP Basis Administrator (m/w/d)
    OEDIV KG, verschiedene Standorte
  2. IT-Systemadministrator (m/w/d)
    SONAX GmbH, Neuburg an der Donau
Detailsuche

Bei der Erstellung eines Text Corpus ist eine gute Mischung (Satzlänge und Satzart, Sonderzeichen und Zeichen wie Kommas oder Semikolons, die Einfluss auf die Betonung haben) der Sätze vorteilhaft. Das fertige TTS-Modell kann nur so gut und vielseitig sein wie die Aufnahmen, auf denen es trainiert wurde. Beinhaltet der Text Corpus beispielsweise nur kurze Sätze, dann hat das spätere Modell möglicherweise Schwierigkeiten beim Erzeugen längerer Sätze oder umgekehrt.

Bei der Zusammenstellung der Texte für den Corpus spielen auch Lizenzen der entsprechenden Texte eine Rolle, insbesondere wenn das Voice Dataset später veröffentlicht werden soll.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)

Das Lesen der genannten Tipps zu Beginn jeder Aufnahmesession hilft dabei, eine konstante Aufnahmequalität zu erreichen. Gerade die Kombination aus natürlichem Sprachfluss, neutraler Betonung und konstanter Sprechgeschwindigkeit stellte sich für mich persönlich als schwieriger heraus, als ich ursprünglich angenommen hatte.

Von vielen Aufnahmen zu einem Voice Dataset

Golem Karrierewelt
  1. Container Technologie: Docker und Kubernetes - Theorie und Praxis: virtueller Drei-Tage-Workshop
    27.-29.09.2022, virtuell
  2. Adobe Premiere Pro Grundkurs: virtueller Zwei-Tage-Workshop
    26./27.09.2022, Virtuell
Weitere IT-Trainings

Nach Abschluss der Aufnahmen folgt als nächster Schritt die Erzeugung eines Voice Dataset. Dabei handelt es sich um ein Paket aus den aufgenommenen Wavedateien und einer Metadaten-CSV-Datei, die den Dateinamen der Aufnahme dem darin gesprochenen Text zuordnet. Um unnötigen Aufwand bei der weiteren Verarbeitung zu vermeiden, bietet sich die Verwendung einer weit verbreitete Voice-Dataset-Struktur wie LJSpeech an.

Die Sqlite-Datenbank kann mit einem Programm wie DBeaver geöffnet werden und hält alle Informationen für das Erstellen der metadata.csv-Datei bereit.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)

Die Aufnahmedateien im Wave-Format speichert Mimic-Recording-Studio im Verzeichnis MRS-Basis/backend/audio_files//.wav ab.

Mit folgendem Pytho-3-Skript kann auf Basis der Mimic-Recording-Studio-Aufnahmen ein Voice Dataset mit der LJSpeech-Struktur hergestellt werden.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)

Einrichten von Coqui TTS und analysieren des Voice Dataset

Für die nächsten Schritte im Prozess zu einer eigenen künstlichen Stimme verwende ich das Code-Repository von Coqui TTS. Die auf Python3 basierende Umgebung kann anhand der Dokumentation recht schnell aufgesetzt werden. Nach dem Auflösen diverser Paketabhängigkeiten kann die Analyse des Voice Dataset beginnen. Auf Basis von Jupyter Notebooks stellt Coqui TTS einige Analysemöglichkeiten des Voice Dataset bereit. Bei Fragen zur Einrichtung oder zu den umfangreichen Einstellungsmöglichkeiten steht die Coqui-Community sicherlich hilfsbereit zur Seite.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)

Auf Basis der Ergebnisse der Analyse können unpassende Aufnahmen aus dem Voice Dataset entfernt oder fehlende Aufnahmen ergänzt werden, bevor das Training des TTS-Modells gestartet wird.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Übersicht der Aufnahmenanzahl pro Satzlänge (Screenshot: Thorsten Müller)
 Machine Learning: Die eigene Stimme als TTS-ModellTraining des TTS-Modells 
  1.  
  2. 1
  3. 2
  4. 3
  5. 4
  6.  


Aktuell auf der Startseite von Golem.de
Google Fonts
Abmahnungen an Webseitenbetreiber mit Google-Schriftarten

Nach einer Entscheidung des Landgerichts München erhalten Webseitenbetreiber mit eingebundenen Google Fonts vermehrt Abmahnungen.

Google Fonts: Abmahnungen an Webseitenbetreiber mit Google-Schriftarten
Artikel
  1. Paw Patrol: US Space Force schickt Roboterhunde auf Patrouille
    Paw Patrol
    US Space Force schickt Roboterhunde auf Patrouille

    Die US Space Force wird einen hundeähnlichen Roboter von Ghost Robotics auf Patrouille schicken, um Personalkosten zu senken.

  2. Programmiersprache: JSON-Erfinder will Javascript in Rente schicken
    Programmiersprache
    JSON-Erfinder will Javascript in Rente schicken

    Douglas Crockford, der Erfinder des Datenformats JSON und Mitentwickler von Javascript, findet, dass die Sprache in Rente geschickt werden sollte.

  3. Windows auf dem Mac: Parallels wird merklich teurer
    Windows auf dem Mac
    Parallels wird merklich teurer

    Parallels 18 bietet eine native Unterstützung für Windows 11 und eine bessere Ressourcenzuweisung. Allerdings wird die Software teurer.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: WD SSD 1TB m. Kühlkörper (PS5) 119,90€, MSI 29,5" 200 Hz 259€, LG QNED 75" 120 Hz 1.455,89€ • MindStar (XFX RX 6950 XT 999€, Gainward RTX 3070 559€) • Gigabyte Deals • Der beste Gaming-PC für 2.000€ • Apple Week bei Media Markt • be quiet! Deals [Werbung]
    •  /