Beenden des Trainings und Verwendung des Modells

Der Trainingsprozess schreibt zu Beginn eine config.json-Datei mit allen Einstellungen des Modells, auf Basis der zum Trainingsstart verwendeten Python-Datei. Weiterhin werden regelmäßig Checkpoint-Dateien mit dem Stand des Trainingsfortschrittes erzeugt. Diese Kombination aus JSON-basierter Konfigurationsdatei und Checkpoint kann dazu verwendet werden, die künstliche Stimme mit dem von Coqui TTS mitgelieferten Webserver zu erzeugen.

Stellenmarkt
  1. SAP BW/BI on HANA Architekt (m/w/x)
    über duerenhoff GmbH, Pforzheim
  2. IT Administrator (m/w/d)
    Bike Mobility Services GmbH, Cloppenburg
Detailsuche

Beim Training des TTS-Modells gibt es kein festes Ende oder einen Fortschrittsbalken, der anzeigt, wann das Training beendet ist. Stattdessen gibt das Tensorboard anhand der Diagramme und Audio Samples Aufschluss, wann das Modell gut genug ist - um dann das Training zu beenden.

  • Textcorpus für die Aufnahmen mit Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Weboberfläche von Mimic-Recording-Studio (Screenshot: Thorsten Müller)
  • Die Sqlite-Datenbank von Mimic-Recording-Studio ermöglicht schnelle Abfragen aller Aufnahmen. (Screenshot: Thorsten Müller)
  • Beispiel einer LJSpeech-Voice-Dataset-Struktur (Screenshot: Thorsten Müller)
  • TTS-Dataset-Analyse: Dieser Verlauf zeigt eine konstante Sprechgeschwindigkeit bei einer Satzlänge zwischen 2 und 160 Zeichen. (Screenshot: Thorsten Müller)
  • Übersicht der Aufnahmenanzahl pro Satzlänge  (Screenshot: Thorsten Müller)
  • Die Grafiken im Tensorboard geben Aufschluss zum laufenden Training.  (Screenshot: Thorsten Müller)
  • Die regelmäßig vom Training erzeugten Testaudios geben einen guten Eindruck zur Entwicklung der Qualität.  (Screenshot: Thorsten Müller)
  • Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden.  (Screenshot: Thorsten Müller)
Per Coqui-TTS-Webfrontend kann das Modell einfach ausprobiert werden. (Screenshot: Thorsten Müller)

Sobald der Webserver mit dem Modell gestartet ist und die Erzeugung per Weboberfläche funktioniert, kann auch per API-Aufruf, beispielsweise mit cURL, eine künstliche Stimmausgabe generiert werden.

curl http://"Server":5002/api/tts?text=Hallo. -o hallo.wav

Golem Karrierewelt
  1. Kubernetes – das Container Orchestration Framework: virtueller Vier-Tage-Workshop
    29.08.-01.09.2022, Virtuell
  2. Deep-Dive Kubernetes – Production Grade Deployments: virtueller Ein-Tages-Workshop
    20.09.2022, Virtuell
Weitere IT-Trainings

Für die Integration in bestehende Python-3-Programme steht mit cTTS ein simples Python-Modul zur Verfügung.

Wer sich den Ablauf, die eigene Stimme als TTS-Modell zu erzeugen, bildlich und detaillierter anschauen möchte, für den stehen auf dieser Youtube-Playlist einige Videos zur Verfügung.

Wie zu Beginn geschrieben, kann dieser Artikel das Thema nur oberflächlich beschreiben. Wer Interesse an dem Thema gefunden hat, wird in den Communities von Mycroft, Coqui oder auf meinem Twitter-Account @ThorstenVoice sicherlich hilfsbereite Ansprechpartner finden.

Happy TTS'ing :-).

Thorsten Müller beschäftigt sich als IT-Enthusiast mit Smart-Home-Konzepten und Themen rund um offene Sprachtechnologien (Sprachassistenten, Spracherkennung und Sprachsynthese). Sein Wissen teilt er in Open-Voice-Communities, auf Youtube und auf seinem Twitter-Account.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Training des TTS-Modells
  1.  
  2. 1
  3. 2
  4. 3
  5. 4


Aktuell auf der Startseite von Golem.de
Google Fonts
Abmahnungen an Webseitenbetreiber mit Google-Schriftarten

Nach einer Entscheidung des Landgerichts München erhalten Webseitenbetreiber mit eingebundenen Google Fonts vermehrt Abmahnungen.

Google Fonts: Abmahnungen an Webseitenbetreiber mit Google-Schriftarten
Artikel
  1. Programmiersprache: JSON-Erfinder will Javascript in Rente schicken
    Programmiersprache
    JSON-Erfinder will Javascript in Rente schicken

    Douglas Crockford, der Erfinder des Datenformats JSON und Mitentwickler von Javascript, findet, dass die Sprache in Rente geschickt werden sollte.

  2. Paw Patrol: US Space Force schickt Roboterhunde auf Patrouille
    Paw Patrol
    US Space Force schickt Roboterhunde auf Patrouille

    Die US Space Force wird einen hundeähnlichen Roboter von Ghost Robotics auf Patrouille schicken, um Personalkosten zu senken.

  3. Windows auf dem Mac: Parallels wird merklich teurer
    Windows auf dem Mac
    Parallels wird merklich teurer

    Parallels 18 bietet eine native Unterstützung für Windows 11 und eine bessere Ressourcenzuweisung. Allerdings wird die Software teurer.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Günstig wie nie: WD SSD 1TB m. Kühlkörper (PS5) 119,90€, MSI 29,5" 200 Hz 259€, LG QNED 75" 120 Hz 1.455,89€ • MindStar (XFX RX 6950 XT 999€, Gainward RTX 3070 559€) • Gigabyte Deals • Der beste Gaming-PC für 2.000€ • Apple Week bei Media Markt • be quiet! Deals [Werbung]
    •  /