Abo
  • IT-Karriere:

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Artikel veröffentlicht am ,
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Stellenmarkt
  1. DIS AG, München
  2. Hays AG, Frankfurt am Main

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".



Anzeige
Hardware-Angebote
  1. 259€ + Versand oder kostenlose Marktabholung (aktuell günstigste GTX 1070 Mini)
  2. 83,90€

jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.


Folgen Sie uns
       


Zenbook Pro Duo - Hands on

Braucht man das? Gut aussehen tut das Zenbook Pro Duo jedenfalls.

Zenbook Pro Duo - Hands on Video aufrufen
Bandlaufwerke als Backupmedium: Wie ein bisschen Tetris spielen
Bandlaufwerke als Backupmedium
"Wie ein bisschen Tetris spielen"

Hinter all den modernen Computern rasseln im Keller heutzutage noch immer Bandlaufwerke vor sich hin - eine der ältesten digitalen Speichertechniken. Golem.de wollte wissen, wie das im modernen Rechenzentrum aussieht und hat das GFZ Potsdam besucht, das Tape für Backups nutzt.
Von Oliver Nickel


    IT-Forensikerin: Beweise sichern im Faradayschen Käfig
    IT-Forensikerin
    Beweise sichern im Faradayschen Käfig

    IT-Forensiker bei der Bundeswehr sichern Beweise, wenn Soldaten Dienstvergehen oder gar Straftaten begehen, und sie jagen Viren auf Militärcomputern. Golem.de war zu Gast im Zentrum für Cybersicherheit, das ebenso wie die IT-Wirtschaft um guten Nachwuchs buhlt.
    Eine Reportage von Maja Hoock

    1. Homeoffice Wenn der Arbeitsplatz so anonym ist wie das Internet selbst
    2. Bundesagentur für Arbeit Informatikjobs bleiben 132 Tage unbesetzt
    3. IT-Headhunter ReactJS- und PHP-Experten verzweifelt gesucht

    Webbrowser: Das Tracking ist tot, es lebe das Tracking
    Webbrowser
    Das Tracking ist tot, es lebe das Tracking

    Die großen Browserhersteller Apple, Google und Mozilla versprechen ihren Nutzern Techniken, die das Tracking im Netz erschweren sollen. Doch das stärkt Werbemonopole im Netz und die Methoden verhindern das Tracking nicht.
    Eine Analyse von Sebastian Grüner

    1. Europawahlen Bundeszentrale will Wahl-O-Mat nachbessern
    2. Werbenetzwerke Weitere DSGVO-Untersuchung gegen Google gestartet
    3. WLAN-Tracking Ab Juli 2019 will Londons U-Bahn Smartphones verfolgen

      •  /