Abo
  • Services:
Anzeige
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Anzeige

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".


eye home zur Startseite
jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Themenstart

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. Wüstenrot Immobilien GmbH, Ludwigsburg
  2. operational services GmbH & Co. KG, Nürnberg
  3. GALERIA Kaufhof GmbH, Köln
  4. operational services GmbH & Co. KG, verschiedene Standorte


Anzeige
Hardware-Angebote
  1. 444,00€ + 4,99€ Versand
  2. (reduzierte Überstände, Restposten & Co.)
  3. ab 649,90€

Folgen Sie uns
       


  1. Wahlprogramm

    SPD fordert Anzeigepflicht für "relevante Inhalte" im Netz

  2. Funkfrequenzen

    Bundesnetzagentur und Alibaba wollen Produkte sperren

  3. Elektromobilität

    Qualcomm lädt E-Autos während der Fahrt auf

  4. Microsoft

    Mixer soll schneller streamen als Youtube Gaming und Twitch

  5. Linux

    Kritische Sicherheitslücke in Samba gefunden

  6. Auftragsfertiger

    Samsung erweitert Roadmap bis 4 nm plus EUV

  7. Fake News

    Ägypten blockiert 21 Internetmedien

  8. Bungie

    Destiny 2 mischt Peer-to-Peer und dedizierte Server

  9. Rocketlabs

    Neuseeländische Rakete erreicht den Weltraum

  10. Prozessor

    Intel wird Thunderbolt 3 in CPUs integrieren



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Quantencomputer: Nano-Kühlung für Qubits
Quantencomputer
Nano-Kühlung für Qubits
  1. IBM Q Mehr Qubits von IBM
  2. Quantencomputer Was sind diese Qubits?
  3. Verschlüsselung Kryptographie im Quantenzeitalter

XPS 13 (9365) im Test: Dells Convertible zeigt alte Stärken und neue Schwächen
XPS 13 (9365) im Test
Dells Convertible zeigt alte Stärken und neue Schwächen
  1. Schnittstelle Intel pflegt endlich Linux-Treiber für Thunderbolt
  2. Atom C2000 & Kaby Lake Updates beheben Defekt respektive fehlendes HDCP 2.2
  3. UP2718Q Dell verkauft HDR10-Monitor ab Mai 2017

Calliope Mini im Test: Neuland lernt programmieren
Calliope Mini im Test
Neuland lernt programmieren
  1. Arduino Cinque RISC-V-Prozessor und ESP32 auf einem Board vereint
  2. MKRFOX1200 Neues Arduino-Board erscheint mit kostenlosem Datentarif
  3. Creoqode 2048 Tragbare Spielekonsole zum Basteln erhältlich

  1. Brückentag-Artikel ?

    S-Talker | 12:57

  2. Re: "Wenn die Kosten sich dafür lohnen"

    Niaxa | 12:55

  3. Induktionsladung = schlechter Wirkungsgrad

    ArcherV | 12:55

  4. Re: Monetarisierung

    Proctrap | 12:54

  5. Re: Ich werd es mir wohl kaufen oder gibt es...

    Berner Rösti | 12:54


  1. 13:05

  2. 12:30

  3. 12:01

  4. 12:00

  5. 11:58

  6. 11:50

  7. 11:30

  8. 11:10


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel