Abo
  • Services:
Anzeige
Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Tacotron: Google will Text-to-Speech-Modelle revolutionieren

Das Ende-zu-Ende-Verfahren von Tacotron
Das Ende-zu-Ende-Verfahren von Tacotron (Bild: Google)

Statt die Sprachsynthese von Text mehrstufig zu verarbeiten, hat Google mit Tacotron ein Modell vorgestellt, das direkt aus Text eine Sprachausgabe erzeugt. In ersten Tests schneide das Modell sehr vielversprechend ab.

Die bisher übliche Vorgehensweise bei Sprachsynthese auf Grundlage von Text (Text-to-Speech, TTS) sei mehrstufig aufgebaut: die eigentliche Textanalyse, ein akustisches Modell sowie die Audiosynthese, schreibt ein Forscherteam von Google, das diese Herangehensweise mit einem neuen Modell grundsätzlich verändern möchte. Denn das Tacotron-Modell soll Ende-zu-Ende arbeiten.

Anzeige

Das bedeute, dass mit Tacotron die Sprachausgabe direkt aus einer gegebenen Sequenz von Buchstaben synthetisiert werden könne. Die Ausgangslage, um das Modell zu trainieren, seien dabei Paare aus Text und dazugehörigem Audiomaterial. Das Training könne mit Tacotron zudem mit einer zufälligen Initialisierung erfolgreich durchgeführt werden.

Erste eigene Experimente mit Tacotron basieren laut den Forschern auf einem intern genutzten Datensatz mit etwas mehr als 24 Stunden Sprachaufnahmen einer professionellen Sprecherin des North-American-English. Zusätzlich zu dem noch neuen Ende-zu-Ende-Ansatz erzeuge Tacotron dank einer speziellen Trainingsmethode mit einer Postprocessing-Phase auch besser aufgelöste Harmoniken und Formantenstrukturen bei hohen Frequenzen, was wiederum Artefakte bei der tatsächlichen Synthese verringern soll.

Einer eigenen Untersuchung zufolge sei Tacotron bereits besser als einige andere TTS-Modelle, was sich an dem vergleichsweise guten Mean Opinion Score (MOS) von rund 3,8 zeige. Die Synthese klingt für die Versuchsteilnehmer also relativ natürlich und ist ohne große Anstrengungen wahrnehmbar, und das, obwohl die genutzte Methode zur Synthese immer noch Artefakte erzeuge. Der MOS von Tacotron sei demnach "ein sehr vielversprechendes Ergebnis".


eye home zur Startseite
jungundsorglos 02. Apr 2017

Seit wann ist bei KI Vorwissen irrelevant? Einiges lässt sich nicht ableiten ohne...

Themenstart

Mephistofeles 02. Apr 2017

Ich finde es interessant. Ließ es doch einfach nicht.

Themenstart

Kommentieren



Anzeige

Stellenmarkt
  1. ResMed, Martinsried Raum München
  2. BG-Phoenics GmbH, München
  3. operational services GmbH & Co. KG, Wolfsburg, Braunschweig, Zwickau
  4. Accenture, Frankfurt


Anzeige
Top-Angebote
  1. 49,99€
  2. 125,00€
  3. (65B6D für 2.799,00€ und 65C6D für 2.999,00€)

Folgen Sie uns
       


  1. Tim Dashwood

    Entwickler von 360VR Toolbox verschenkt seine Software

  2. UEFI-Update

    Agesa 1004a lässt Ryzen-Boards schneller booten

  3. Sledgehammer Games

    Call of Duty WWII spielt wieder im Zweiten Weltkrieg

  4. Mobilfunk

    Patentverwerter klagt gegen Apple und Mobilfunkanbieter

  5. Privatsphäre

    Bildungsrechner spionieren Schüler aus

  6. Raumfahrt

    Chinesischer Raumfrachter Tanzhou 1 dockt an Raumstation an

  7. Die Woche im Video

    Kein Saft, kein Wumms, keine Argumente

  8. Windows 7 und 8

    Github-Nutzer schafft Freischaltung von neuen CPUs

  9. Whitelist umgehen

    Node-Server im Nvidia-Treiber ermöglicht Malware-Ausführung

  10. Easy S und Easy M

    Vodafone stellt günstige Einsteigertarife ohne LTE vor



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Quantenphysik: Im Kleinen spielt das Universum verrückt
Quantenphysik
Im Kleinen spielt das Universum verrückt
  1. Quantenmechanik Malen nach Zahlen für die weltbesten Mathematiker
  2. IBM Q Qubits as a Service
  3. Rechentechnik Ein Bauplan für einen Quantencomputer

Elektromobilität: Wie kommt der Strom in die Tiefgarage?
Elektromobilität
Wie kommt der Strom in die Tiefgarage?
  1. Elektroauto Opel Ampera-E kostet inklusive Prämie ab 34.950 Euro
  2. Elektroauto Volkswagen I.D. Crozz soll als Crossover autonom fahren
  3. Sportback Concept Audis zweiter E-tron ist ein Sportwagen

Hate-Speech-Gesetz: Regierung kennt keine einzige strafbare Falschnachricht
Hate-Speech-Gesetz
Regierung kennt keine einzige strafbare Falschnachricht
  1. Neurowissenschaft Facebook erforscht Gedanken-Postings
  2. Rundumvideo Facebooks 360-Grad-Ballkamera nimmt Tiefeninformationen auf
  3. Spaces Facebook stellt Beta seiner Virtual-Reality-Welt vor

  1. Re: Bootzeit?

    tomacco | 07:13

  2. Re: 40k für einen Kleinwagen?

    ArcherV | 07:10

  3. Grammatik: "Das Konzept ähnelt dem europäischen...

    s01q | 07:02

  4. Re: frage zu Passmark CPU benchmarks

    DetlevCM | 06:35

  5. Re: Selten dämliche Investoren ...

    MistelMistel | 06:27


  1. 07:24

  2. 12:40

  3. 11:55

  4. 15:19

  5. 13:40

  6. 11:00

  7. 09:03

  8. 18:01


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel