• IT-Karriere:
  • Services:

Deep Learning: Microsofts Software kann zu Musikstücken singen

Deep Singer ist ein Projekt von Microsoft AI, das synthetische Gesänge erstellt. Dazu werden Tonhöhen und -längen von Songs analysiert.

Artikel veröffentlicht am ,
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch.
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch. (Bild: Pixabay.com/CC0 1.0)

Ein Forscherteam von Microsoft AI arbeitet derzeit an einem Stimmensynthetisierer, der zu Musikstücken passenden Gesang erstellt. Die KI-Software Deepsinger verwendet dazu diverse Lieder von echten Menschen als Referenz, um aus diesen zu lernen und eigene Kreationen zu generieren. Die Songs stammen laut Microsoft von "einer bekannten Musikwebseite", deren Name nicht genannt wird. Kostenlose und ohne Einschränkungen verfügbare Portale wie Soundcloud wären dafür geeignet.

Stellenmarkt
  1. Statistisches Bundesamt, Wiesbaden
  2. Deutsche Energie-Agentur GmbH (dena), Berlin

Es werden nur bestimmte Songs als Quellmaterial zugelassen. Lieder, die länger als fünf Minuten und kürzer als eine Minute sind, werden direkt ignoriert. Außerdem werden vor der Stimmsynthetisierung ungeeignete Songs gefiltert, in denen Gesangsstimmen schlecht erkennbar sind, etwa durch schlechte Aufnahmequalität des Originals oder durch komplett falsche Tonspuren.

Deepsinger kombiniert diverse andere Open-Source-Tools, um Gesänge zu synthetisieren. Mithilfe von Phonemizer werden etwa Klanglaute aus Worten extrahiert. Das ist für die englische Sprache und die chinesischen Varianten Mandarin und Kantonesisch möglich. Für die letztgenannten Sprachen werden die in lateinische Buchstaben umgeschriebenen Schriftzeichen - genannt Pinyin - verwendet.

Länge und Tonlage der Laute bestimmen

Verschiedene Phoneme müssen zudem zu den Längen verschiedener Noten im Lied passen. Das Entwicklerteam hat ein Alignment Model Songtext-to-singing erstellt, welches diese Aufgabe übernehmen soll. So werden verschiedene Wortlaute von der KI länger gezogen - je nach vorliegender Melodie. Die einzelnen Gesangssilben werden zudem der jeweiligen Tonlage des darunterliegenden Liedes angepasst, wodurch eine melodische Stimme erzeugt wird.

In einigen Hörbeispielen zeigt das Forschungsteam bereits recht überzeugende Ergebnisse. Mit Musikbegleitung sind die synthetischen Stimmen kaum zu erkennen. Nur für sich genommen sind klare Audioartefakte und hallende Beitöne wahrnehmbar. Für Gesangssolos im Disneyfilm reicht das Programm also noch nicht aus, für Top-10-Popsongs eventuell schon.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. (u. a. Xbox Series X für 490€)

DebugErr 14. Jul 2020

Haha. Da reicht auch Babygeschrei mit Autotune


Folgen Sie uns
       


Purism Librem 5 - Test

Das Librem 5 ist ein Linux-Smartphone, das den Namen wirklich verdient. Das Gerät enttäuscht aber selbst hartgesottene Linuxer.

Purism Librem 5 - Test Video aufrufen
    •  /