Deep Learning: Microsofts Software kann zu Musikstücken singen

Deep Singer ist ein Projekt von Microsoft AI, das synthetische Gesänge erstellt. Dazu werden Tonhöhen und -längen von Songs analysiert.

Artikel veröffentlicht am ,
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch.
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch. (Bild: Pixabay.com/CC0 1.0)

Ein Forscherteam von Microsoft AI arbeitet derzeit an einem Stimmensynthetisierer, der zu Musikstücken passenden Gesang erstellt. Die KI-Software Deepsinger verwendet dazu diverse Lieder von echten Menschen als Referenz, um aus diesen zu lernen und eigene Kreationen zu generieren. Die Songs stammen laut Microsoft von "einer bekannten Musikwebseite", deren Name nicht genannt wird. Kostenlose und ohne Einschränkungen verfügbare Portale wie Soundcloud wären dafür geeignet.

Es werden nur bestimmte Songs als Quellmaterial zugelassen. Lieder, die länger als fünf Minuten und kürzer als eine Minute sind, werden direkt ignoriert. Außerdem werden vor der Stimmsynthetisierung ungeeignete Songs gefiltert, in denen Gesangsstimmen schlecht erkennbar sind, etwa durch schlechte Aufnahmequalität des Originals oder durch komplett falsche Tonspuren.

Deepsinger kombiniert diverse andere Open-Source-Tools, um Gesänge zu synthetisieren. Mithilfe von Phonemizer werden etwa Klanglaute aus Worten extrahiert. Das ist für die englische Sprache und die chinesischen Varianten Mandarin und Kantonesisch möglich. Für die letztgenannten Sprachen werden die in lateinische Buchstaben umgeschriebenen Schriftzeichen - genannt Pinyin - verwendet.

Länge und Tonlage der Laute bestimmen

Verschiedene Phoneme müssen zudem zu den Längen verschiedener Noten im Lied passen. Das Entwicklerteam hat ein Alignment Model Songtext-to-singing erstellt, welches diese Aufgabe übernehmen soll. So werden verschiedene Wortlaute von der KI länger gezogen - je nach vorliegender Melodie. Die einzelnen Gesangssilben werden zudem der jeweiligen Tonlage des darunterliegenden Liedes angepasst, wodurch eine melodische Stimme erzeugt wird.

In einigen Hörbeispielen zeigt das Forschungsteam bereits recht überzeugende Ergebnisse. Mit Musikbegleitung sind die synthetischen Stimmen kaum zu erkennen. Nur für sich genommen sind klare Audioartefakte und hallende Beitöne wahrnehmbar. Für Gesangssolos im Disneyfilm reicht das Programm also noch nicht aus, für Top-10-Popsongs eventuell schon.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Donald E. Knuth
30 Jahre Weihnachtsvorlesungen frei verfügbar

Ein bisschen theoretische Informatik, Algorithmen oder Mathematik zu Weihnachten? Wer das mag, kann nun sogar alle Vorlesungen hintereinander ansehen.

Donald E. Knuth: 30 Jahre Weihnachtsvorlesungen frei verfügbar
Artikel
  1. 25 Jahre Grim Fandango: Toller Trip durch das Reich der Toten
    25 Jahre Grim Fandango
    Toller Trip durch das Reich der Toten

    Morbide und lustig: Grim Fandango war kein Erfolg und gilt trotzdem als Klassiker. Golem.de hat es erneut durchgespielt - und war wieder begeistert.
    Von Andreas Altenheimer

  2. Star Wars: Holiday Special jetzt in 4K mit 60 fps
    Star Wars
    Holiday Special jetzt in 4K mit 60 fps

    Eine bessere Story bekommt der legendär schlechte Film dadurch leider nicht. Bis heute lieben ihn einige Fans aber vor allem wegen seiner Absurdität.

  3. Updates für GPT-3 und GPT-4: GPT im Geschwindigkeitsrausch
    Updates für GPT-3 und GPT-4
    GPT im Geschwindigkeitsrausch

    OpenAIs Updates für GPT-4 und GPT-3 machen die Modelle zuverlässiger, vor allem aber anpassungsfähiger. Die Änderungen und neuen Features im Detail.
    Von Fabian Deitelhoff

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • TeamGroup Cardea Graphene A440 2 TB mit zwei Kühlkörpern 112,89€ • Logitech G915 TKL LIGHTSYNC RGB 125,11€ • AVM FRITZ!Repeater 3000 AX 129€ • Philips Ambilight 77OLED808 2.599€ • MindStar: Patriot Viper VENOM 64 GB DDR5-6000 159€, XFX RX 7900 XT Speedster MERC 310 Black 789€ [Werbung]
    •  /