Deep Learning: Microsofts Software kann zu Musikstücken singen

Deep Singer ist ein Projekt von Microsoft AI, das synthetische Gesänge erstellt. Dazu werden Tonhöhen und -längen von Songs analysiert.

Artikel veröffentlicht am ,
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch.
Microsofts Software singt schon ganz gut - auf Englisch und Chinesisch. (Bild: Pixabay.com/CC0 1.0)

Ein Forscherteam von Microsoft AI arbeitet derzeit an einem Stimmensynthetisierer, der zu Musikstücken passenden Gesang erstellt. Die KI-Software Deepsinger verwendet dazu diverse Lieder von echten Menschen als Referenz, um aus diesen zu lernen und eigene Kreationen zu generieren. Die Songs stammen laut Microsoft von "einer bekannten Musikwebseite", deren Name nicht genannt wird. Kostenlose und ohne Einschränkungen verfügbare Portale wie Soundcloud wären dafür geeignet.

Stellenmarkt
  1. Spezialistin*Spezialisten mit dem Schwerpunkt User Experience- / User Interface-Design
    Umweltbundesamt, Dessau-Roßlau
  2. Postdoktorandin / Postdoktorand (w/m/d) - Forschungsgruppe Kooperative Autonome Systeme
    Karlsruher Institut für Technologie (KIT) Campus Süd, Karlsruhe
Detailsuche

Es werden nur bestimmte Songs als Quellmaterial zugelassen. Lieder, die länger als fünf Minuten und kürzer als eine Minute sind, werden direkt ignoriert. Außerdem werden vor der Stimmsynthetisierung ungeeignete Songs gefiltert, in denen Gesangsstimmen schlecht erkennbar sind, etwa durch schlechte Aufnahmequalität des Originals oder durch komplett falsche Tonspuren.

Deepsinger kombiniert diverse andere Open-Source-Tools, um Gesänge zu synthetisieren. Mithilfe von Phonemizer werden etwa Klanglaute aus Worten extrahiert. Das ist für die englische Sprache und die chinesischen Varianten Mandarin und Kantonesisch möglich. Für die letztgenannten Sprachen werden die in lateinische Buchstaben umgeschriebenen Schriftzeichen - genannt Pinyin - verwendet.

Länge und Tonlage der Laute bestimmen

Verschiedene Phoneme müssen zudem zu den Längen verschiedener Noten im Lied passen. Das Entwicklerteam hat ein Alignment Model Songtext-to-singing erstellt, welches diese Aufgabe übernehmen soll. So werden verschiedene Wortlaute von der KI länger gezogen - je nach vorliegender Melodie. Die einzelnen Gesangssilben werden zudem der jeweiligen Tonlage des darunterliegenden Liedes angepasst, wodurch eine melodische Stimme erzeugt wird.

Golem Karrierewelt
  1. Einführung in Unity: virtueller Ein-Tages-Workshop
    13.10.2022, Virtuell
  2. Angular für Einsteiger: virtueller Zwei-Tage-Workshop
    19./20.12.2022, Virtuell
Weitere IT-Trainings

In einigen Hörbeispielen zeigt das Forschungsteam bereits recht überzeugende Ergebnisse. Mit Musikbegleitung sind die synthetischen Stimmen kaum zu erkennen. Nur für sich genommen sind klare Audioartefakte und hallende Beitöne wahrnehmbar. Für Gesangssolos im Disneyfilm reicht das Programm also noch nicht aus, für Top-10-Popsongs eventuell schon.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Die große Umfrage
Das sind Deutschlands beste IT-Arbeitgeber 2023

Golem.de und Statista haben 23.000 Fachkräfte nach ihrer Arbeit gefragt. Das Ergebnis ist eine Liste der 175 besten Unternehmen für IT-Profis.

Die große Umfrage: Das sind Deutschlands beste IT-Arbeitgeber 2023
Artikel
  1. Halbleiterfertigung: Micron baut 100-Milliarden-Dollar-Chipfabrik
    Halbleiterfertigung
    Micron baut 100-Milliarden-Dollar-Chipfabrik

    Im US-Bundesstaat New York will Micron eine der größten Chipfabriken der USA bauen. In ihrem Umfeld sollen bis zu 50.000 Arbeitsplätze entstehen.

  2. Monitoring von Container-Landschaften: Prometheus ist nicht alles
    Monitoring von Container-Landschaften
    Prometheus ist nicht alles

    Betreuer von Kubernetes und Co., die sich nicht ausreichend mit der Thematik beschäftigen, nehmen beim metrikbasierte Monitoring unwissentlich einige Nachteile in Kauf. Eventuell ist es notwendig, den üblichen Tool-Stack zu ergänzen.
    Von Valentin Höbel

  3. USB-C: Europaparlament macht Weg für einheitliche Ladekabel frei
    USB-C
    Europaparlament macht Weg für einheitliche Ladekabel frei

    In der EU gibt es künftig eine Standard-Ladebuchse für Smartphones und weitere Elektrogeräte. Die IT-Wirtschaft sieht die Einigung kritisch.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • 3 Spiele für 49€ • Saturn Gutscheinheft • Günstig wie nie: LG OLED 48" 799€, Xbox Elite Controller 2 114,99€, AOC 28" 4K UHD 144 Hz 600,89€, Corsair RGB Midi-Tower 269,90€, Sandisk microSDXC 512GB 39€ • Bis zu 15% im eBay Restore • MindStar (PowerColor RX 6700 XT 489€) [Werbung]
    •  /