Original-URL des Artikels: https://www.golem.de/news/machine-learning-wie-technik-jede-stimme-stehlen-kann-1811-137837.html    Veröffentlicht: 30.11.2018 08:27    Kurz-URL: https://glm.io/137837

Machine Learning

Wie Technik jede Stimme stehlen kann

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein Machine-Learning-System erledigen. "So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen." Wäre das nicht praktisch?

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich das Unternehmen der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah und außerdem Sprachbarrieren im interkulturellen Austausch behoben werden. "Wir können sehr weit kommen", glaubt der Gründer aus Seoul.

Elektronische Stimmen gibt es überall

Das Geschäft mit Sprachsynthetisierung befindet sich derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar umgesetzt. Bis 2022 soll der Umsatz auf drei Milliarden US-Dollar anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den vergangenen Jahren überflutet. Für ein so deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Daran versucht man sich derzeit in mehreren Ländern.

Die Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, stammt nicht von Neosapience. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein Machine-Learning-System entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf.

Das koreanische Startup konzentriert sich auf Audiodateien. Im Vergleich zu anderen, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial."Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen", sagt Taesu Kim. Ihm genügt nach eigenen Angaben schon eine Stunde, um seine Maschine zum Lernen zu bringen. Eine qualitative Neuerung ist die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um das zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un in Singapur trafen, die Reden der beiden Staatsmänner in der jeweils anderen Sprache: Trump sprach plötzlich Koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

<#youtube id="SHae9ByJmW8"> Dabei ist es kein Zufall, dass solch eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen Innovation Index des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe Invest Korea Week Anfang November 2018, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südwestlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das aus Südkorea in den kommenden Jahren in andere Länder exportiert werden soll. Der Kern dabei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. Geht es nach den Planern, sollen hierfür auch Daten von sozialen Netzwerken genutzt werden. Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern.

Technologie von Neosapience könnte Selbsläufer werden

Bei den meisten solcher Neuerungen dürften sich Fragen der Privatsphäre und des Datenschutzes großenteils durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension, wenn die Stimmen plötzlich Dinge sagen können, die ihre ursprünglichen Besitzer nie gesagt haben.

"Wir können nachverfolgen, welche Stimme echt ist und welche nicht", sagt Taesu Kim dazu. Dennoch wäre ein Schaden zu dem Zeitpunkt solch einer Nachverfolgung schon in der Welt, ein Ruf potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person leicht erholt. Zudem haben neue Technologien die Tendenz, kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in mehrere andere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt wohl auf neue Gefahren einstellen, aber auch auf günstig produzierte Filme und vielleicht auf weniger müßige Kommunikation.  (fli)


Verwandte Artikel:
AWS Deepracer: Autonome Miniaturautos zum Selberbauen und Programmieren   
(29.11.2018, https://glm.io/137979 )
Programmiersprachen, Pakete, IDEs: So steigen Entwickler in Machine Learning ein   
(12.11.2018, https://glm.io/137463 )
China: Überwachungssystem erkennt Personen an ihrem Gang   
(07.11.2018, https://glm.io/137564 )
20th Century Fox: Neuronales Netzwerk empfiehlt die Kinofilme von morgen   
(07.11.2018, https://glm.io/137557 )
EU: Software soll Lügen in Gesichtern von Einreisenden erkennen   
(01.11.2018, https://glm.io/137456 )

© 1997–2019 Golem.de, https://www.golem.de/