Abo
  • IT-Karriere:

Machine Learning: Wie Technik jede Stimme stehlen kann

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Ein Bericht von Felix Lill veröffentlicht am
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen.
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen. (Bild: Reuters)

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein Machine-Learning-System erledigen. "So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen." Wäre das nicht praktisch?

Stellenmarkt
  1. über experteer GmbH, Nürnberg
  2. Joyson Safety Systems Aschaffenburg GmbH, Berlin

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich das Unternehmen der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah und außerdem Sprachbarrieren im interkulturellen Austausch behoben werden. "Wir können sehr weit kommen", glaubt der Gründer aus Seoul.

Elektronische Stimmen gibt es überall

Das Geschäft mit Sprachsynthetisierung befindet sich derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar umgesetzt. Bis 2022 soll der Umsatz auf drei Milliarden US-Dollar anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den vergangenen Jahren überflutet. Für ein so deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Daran versucht man sich derzeit in mehreren Ländern.

Die Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, stammt nicht von Neosapience. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein Machine-Learning-System entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf.

Das koreanische Startup konzentriert sich auf Audiodateien. Im Vergleich zu anderen, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial."Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen", sagt Taesu Kim. Ihm genügt nach eigenen Angaben schon eine Stunde, um seine Maschine zum Lernen zu bringen. Eine qualitative Neuerung ist die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um das zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un in Singapur trafen, die Reden der beiden Staatsmänner in der jeweils anderen Sprache: Trump sprach plötzlich Koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

Dabei ist es kein Zufall, dass solch eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen Innovation Index des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe Invest Korea Week Anfang November 2018, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südwestlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das aus Südkorea in den kommenden Jahren in andere Länder exportiert werden soll. Der Kern dabei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. Geht es nach den Planern, sollen hierfür auch Daten von sozialen Netzwerken genutzt werden. Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern.

Technologie von Neosapience könnte Selbsläufer werden

Bei den meisten solcher Neuerungen dürften sich Fragen der Privatsphäre und des Datenschutzes großenteils durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension, wenn die Stimmen plötzlich Dinge sagen können, die ihre ursprünglichen Besitzer nie gesagt haben.

"Wir können nachverfolgen, welche Stimme echt ist und welche nicht", sagt Taesu Kim dazu. Dennoch wäre ein Schaden zu dem Zeitpunkt solch einer Nachverfolgung schon in der Welt, ein Ruf potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person leicht erholt. Zudem haben neue Technologien die Tendenz, kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in mehrere andere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt wohl auf neue Gefahren einstellen, aber auch auf günstig produzierte Filme und vielleicht auf weniger müßige Kommunikation.



Anzeige
Spiele-Angebote
  1. (-80%) 6,99€
  2. 229,00€
  3. 4,31€

1e3ste4 03. Dez 2018

Deutsche Bahn-Synchro? "Sänk-iu foa träwelling wiff se Doitsche Baahn!" ?

Tommy-L 01. Dez 2018

Das könnte bedeuten dass GTA VI das erste synchronisierte R*-Game wird :-D

Hotohori 01. Dez 2018

Ja, die leicht zu manipulierende Fraktion werden die ersten Opfer sein und damit dem...

Oh je 01. Dez 2018

per Funk, bei Bedarf, gegen Entgelt. würde auch keinen mehr aufregen. "Können die Amis...

Umaru 01. Dez 2018

B-baka! Du musstest doch rechts abbiegen! Heeeeeeeeeee! Wir sollten für einen gemütlichen...


Folgen Sie uns
       


Remnant from the Ashes - Test

In Remnant: From the Ashes sterben wir sehr oft. Trotzdem ist das nicht frustrierend, denn wir tun dies gemeinsam mit Freunden. So macht der Kampf in der Postapokalypse gleich mehr Spaß.

Remnant from the Ashes - Test Video aufrufen
Programmiersprache: Java 13 bringt mehrzeilige Strings mit Textblöcken
Programmiersprache
Java 13 bringt mehrzeilige Strings mit Textblöcken

Die Sprache Java steht im Ruf, eher umständlich zu sein. Die Entwickler versuchen aber, viel daran zu ändern. Mit der nun verfügbaren Version Java 13 gibt es etwa Textblöcke, mit denen sich endlich angenehm und ohne unnötige Umstände mehrzeilige Strings definieren lassen.
Von Nicolai Parlog

  1. Java Offenes Enterprise-Java Jakarta EE 8 erschienen
  2. Microsoft SQL-Server 2019 bringt kostenlosen Java-Support
  3. Paketmanagement Java-Dependencies über unsichere HTTP-Downloads

Mobile-Games-Auslese: Superheld und Schlapphutträger zu Besuch im Smartphone
Mobile-Games-Auslese
Superheld und Schlapphutträger zu Besuch im Smartphone

Markus Fenix aus Gears of War kämpft in Gears Pop gegen fiese (Knuddel-)Aliens und der Typ in Tombshaft erinnert an Indiana Jones: In Mobile Games tummelt sich derzeit echte und falsche Prominenz.
Von Rainer Sigl

  1. Mobile-Games-Auslese Verdrehte Räume und verrückte Zombies für unterwegs
  2. Dr. Mario World im Test Spielspaß für Privatpatienten
  3. Mobile-Games-Auslese Ein Wunderjunge und dreimal kostenloser Mobilspaß

Elektrautos auf der IAA: Die Gezeigtwagen-Messe
Elektrautos auf der IAA
Die Gezeigtwagen-Messe

IAA 2019 Viele klassische Hersteller fehlen bei der IAA oder zeigen Autos, die man längst gesehen hat. Bei den Elektroautos bekommen alltagstaugliche Modelle wie VW ID.3, Opel Corsa E und Honda E viel Aufmerksamkeit.
Ein Bericht von Dirk Kunde

  1. Elektromobilität Stromwirtschaft will keine Million öffentlicher Ladesäulen
  2. Umfrage Kunden fühlen sich vor Elektroautokauf schlecht beraten
  3. Batterieprobleme Auslieferung des e.Go verzögert sich

    •  /