Abo
  • Services:

Machine Learning: Wie Technik jede Stimme stehlen kann

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Ein Bericht von Felix Lill veröffentlicht am
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen.
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen. (Bild: Reuters)

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein Machine-Learning-System erledigen. "So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen." Wäre das nicht praktisch?

Stellenmarkt
  1. Statistisches Bundesamt, Wiesbaden
  2. Pfennigparade SIGMETA GmbH, München

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich das Unternehmen der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah und außerdem Sprachbarrieren im interkulturellen Austausch behoben werden. "Wir können sehr weit kommen", glaubt der Gründer aus Seoul.

Elektronische Stimmen gibt es überall

Das Geschäft mit Sprachsynthetisierung befindet sich derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar umgesetzt. Bis 2022 soll der Umsatz auf drei Milliarden US-Dollar anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den vergangenen Jahren überflutet. Für ein so deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Daran versucht man sich derzeit in mehreren Ländern.

Die Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, stammt nicht von Neosapience. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein Machine-Learning-System entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf.

Das koreanische Startup konzentriert sich auf Audiodateien. Im Vergleich zu anderen, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial."Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen", sagt Taesu Kim. Ihm genügt nach eigenen Angaben schon eine Stunde, um seine Maschine zum Lernen zu bringen. Eine qualitative Neuerung ist die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um das zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un in Singapur trafen, die Reden der beiden Staatsmänner in der jeweils anderen Sprache: Trump sprach plötzlich Koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

Dabei ist es kein Zufall, dass solch eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen Innovation Index des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe Invest Korea Week Anfang November 2018, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südwestlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das aus Südkorea in den kommenden Jahren in andere Länder exportiert werden soll. Der Kern dabei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. Geht es nach den Planern, sollen hierfür auch Daten von sozialen Netzwerken genutzt werden. Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern.

Technologie von Neosapience könnte Selbsläufer werden

Bei den meisten solcher Neuerungen dürften sich Fragen der Privatsphäre und des Datenschutzes großenteils durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension, wenn die Stimmen plötzlich Dinge sagen können, die ihre ursprünglichen Besitzer nie gesagt haben.

"Wir können nachverfolgen, welche Stimme echt ist und welche nicht", sagt Taesu Kim dazu. Dennoch wäre ein Schaden zu dem Zeitpunkt solch einer Nachverfolgung schon in der Welt, ein Ruf potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person leicht erholt. Zudem haben neue Technologien die Tendenz, kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in mehrere andere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt wohl auf neue Gefahren einstellen, aber auch auf günstig produzierte Filme und vielleicht auf weniger müßige Kommunikation.



Anzeige
Blu-ray-Angebote
  1. (u. a. Logan, John Wick, Alien Covenant, Planet der Affen Survival)
  2. (u. a. 3 Blu-rays für 15€, 2 Neuheiten für 15€)

1e3ste4 03. Dez 2018 / Themenstart

Deutsche Bahn-Synchro? "Sänk-iu foa träwelling wiff se Doitsche Baahn!" ?

Tommy-L 01. Dez 2018 / Themenstart

Das könnte bedeuten dass GTA VI das erste synchronisierte R*-Game wird :-D

Hotohori 01. Dez 2018 / Themenstart

Ja, die leicht zu manipulierende Fraktion werden die ersten Opfer sein und damit dem...

Oh je 01. Dez 2018 / Themenstart

per Funk, bei Bedarf, gegen Entgelt. würde auch keinen mehr aufregen. "Können die Amis...

Umaru 01. Dez 2018 / Themenstart

B-baka! Du musstest doch rechts abbiegen! Heeeeeeeeeee! Wir sollten für einen gemütlichen...

Kommentieren


Folgen Sie uns
       


Die ersten 15 Minuten von Red Dead Online - Gameplay

Der Einstieg in Red Dead Online fühlt sich wie ein Abstieg an, zumindest für die, die in der Solokampagne von Red Dead Redemption 2 bereits weit gespielt haben.

Die ersten 15 Minuten von Red Dead Online - Gameplay Video aufrufen
Apple Mac Mini (Late 2018) im Test: Tolles teures Teil - aber für wen?
Apple Mac Mini (Late 2018) im Test
Tolles teures Teil - aber für wen?

Der Mac Mini ist ein gutes Gerät, wenngleich der Preis für die Einstiegsvariante von Apple arg hoch angesetzt wurde und mehr Speicher(platz) viel Geld kostet. Für 4K-Videoschnitt eignet sich der Mac Mini nur selten und generell fragen wir uns, wer ihn kaufen soll.
Ein Test von Marc Sauter

  1. Apple Mac Mini wird grau und schnell
  2. Neue Produkte Apple will Mac Mini und Macbook Air neu auflegen

Requiem zur Cebit: Es war einmal die beste Messe
Requiem zur Cebit
Es war einmal die beste Messe

Nach 33 Jahren ist Schluss mit der Cebit und das ist mehr als schade. Wir waren dabei, als sie noch nicht nur die größte, sondern auch die beste Messe der Welt war - und haben dann erlebt, wie Trends verschlafen wurden. Ein Nachruf.
Von Nico Ernst

  1. IT-Messe Die Cebit wird eingestellt

Drahtlos-Headsets im Test: Ohne Kabel spielt sich's angenehmer
Drahtlos-Headsets im Test
Ohne Kabel spielt sich's angenehmer

Sie nerven und verdrehen sich in den Rollen unseres Stuhls: Kabel sind gerade bei Headsets eine Plage. Doch gibt es so viele Produkte, die darauf verzichten können. Wir testen das Alienware AW988, das Audeze Mobius, das Hyperx Cloud Flight und das Razer Nari Ultimate - und haben einen Favoriten.
Ein Test von Oliver Nickel

  1. Sieben Bluetooth-Ohrstöpsel im Test Jabra zeigt Apple, was den Airpods fehlt
  2. Ticpods Free Airpods-Konkurrenten mit Touchbedienung kosten 80 Euro
  3. Bluetooth-Ohrstöpsel im Vergleichstest Apples Airpods lassen hören und staunen

    •  /