Abo
  • Services:

Machine Learning: Wie Technik jede Stimme stehlen kann

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Ein Bericht von Felix Lill veröffentlicht am
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen.
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen. (Bild: Reuters)

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein Machine-Learning-System erledigen. "So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen." Wäre das nicht praktisch?

Stellenmarkt
  1. Flughafen Düsseldorf GmbH, Düsseldorf
  2. inovex GmbH, Karlsruhe

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich das Unternehmen der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah und außerdem Sprachbarrieren im interkulturellen Austausch behoben werden. "Wir können sehr weit kommen", glaubt der Gründer aus Seoul.

Elektronische Stimmen gibt es überall

Das Geschäft mit Sprachsynthetisierung befindet sich derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar umgesetzt. Bis 2022 soll der Umsatz auf drei Milliarden US-Dollar anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den vergangenen Jahren überflutet. Für ein so deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Daran versucht man sich derzeit in mehreren Ländern.

Die Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, stammt nicht von Neosapience. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein Machine-Learning-System entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf.

Das koreanische Startup konzentriert sich auf Audiodateien. Im Vergleich zu anderen, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial."Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen", sagt Taesu Kim. Ihm genügt nach eigenen Angaben schon eine Stunde, um seine Maschine zum Lernen zu bringen. Eine qualitative Neuerung ist die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um das zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un in Singapur trafen, die Reden der beiden Staatsmänner in der jeweils anderen Sprache: Trump sprach plötzlich Koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

Dabei ist es kein Zufall, dass solch eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen Innovation Index des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe Invest Korea Week Anfang November 2018, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südwestlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das aus Südkorea in den kommenden Jahren in andere Länder exportiert werden soll. Der Kern dabei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. Geht es nach den Planern, sollen hierfür auch Daten von sozialen Netzwerken genutzt werden. Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern.

Technologie von Neosapience könnte Selbsläufer werden

Bei den meisten solcher Neuerungen dürften sich Fragen der Privatsphäre und des Datenschutzes großenteils durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension, wenn die Stimmen plötzlich Dinge sagen können, die ihre ursprünglichen Besitzer nie gesagt haben.

"Wir können nachverfolgen, welche Stimme echt ist und welche nicht", sagt Taesu Kim dazu. Dennoch wäre ein Schaden zu dem Zeitpunkt solch einer Nachverfolgung schon in der Welt, ein Ruf potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person leicht erholt. Zudem haben neue Technologien die Tendenz, kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in mehrere andere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt wohl auf neue Gefahren einstellen, aber auch auf günstig produzierte Filme und vielleicht auf weniger müßige Kommunikation.



Anzeige
Top-Angebote
  1. (pay what you want ab 0,88€)
  2. 99,99€ (versandkostenfrei)
  3. (u. a. 32 GB 6,98€, 128 GB 23,58€)
  4. 54,99€

1e3ste4 03. Dez 2018

Deutsche Bahn-Synchro? "Sänk-iu foa träwelling wiff se Doitsche Baahn!" ?

Tommy-L 01. Dez 2018

Das könnte bedeuten dass GTA VI das erste synchronisierte R*-Game wird :-D

Hotohori 01. Dez 2018

Ja, die leicht zu manipulierende Fraktion werden die ersten Opfer sein und damit dem...

Oh je 01. Dez 2018

per Funk, bei Bedarf, gegen Entgelt. würde auch keinen mehr aufregen. "Können die Amis...

Umaru 01. Dez 2018

B-baka! Du musstest doch rechts abbiegen! Heeeeeeeeeee! Wir sollten für einen gemütlichen...


Folgen Sie uns
       


Anthem - Fazit

Wir ziehen unser Fazit zu Anthem und erklären, was an Biowares Actionrollenspiel gelungen und weniger überzeugend ist.

Anthem - Fazit Video aufrufen
Flugzeugabsturz: Boeing 737 MAX geht wegen Softwarefehler außer Betrieb
Flugzeugabsturz
Boeing 737 MAX geht wegen Softwarefehler außer Betrieb

Wegen eines bekannten Softwarefehlers wird der Flugbetrieb für Boeings neustes Flugzeug fast weltweit eingestellt - Die letzte Ausnahme war: die USA. Der Umgang der amerikanischen Flugaufsichtsbehörde mit den Problemen des neuen Flugzeugs erscheint zweifelhaft.

  1. Boeing Rollout der neuen 777X in wenigen Tagen
  2. Boeing 747 Der Jumbo Jet wird 50 Jahre alt
  3. Lufttaxi Uber sucht eine weitere Stadt für Uber-Air-Test

Galaxy S10e im Test: Samsungs kleines feines Top-Smartphone
Galaxy S10e im Test
Samsungs kleines feines Top-Smartphone

Mit dem Galaxy S10e bietet Samsung auch ein kompaktes Modell seiner neuen Oberklasse-Smartphone-Serie an. Beim Gerät gibt es zwar ein paar Abstriche bei der Hardware, es liegt aber fantastisch in der Hand und macht super Fotos - für uns der klare Geheimtipp der neuen Reihe.
Ein Test von Tobias Költzsch

  1. Samsung Galaxy M20 kommt an drei Tagen nach Deutschland
  2. Smartphone Samsungs LPDDR4X-Speicher fasst 12 GByte
  3. Non-Volatile Memory Samsung liefert eMRAM aus

Display-Technik: So funktionieren Micro-LEDs
Display-Technik
So funktionieren Micro-LEDs

Nach Flüssigkristallanzeigen (LCD) mit Hintergrundbeleuchtung und OLED-Bildschirmen sind Micro-LEDs der nächste Schritt: Apple arbeitet daran für Smartwatches und Samsung hat bereits einen Fernseher vorgestellt. Die Technik hat viele Vorteile, ist aber aufwendig in der Fertigung.
Von Mike Wobker

  1. AU Optronics Apple soll Wechsel von OLEDs zu Micro-LEDs vorbereiten

    •  /