Abo
  • Services:

Machine Learning: Wie Technik jede Stimme stehlen kann

Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.

Ein Bericht von Felix Lill veröffentlicht am
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen.
Sprachsynthese kann Kim Jong-un ganz neue Worte in den Mund legen. (Bild: Reuters)

Wenn es nach Taesu Kim geht, ist bald alles gesagt. Das eigenständige Sprechen würde dann irgendwann zum Luxus, vielleicht zum Hobby, jedenfalls wäre es in vielen Situationen keine Notwendigkeit der Kommunikation mehr. Eine Stunde aufgenommenes Tonmaterial einer Stimme braucht der Unternehmer dafür, den Rest soll sein Machine-Learning-System erledigen. "So können wir mit der Audiodatei alles programmieren, was wir gern gesagt haben wollen." Wäre das nicht praktisch?

Stellenmarkt
  1. Interhyp Gruppe, München
  2. Bundesamt für Sicherheit in der Informationstechnik, Bonn

So sieht es das südkoreanische Startup Neosapience, das daraus nun ein Geschäft macht. Zunächst nimmt sich das Unternehmen der effizienten Vertonung von Texten an, was für die Produktion von Filmen und Musik enorme Kosteneinsparungen bedeuten dürfte. Dass der potenzielle Anwendungsbereich aber viel weiter reicht, ist Kim wohl bewusst. Superstars sollen durch Stimmkopien zum Greifen nah und außerdem Sprachbarrieren im interkulturellen Austausch behoben werden. "Wir können sehr weit kommen", glaubt der Gründer aus Seoul.

Elektronische Stimmen gibt es überall

Das Geschäft mit Sprachsynthetisierung befindet sich derzeit noch in einem Frühstadium. Laut der Marktanalyseplattform Markets and Markets wurden im Jahr 2016 weltweit 1,3 Milliarden US-Dollar umgesetzt. Bis 2022 soll der Umsatz auf drei Milliarden US-Dollar anwachsen. Die Vermutung hierbei ist, dass die Qualität von Anbietern, die Stimmen generieren, in den nächsten Jahren deutlich zunehmen wird. Schließlich haben erkennbar elektronische Stimmen, etwa in Aufzügen oder Navigationssystemen, die Welt schon in den vergangenen Jahren überflutet. Für ein so deutliches weiteres Wachstum wäre wohl ein neuer Entwicklungssprung nötig. Daran versucht man sich derzeit in mehreren Ländern.

Die Idee, aus bestehenden Daten neue menschliche Kommunikation zu generieren und zu simulieren, stammt nicht von Neosapience. Mit dem Videoeffektprogramm Adobe After Effects und dem Programm Fakeapp des Hobbyentwicklers Deepfakes lassen sich bereits die Tonspuren von Reden verändern und die Mimik in der Videodatei dem Gesagten anpassen. Wissenschaftler der Carnegie Mellon University haben zudem ein Machine-Learning-System entwickelt, durch das etwa die Mimik von einer Person auf eine andere übertragen werden kann. Allerdings funktioniert das System bisher nicht einwandfrei, im Bild treten noch offensichtliche Fehler auf.

Das koreanische Startup konzentriert sich auf Audiodateien. Im Vergleich zu anderen, die Sprachsynthetisierungen entwickelt haben, darunter Amazon und Google, benötigt Neosapience deutlich weniger Rohstimmenmaterial."Die anderen brauchen 100 Stunden sehr kontrollierter Aufnahmen", sagt Taesu Kim. Ihm genügt nach eigenen Angaben schon eine Stunde, um seine Maschine zum Lernen zu bringen. Eine qualitative Neuerung ist die Generation von unterschiedlichen Sprachen, die der Ursprungsbesitzer der Stimme dazu gar nicht beherrschen muss. Um das zu demonstrieren, veröffentlichte Neosapience im Sommer, als sich US-Präsident Donald Trump und Nordkoreas Regierungschef Kim Jong-un in Singapur trafen, die Reden der beiden Staatsmänner in der jeweils anderen Sprache: Trump sprach plötzlich Koreanisch, Kim trug auf Englisch vor. Es klang ziemlich überzeugend.

Dabei ist es kein Zufall, dass solch eine Innovation aus Südkorea kommt. Das Land mit einer der höchsten Internetdichten der Welt landet im aktuellen Innovation Index des Finanzdienstleisters Bloomberg auf dem ersten Platz. Auch auf der Messe Invest Korea Week Anfang November 2018, mit der die koreanische Außenhandelskammer ihr Land als Produktions- und Investitionsstandort anpries, fiel auf, wie sehr sich dortige Unternehmen mit der intelligenten Verarbeitung von Daten beschäftigen.

So wird in Incheon, südwestlich der Hauptstadt Seoul, gerade die Blaupause für ein neues Konzept einer Smart City entwickelt, das aus Südkorea in den kommenden Jahren in andere Länder exportiert werden soll. Der Kern dabei ist die Integration und Harmonisierung aller möglicher Daten, die bisher bei verschiedenen Behörden eingehen, um ein einheitliches städtisches Datenzentrum zu entwickeln. Geht es nach den Planern, sollen hierfür auch Daten von sozialen Netzwerken genutzt werden. Ein Unternehmen der Samsung-Gruppe arbeitet derzeit an einer intelligenten Simultanübersetzungssoftware. Hyundai will seine neuen Autos mit allen möglichen anderen Datenquellen verbinden, um dem Fahrer so in Zukunft zuverlässige und komfortablere Transportbedingungen zu liefern.

Technologie von Neosapience könnte Selbsläufer werden

Bei den meisten solcher Neuerungen dürften sich Fragen der Privatsphäre und des Datenschutzes großenteils durch kluge Gesetze klären lassen. Im Fall der Technologie von Neosapience ist dagegen wahrscheinlich, dass sie ein Selbstläufer wird. Sobald Stimmen einfach zu stehlen sind, wird es wohl schwierig, sie wieder einzufangen. So bekäme auch das Problem rund um Fake News eine neue Dimension, wenn die Stimmen plötzlich Dinge sagen können, die ihre ursprünglichen Besitzer nie gesagt haben.

"Wir können nachverfolgen, welche Stimme echt ist und welche nicht", sagt Taesu Kim dazu. Dennoch wäre ein Schaden zu dem Zeitpunkt solch einer Nachverfolgung schon in der Welt, ein Ruf potenziell ähnlich beschädigt wie nach falschen Mordvorwürfen, von denen sich kaum eine Person leicht erholt. Zudem haben neue Technologien die Tendenz, kopiert zu werden. Ist das Entwicklerwissen erst in der Welt, wird es meist bald in mehrere andere Hände geraten. Wenn die eigene Stimme nicht mehr nur einem selbst gehört, kann sich die Welt wohl auf neue Gefahren einstellen, aber auch auf günstig produzierte Filme und vielleicht auf weniger müßige Kommunikation.



Anzeige
Spiele-Angebote
  1. (-75%) 9,99€
  2. 19,99€
  3. 59,99€ mit Vorbesteller-Preisgarantie (Release 26.02.)

1e3ste4 03. Dez 2018 / Themenstart

Deutsche Bahn-Synchro? "Sänk-iu foa träwelling wiff se Doitsche Baahn!" ?

Tommy-L 01. Dez 2018 / Themenstart

Das könnte bedeuten dass GTA VI das erste synchronisierte R*-Game wird :-D

Hotohori 01. Dez 2018 / Themenstart

Ja, die leicht zu manipulierende Fraktion werden die ersten Opfer sein und damit dem...

Oh je 01. Dez 2018 / Themenstart

per Funk, bei Bedarf, gegen Entgelt. würde auch keinen mehr aufregen. "Können die Amis...

Umaru 01. Dez 2018 / Themenstart

B-baka! Du musstest doch rechts abbiegen! Heeeeeeeeeee! Wir sollten für einen gemütlichen...

Kommentieren


Folgen Sie uns
       


Lenovo Thinkpad A485 - Test

Wir testen Lenovos Thinkpad A485, ein Business-Notebook mit AMDs Ryzen. Das 14-Zoll-Gerät hat eine exzellente Tastatur und den sehr nützlichen Trackpoint als Mausersatz, auch die Anschlussvielfalt gefällt uns. Leider ist das Display recht dunkel und es gibt auch gegen Aufpreis kein helleres, zudem könnte die CPU schneller und die Akkulaufzeit länger sein.

Lenovo Thinkpad A485 - Test Video aufrufen
Yuneec H520: 3D-Modell aus der Drohne
Yuneec H520
3D-Modell aus der Drohne

Multikopter werden zunehmend auch kommerziell verwendet. Vor allem machen die Drohnen Luftbilder und Inspektionsflüge und vermessen. Wir haben in der Praxis getestet, wie gut das mit dem Yuneec H520 funktioniert.
Von Dirk Koller


    Machine Learning: Wie Technik jede Stimme stehlen kann
    Machine Learning
    Wie Technik jede Stimme stehlen kann

    Ein Unternehmen aus Südkorea arbeitet daran, Stimmen reproduzierbar und neu generierbar zu machen. Was für viele Branchen enorme Kosteneinsparungen bedeutet, könnte auch eine neue Dimension von Fake News werden.
    Ein Bericht von Felix Lill

    1. AWS Amazon bietet seine Machine-Learning-Tutorials kostenlos an
    2. Random Forest, k-Means, Genetik Machine Learning anhand von drei Algorithmen erklärt
    3. Machine Learning Amazon verwirft sexistisches KI-Tool für Bewerber

    Sony-Kopfhörer WH-1000XM3 im Test: Eine Oase der Stille oder des puren Musikgenusses
    Sony-Kopfhörer WH-1000XM3 im Test
    Eine Oase der Stille oder des puren Musikgenusses

    Wir haben die dritte Generation von Sonys Top-ANC-Kopfhörer getestet - vor allem bei der Geräuschreduktion hat sich einiges getan. Wer in lautem Getümmel seine Ruhe haben will, greift zum WH-1000XM3. Alle Nachteile der Vorgängermodelle hat Sony aber nicht behoben.
    Ein Test von Ingo Pakalski


        •  /