Zum Hauptinhalt Zur Navigation

Stimmklon: ChatGPT äfft Nutzer mit eigener Stimme unerwartet nach

ChatGPT hat ungefragt die Stimme eines Benutzers nachgeahmt. Das geschah während eines Sicherheitstests von OpenAI .
/ Andreas Donath
42 Kommentare News folgen (öffnet im neuen Fenster)
Sprachausgabe in der ChatGPT-App (Bild: Pexels)
Sprachausgabe in der ChatGPT-App Bild: Pexels

OpenAI testet seine Sprachmodelle auf Sicherheit und hat kürzlich einen Vorfall aufgedeckt, der bei Tests passiert ist: Der Advanced Voice Mode von ChatGPT 4o , eine Funktion, die für gesprochene Interaktionen mit dem KI-Assistenten entwickelt wurde, hat auf einmal die Stimme des Benutzers nachgeäfft, wie Ars Technica berichtet(öffnet im neuen Fenster) .

OpenAI betonte, dass es nun Sicherheitsvorkehrungen gibt, um eine solche unbefugte Sprachgenerierung zu verhindern. Der Vorfall zeigt jedoch die potenziellen Risiken auf, die mit KI-Modellen verbunden sind, die aus minimalen Audioeingaben Stimmen synthetisieren können.

OpenAI will unerlaubte Sprachnachahmung verbieten

Die GPT-4o-Systemkarte(öffnet im neuen Fenster) gibt Aufschluss darüber, wie diese Fähigkeit zur Stimmimitation funktioniert. Das Modell kann offenbar eine Vielzahl von Klängen synthetisieren, die in seinen Trainingsdaten enthalten sind, darunter Stimmen, Soundeffekte und Musik. Diese Fähigkeit wird in der Regel durch ein autorisiertes Sprachbeispiel gesteuert, das zu Beginn eines Gesprächs in der Systemaufforderung des KI-Modells bereitgestellt wird.

OpenAI verwendet ein System zur Erkennung nicht autorisierter Audioerzeugung, so dass das Modell nur vorab ausgewählte Stimmen verwenden kann. Ein Ausgabeklassifikator wird auch verwendet, um Abweichungen von diesen autorisierten Stimmen zu identifizieren. Trotz dieser Maßnahmen kam es zu dem erwähnten Vorfall.

Sprachsynthese birgt auch ein Risiko

OpenAI behauptet zwar, dass solche Vorfälle selten sind und die Ursache bereits behoben wurden, doch wirft der Vorfall Fragen über die Zukunft der Interaktion zwischen KI und Mensch auf. Je ausgefeilter die Technologien zur Sprachsynthese werden, desto größer ist das Potenzial für Missbrauch oder unbeabsichtigte Folgen.


Relevante Themen