Zum Hauptinhalt Zur Navigation

KI-Stimmgenerator: David Attenborough beschreibt Entwickler in freier Wildbahn

Ein Entwickler konnte mittels GPT-4 und anderer KI-Tools einen Sprach-Bot schreiben, der Videos wie eine Naturdokumentation beschreibt.
/ Oliver Nickel
5 Kommentare News folgen (öffnet im neuen Fenster)
David Attenborough beschreibt normalerweise Naturdokus. Seine KI-Stimme erweitert das Portfolio. (Bild: Pixabay.com)
David Attenborough beschreibt normalerweise Naturdokus. Seine KI-Stimme erweitert das Portfolio. Bild: Pixabay.com / Pixabay License

"Hier haben wir ein bemerkenswertes Exemplar des Homo Sapiens, der sich durch seine silberne runde Brille auszeichnet." Der Entwickler Charlie Holtz hat mittels KI-Tools einen Sprachbot des berühmten Naturdokumentationssprechers David Attenborough erstellt. Die Software analysiert mittels Bilderkennung ein eingehendes Video oder Bild und beschreibt das Gesehene wie in einer BBC-Dokumentation über Jäger und Sammler - in diesem Fall das Webcamvideo des Entwicklers selbst ( via Ars Technica(öffnet im neuen Fenster) ).

Der Post ging auf X(öffnet im neuen Fenster) schnell viral und konnte innerhalb kurzer Zeit mehrere Zehntausend Likes einsammeln. Dort zeigt Holtz ein Video seiner Kreation. Der Sprach-Bot klingt in Stimmfarbe und Betonung tatsächlich wie der britische Sprecher Attenborough. Der hat dafür allerdings keine offizielle Erlaubnis gegeben. Es handelt sich hier also um ein unautorisiertes und inoffizielles Experiment, das in dieser Form wohl nicht einfach kommerzialisiert werden kann.

GPT-4 und Elevenlabs

Die Funktionsweise der App ist relativ einfach. Ein Python-Script nimmt im Fünf-Sekunden-Abstand einen Screenshot des Webcam Feeds auf und analysiert diese einzelnen Bilder. Das Foto wird dabei an GPT-4-Vision(öffnet im neuen Fenster) weitergeleitet. OpenAIs KI-Software kann Bilder analysieren, Elemente beschreiben und diese in individuellen Stilen, hier als eine Art Naturdokumentation, in Textform ausgeben.

Attenboroughs künstliche Stimme stammt aus dem KI-Stimmgenerator Elevenlabs(öffnet im neuen Fenster) , der unter anderem vorgefertigte Stimmprofile verwenden und diese zum Vorlesen von Texten nutzen kann. Elevenlabs ermöglicht zudem, eigene Stimmprofile anzupassen und diese als Sprachausgabe zu definieren. Mittels Voice Cloning können Stimmen anhand von Audiodateien generiert werden. Auf diese Weise konnte Holtz die Stimme von David Attenborough modellieren.


Relevante Themen