Zum Hauptinhalt Zur Navigation

Deepfakes: Als Sean Connery an der Redaktionskonferenz teilnahm

Mit Deep Live Cam ist es möglich, überzeugend das eigene Gesicht im Video in Echtzeit zu ersetzen . Der Weg dorthin war steinig.
/ Martin Wolf
18 Kommentare News folgen (öffnet im neuen Fenster)
Das Videobild unserer Webcam wird in Echtzeit überzeugend verändert. (Bild: Pixabay / Montage: Golem.de)
Das Videobild unserer Webcam wird in Echtzeit überzeugend verändert. Bild: Pixabay / Montage: Golem.de

Ich beschäftige mich seit 2019 mit dem Thema Deepfakes. Zu der Zeit erschien mit Deepfacelab(öffnet im neuen Fenster) eine frei zugängliche Software, mit der sich Gesichter in Videos austauschen ließen. Der Name des Projekts verwies auf die technische Grundlage: Mittels maschinellem Lernen extrahiert Deepfacelab das Gesicht aus der Vorlage und montiert es in das Zielvideo.

Der Prozess war seinerzeit noch langwierig und bestand aus mehreren Schritten, die manuell nacheinander vollzogen werden mussten. Am aufwendigsten war das Training, das selbst auf einer potenten Grafikkarte stundenlange Berechnungen bedeutete.

Am Ende kamen mal mehr, mal weniger gut aussehende Videos heraus, die für Aufregung sorgten. "Was, wenn Politikern mit Deepfakes skandalöse Aussagen untergeschoben würden?" fragten wir in einem Artikel zu diesem Thema.

Ich war nach meinem ersten Deepfake-Einsatz nicht wirklich überzeugt. Ich hatte mich mit dem Gesicht von Nicolas Cage verfremdet und fand den Aufwand für einen gut gemachten Deepfake mit Deepfacelab zu hoch für das eher mittelmäßige Ergebnis. Selbst die Post-Production-Profis des Youtube-Kanals Corridor Crew schienen mit dem Programm keine herausragenden Ergebnisse(öffnet im neuen Fenster) zu erzielen.

Deep Live Cam ausprobiert
Deep Live Cam ausprobiert (02:17)

Das Problem: Neben dem zeitlichen Aufwand, der einen flexiblen Abgleich von Zielvorstellung und Ergebnis nahezu unmöglich machte, waren insbesondere der Abgleich von Farbton und die nahtlose Montage alles andere als perfekt.

Zumindest erschien die Bildfolge des gerenderten Gesichts als .png-Dateien mit Alphakanal und ermöglichte eine Nachbearbeitung. Wenn die Person still saß, nur sehr kurz zu sehen war oder lediglich der Gesichtsausdruck im Rahmen einer später verfremdeten Aussage geändert werden sollte, konnte Deepfacelab durchaus überzeugen(öffnet im neuen Fenster) .

Deepfakes jetzt auch mit Bewegung live

Einen weiteren Schritt in Richtung Echtzeit-Deepfake machte 2020 Avatarify(öffnet im neuen Fenster) . Damit konnte man sich mit einem geänderten Gesicht in eine Videokonferenz einwählen – allerdings blieb der Kopf eher statisch. In einem Selbstversuch war die Software schnell installiert und machte vor allem deshalb Spaß, weil sie auch absurde Vorlagen wie die Mona Lisa zum Leben erweckte.

Als mich mein Chefredakteur vor ein paar Tagen auf eine neue Software namens Deep Live Cam aufmerksam machte, nahm ich an, es handele sich um eine weitere Abwandlung eines der beiden vorangegangenen Projekte. Ich habe mir keine Videos zu dem Thema angesehen, weil ich komplett unvoreingenommen an das Tool herangehen wollte. Die kurzen Gifs auf der Github-Seite des Projektes(öffnet im neuen Fenster) sahen allerdings vielversprechend aus.

Es folgte ein zäher Installationsprozess unter Windows, dessen Details ich nur anreißen möchte. Der Prozess beinhaltete eine spezifische Python-Version, spezifische Anforderungen an die Visual-Studio-Umgebung und einen händischen Download der Modelle, weil die Links kaputt waren. All das hatte am Ende lediglich ein überzeugend lebensechtes schwarzes Quadrat über meinem Gesicht im Kamerabild zur Folge.

Auch wenn ich das Setup extrem frustrierend fand, muss ich zur Ehrenrettung des Entwicklers Kenneth Estanislao erwähnen, dass er die meisten der Stolperfallen in seiner Anleitung erwähnt. Man muss diese Schritte aber bis aufs i-Tüpfelchen befolgen, andererseits droht eine Fehlersuchen-Odyssee bis zur letzten installierten .dll. Die Diskussion(öffnet im neuen Fenster) bei Github legt beredtes Zeugnis davon ab, dass Deep Live Cam nicht gerade eine Ein-Klick-Installation ist.

Mein oben erwähntes schwarzes Quadrat war vermutlich dem Umstand geschuldet, dass ich keine Nvidia-Grafikkarte in meinem System hatte. Obwohl es laut Anleitung auch ohne gehen sollte, beschloss ich, auch diesen Schritt zu gehen.

So saß ich an einem der heißesten Tage des Jahres mit unter Volllast laufender Grafikkarte vor meinem Rechner und konnte mein Webcam-Bild mit dem Konterfei von Sean Connery verschönern.

Die verbleibende Zeit bis zur Redaktionskonferenz per Teams-Call verbrachte ich damit, den Rest der Einrichtung zu erledigen. Das Tool Deep Live Cam gibt das Videobild in Echtzeit in einem Fenster auf dem Desktop aus, es musste durch die freie Streaming-Software OBS(öffnet im neuen Fenster) geroutet werden. OBS kann auf Knopfdruck eine virtuelle Webcam bereitstellen, die wiederum vom Videkonferenzprogramm erkannt wird.

Das bringt eine Verzögerung mit sich, Bild und Ton sind nicht synchron. Auch die Auflösung des hereingerechneten Bildes ist geringer als die der Webcam und die Mundbewegungen wirken je nach Vorlage unecht. All das fällt jedoch kaum ins Gewicht, da das Ergebnis überzeugend aussieht.

Beleuchtung und Schattenwurf sind realistisch

Das liegt an der beeindruckenden Farb- und Lichtanpassung. Dabei übernimmt Deep Live Cam sogar Lichtquellen, die auf das Gesicht gerichtet sind. Eine direkt strahlende Taschenlampe erzeugt einen runden Lichtschein und harte Schatten.

Die Reaktion der Kolleginnen und Kollegen schwankte zwischen Bewunderung und Besorgnis. Letztere ist durchaus angemessen: Deep Live Cam dürfte dem Onlinebetrug neuen Aufschwung geben. Es wird wohl bald kaum noch möglich sein, angesichts eines Videoanrufs zweifelsfrei die Identität sicherzustellen. Voraussetzung ist aber, dass zumindest einige Merkmale der zu klonenden Person übereinstimmen.

Ich scheiterte mit meinem Bart und meiner Glatze erwartungsgemäß daran, eine überzeugende weibliche Person zu fälschen. Auch andere Vorlagen wirkten wenig glaubhaft: Weder als George Clooney noch als Erich Honecker oder Johnny Depp konnte ich mich profilieren. Lediglich der Ökonom Hans-Werner Sinn(öffnet im neuen Fenster) erweiterte mein Deepfake-Repertoire überzeugend. Die Illusion wird allerdings durch einen Gegenstand wie eine Tasse, ein Glas oder eine Hand vor dem Gesicht zerstört. Dann kommt das Programm durcheinander und zeigt halbtransparent die Vorlage als Geisterbild an.

Deep Live Cam kann auch zur Nachbearbeitung bereits gefilmter Inhalte verwendet werden. Das funktionierte bei mir allerdings nicht, es gab eine Fehlermeldung, die auf Speicherprobleme mit meiner RTX 2060 hinwies.

Trotzdem bin ich ziemlich beeindruckt von Deep Live Cam – und mein Rechner ebenso. Der stürzt kommentarlos ab, nur noch ein langer Druck auf den Netzschalter hilft.

Auch wenn es wie eine Wiederholung unserer Ahnung von 2019 klingen mag: Live-Deepfakes bergen ein enormes Missbrauchspotenzial. In Kombination mit bereits verfügbaren Werkzeugen(öffnet im neuen Fenster) zur Stimmklonung(öffnet im neuen Fenster) in Echtzeit ist es nur eine Frage der Zeit, bis die erste Software eine komplette Live-Fälschung ermöglicht.

Es ist nicht unwahrscheinlich, dass als Sicherheitsmaßnahme demnächst nur noch der Tipp hilft, das Gegenüber zu bitten, gut sichtbar einen Schluck aus der Kaffeetasse zu nehmen.


Relevante Themen