Zum Hauptinhalt Zur Navigation

Maschinelles Lernen: Biometrisches Captcha nutzt Sprache und Bild

Gefilmt werden und eine Frage mündlich beantworten: Ein neues biometrisches Captcha-System soll verhindern, dass Algorithmen die Abfragen austricksen. Die Lösungszeit macht dabei den Unterschied zwischen Mensch und Maschine.
/ Oliver Nickel
14 Kommentare News folgen (öffnet im neuen Fenster)
Ins Telefon reden, um Captchas zu lösen - das könnte bald Alltag werden. (Bild: Pexels.com)
Ins Telefon reden, um Captchas zu lösen - das könnte bald Alltag werden. Bild: Pexels.com / CC0 1.0

Forscher der Tech School of Computer Science im US-Bundesstaat Georgia entwickeln eine biometrische Captcha-Abfrage(öffnet im neuen Fenster) mit mehreren integrierten Sicherheitsmechanismen. Diese Software nutzt die Kamera eines Hostgerätes, um die Nutzer aufzunehmen und als Menschen zu identifizieren. In Zeiten, in denen Machine-Learning-Systeme Captchas leicht umgehen können, soll diese Methode wieder Sicherheit schaffen.

Die Authentifizierung wird per Bild und Ton durchgeführt. Der Algorithmus analysiert neben dem Gesicht auch die Spracheingabe der Nutzer, während diese eine auf dem Bildschirm angezeigte Frage mündlich beantworten müssen. Das System übersetzt das Gesprochene in einen für das Hostgerät verständlichen String und vergleicht ihn mit der gespeicherten Antwort.

Face ID mit Zwillingen und Geschwistern ausprobiert
Face ID mit Zwillingen und Geschwistern ausprobiert (01:24)

Die Kombination aus Audio- und Videobeweis soll es Angreifern und automatisierten Systemen schwer machen, ein solches Captcha auszutricksen. Projektmitarbeiter Erkam Uzun sagt dazu: "Wir machen die Hürder schwieriger überwindbar, indem wir den Nutzern unvorhersehbare Abfragen senden" . Gestellte Fragen werden demnach zufällig ausgewählt.

Zeitunterschied zwischen Mensch und Maschine

Trotzdem: Selbst die Authentifizierung per Stimme und Bild ist nicht vor dem Überlisten sicher. Eine Maschine soll es laut dem Forschungspapier innerhalb von sechs bis zehn Sekunden schaffen, eine Audiospur nachzustellen. Ein echter Mensch benötigt hingegen nur etwa eine Sekunde. Dieser Zeitunterschied ist das Kriterium, das Maschinen auch als solche verraten soll.

Getestet wurde das Konzept mit 30 Testpersonen. Damit sind die Erkenntnisse noch nicht repräsentativ für eine größere Bevölkerungsgruppe. Es bleibt auch abzuwarten, wie eine audiovisuelle Captcha-Abfrage auf Webseitenbesucher wirkt. Wahrscheinlich dürfte es eine solche Technik es erst einmal schwierig haben, sich zu etablieren – vor allem, wenn Nutzer nicht wissen, wo ihre Gesichts- und Stimmdaten gespeichert und ausgewertet werden.


Relevante Themen