Das Gesicht im Heuhaufen finden

Wir testen den Ansatz einmal am CelebA-Datensatz an. Der umfasst 202.599 Fotos von 10.177 mehr oder weniger bekannten Personen. Der Datensatz enthält Porträts aus freier Wildbahn, also Fotos, die nicht speziell zum Zwecke der Gesichtserkennung gemacht wurden. Daher haben die Fotos verschiedene Beleuchtung, Hintergründe und so weiter.

Stellenmarkt
  1. IT HelpDesk Spezialist (m/w/d) (z. B. Fachinformatiker, Informatiker)
    Schuler Präzisionstechnik KG, Gosheim
  2. Mitarbeiter (m/w/d) IT-Service-Cluster
    Amprion GmbH, Dortmund
Detailsuche

Man kann sich vorstellen, dass man damit jedes Gesichtserkennungssystem an seine Grenzen führen kann. Wie kommt Facenet damit zurecht? Dieses Netz hat aus vielen Gesichtern einen Algorithmus gelernt, der die Ähnlichkeit von Gesichtern in einen Vektorraum überführt. In diesem können wir mit mathematischen Operationen Anfragen stellen wie zum Beispiel: "Was sind die 10 ähnlichsten Gesichter zu folgendem Bild?"

Diese Repräsentation ist ein reellwertiger Vektor mit, je nach Implementierung, 64 bis 512 Dimensionen. Zum Zwecke der Veranschaulichung kann man mit statistischen Verfahren wie tsne die Dimension dieser Vektoren auf 2 reduzieren. Man sieht schnell, dass die Anordnung im 2D-Raum tatsächlich die Ähnlichkeit der Gesichter widerspiegelt.

Auf diesem Bild sieht man einige Gesichter und ihre Verteilung im embedding-Raum, mit tsne auf 2D vereinfacht.

Golem Karrierewelt
  1. Kubernetes Dive-in-Workshop: virtueller Drei-Tage-Workshop
    19.-21.07.2022, Virtuell
  2. ITIL 4® Foundation: virtueller Zwei-Tage-Workshop
    27./28.06.2022, virtuell
Weitere IT-Trainings

Die Architektur von Facenet basiert auf sogenannten convolution matrices, im Deutschen auch Faltungsmatrizen genannt. Eine solche Matrix wird auf alle Pixel eines Bildes angewendet, um etwa die Kanten von Objekten herauszuarbeiten.

Ein Beispiel für edge detection mittels Faltungen ist hier zu sehen.

Diese Technik findet nicht nur in neuronalen Netzen Anwendung, sondern auch in Bildbearbeitungsprogrammen wie Gimp. Dort sind sie nützlich für Blur und andere Effekte. Faltungen sind simple und performante Operationen, die auch hintereinander ausgeführt werden können, um nach und nach die relevanten Features des Fotos herauszuarbeiten.

Convolutional Neural Networks (CNN) machen sich diese Eigenschaft zunutze, um beispielsweise zu lernen, welche Objekte ein Bild enthält. Anders als bei Gimp werden keine vordefinierten Faltungen verwendet, sondern solche Faltungen werden basierend auf den Trainingsdaten gelernt.

Das heißt, das neuronale Netz lernt, welche Faltungen die wichtigen Eigenschaften eines Gesichtes herausarbeiten, um eine Identifizierung zu ermöglichen. Endergebnis dieser Kette von Faltungen ist bei Facenet das embedding der Eingabe.

Dieses Bild zeigt die Visualisierung der convolution layer von Deepface, einem Vorgängermodell von Facenet.

Nachbarn suchen

Um nun zu einem Foto die Identität zu bestimmen, berechnet man den Abstand des Gesichtes auf dem Foto zu allen bekannten Fotos, die man von allen Personen hat. Die Fotos in der direkten Nachbarschaft haben die höchste Wahrscheinlichkeit, dieselbe Person abzubilden. In der Literatur wird dieses Verfahren nearest neighbour search genannt.

Erfahrene Entwickler erinnern sich vielleicht dunkel, dass dies auch effizienter machbar ist, zum Beispiel mit einem KD-Baum. Dieser ermöglicht die Suche in logarithmischer Zeit.

Deep Learning illustriert: Eine anschauliche Einführung in Machine Vision, Natural Language Processing und Bilderzeugung für Programmierer und Datenanalysten

Wir gehen also wie folgt vor:

1. Bilde alle Gesichter mittels Facenet auf 512 dimensionale Vektoren ab.
2. Füge diese in einen KD-Baum ein.
3. Bilde das Gesicht, zu dem die Identität gesucht wird, auf einen Vektor ab.
4. Suche im KD-Baum die Nachbarschaft des Gesichts.

Wir suchen nun mithilfe des KD-Baums aus den berechneten embeddings die direkte Nachbarschaft zu einigen Gesichtern. Da der CelebA-Datensatz zu jedem Bild auch die anonymisierte Identität des Fotografierten enthält, können wir auch prüfen, ob dieselbe Person auf verschiedenen Bildern erkannt wird.

Das Wiedererkennen funktioniert auch bei anderer Haarfarbe, wie auf diesem Bild zu sehen ist.

Und tatsächlich besteht im ersten Beispiel die Nachbarschaft des Bildes fast ausschließlich aus Gesichtern derselben Identität, trotz unterschiedlicher Posen und sogar unterschiedlichen Haarfarben. Aber auch Facenet hat seine Grenzen, wie das folgende Beispiel zeigt.

Eine Sonnenbrille führt dazu, dass die jeweils nächstliegenden Gesichter zwar ähnlich sind, aber dennoch von anderen Personen stammen, wie hier zu sehen ist. Vermutlich würde das Wiedererkennen in so einem Fall auch den meisten Menschen schwerfallen. Ist das Gesicht vollständig sichtbar, funktioniert der Algorithmus wieder deutlich besser.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Gesichtserkennung: Deep Learning - Überwachung für alleDIY-Massenüberwachung mit Deep Learning? 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


Dreamwalker84 05. Apr 2022 / Themenstart

Hier gibt's nicht viel zu sagen. Das Buch ist eine, auf die heutigen Bedürfnisse und...

emdotjay 05. Apr 2022 / Themenstart

Man kann mit der Technology auch Doubles finden. Das würde manche Unternehmen die Arbeit...

Oviing 05. Apr 2022 / Themenstart

Eigentlich braucht man sogar wie keine Hardware. Man kann sich auch bei AWS, GCC, Azure...

Kommentieren



Aktuell auf der Startseite von Golem.de
Liberty Lifter
US-Militär lässt ein eigenes Ekranoplan entwickeln

In den 1960er Jahren schockten die Sowjets den Westen mit dem Kaspischen Seemonster. Die Darpa will ein eigenes, besseres Bodeneffektfahrzeug bauen.

Liberty Lifter: US-Militär lässt ein eigenes Ekranoplan entwickeln
Artikel
  1. Abo: Spielebranche streitet über Game Pass
    Abo
    Spielebranche streitet über Game Pass

    Nach Kritik von Sony gibt es mehr Stimmen aus der Spielebranche, die Game Pass problematisch finden - aber auch klares Lob für das Abo.

  2. Microsoft: Der Android-App-Store für Windows 11 kommt nach Deutschland
    Microsoft
    Der Android-App-Store für Windows 11 kommt nach Deutschland

    Build 2022 Der Microsoft Store soll noch attraktiver werden. So können Kunden ihre Apps künftig ohne lange Wartezeiten direkt veröffentlichen.

  3. Macht mich einfach wahnsinnig: Kelber beklagt digitale Inkompetenz von VW
    "Macht mich einfach wahnsinnig"
    Kelber beklagt digitale Inkompetenz von VW

    Der Bundesdatenschutzbeauftragte Ulrich Kelber hat vor einem Jahr ein Elektroauto bei VW bestellt. Und seitdem nichts mehr davon gehört.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • PS5-Controller (alle Farben) günstig wie nie: 49,99€ • Samsung SSD 1TB 79€ • LG OLED TV 77" 56% günstiger: 1.099€ • Alternate (u. a. Cooler Master Curved Gaming-Monitor 34" UWQHD 144 Hz 459€) • Sony-Fernseher bis zu 47% günstiger • Samsung schenkt 19% MwSt.[Werbung]
    •  /