Zum Hauptinhalt Zur Navigation

Recruiting mit KI: Künstliche Diskriminierung im Personalwesen

KI soll viele Probleme der HR lösen - und scheitert dabei oft. Für einen der größten HR-Softwareanbieter der Welt könnte sie nun zum Albtraum werden.
/ Andreas Meier
17 Kommentare News folgen (öffnet im neuen Fenster)
Lieber Kopftuch statt Brille: KI diskriminiert im Bewerbungsprozess. (Bild: KI-generiert mit GPT-5)
Lieber Kopftuch statt Brille: KI diskriminiert im Bewerbungsprozess. Bild: KI-generiert mit GPT-5

Im Personalwesen soll künstliche Intelligenz Prozesse beschleunigen, Kosten senken und bessere Entscheidungen ermöglichen. Vor allem im Recruiting gilt sie als Schlüsseltechnologie, um unter Hunderten Bewerbungen schnell die besten Talente zu finden.

Doch was als Effizienzgewinn gedacht ist, kann in der Praxis zu systematischer Diskriminierung führen - mit massiven rechtlichen und ethischen Folgen. In der Vergangenenheit sind viele Unternehmen daran gescheitert. Und auch ein aufsehenerregender aktueller Fall - die Sammelklage gegen Workday - zeigt, wie schnell aus einem digitalen Helfer ein handfestes Haftungsrisiko wird.

Erste Probleme mit KI in Amazons HR-Bereich

Vor allem die Diskriminierung aufgrund verschiedener Persönlichkeitsmerkmale, allen voran Geschlecht oder Alter, ist immer wieder ein Problem bei der KI-Nutzung im Recruiting - und das selbst für im KI-Bereich sehr erfahrene Unternehmen.

Erstes prominentes Beispiel war Amazon(öffnet im neuen Fenster) im Jahr 2014. In einem Pilotversuch war das Ziel, ein System zum automatischen Sichten von Lebensläufen und Einstellen der besten Kandidaten zu entwickeln. Das System wurde dazu auf Lebensläufen früherer Einstellungen trainiert, um somit für Amazon passende Kandidaten automatisch zu identifizieren.

Alles Weibliche wird abgewertet

Ungünstig war jedoch, dass Amazon in der Vergangenheit hauptsächlich Männer eingestellt hatte. Natürlich filterte Amazon Informationen wie das Geschlecht oder den Namen heraus, bevor die Daten ins Training der KI einflossen.

Jedoch begann die KI, Lebensläufe, die Formulierungen mit dem Wort "Women" oder anderen eher weiblich konnotierten Wörtern enthielten, abzuwerten. Der Fehler fiel rechtzeitig auf und Amazon versuchte, die KI geschlechterneutral umzugestalten, aber da dies nicht gelang, wurde das Experiment eingestellt.

KI wird im HR psychologischer

Dennoch blieb KI im HR-Bereich von Interesse. Es wurden verstärkt Tools entwickelt, die - statt direkt Einstellungen von Kandidaten zu automatisieren - ein detaillierteres Screening ermöglichen sollten. Der Schwerpunkt lag dabei vor allem auf solchen Eigenschaften, die nicht einfach aus dem Lebenslauf abgelesen werden können, sondern in der Regel nur durch erfahrene Psychologen oder Personaldiagnostiker mittels eignungsdiagnostischer Verfahren abgeschätzt werden konnten. So sollten vor allem aufwendige und damit auch teure Verfahren wie Assessment Center, psychologische Tests, mehrstufige Interviews und ähnliche Verfahren dank KI-Unterstützung überflüssig werden.

In Deutschland war hier das Unternehmen Precire vertreten, das über die Analyse von geschriebenen oder gesprochenen Texten einer Person deren Charaktereigenschaften und Fähigkeiten erkennen wollte. Dahinter steckte ein maschinelles Lernverfahren, das anhand von Texten von mehr als 5.000 Versuchspersonen mit insgesamt über 500.000 Datenpunkten trainiert wurde. Die Applikation wurde dabei auch explizit für die Bewerberauswahl beworben, was Interesse, aber auch Misstrauen hervorrief.

Im Austausch mit erfahrenen Psychologen und Personaldiagnostikern wurden mir gegenüber schon 2018 große Zweifel gegenüber dem Ansatz geäußert. Denn den befragten Experten waren keine validierten, über wissenschaftliche Studien aufgedeckten Zusammenhänge bekannt, um anhand eines selbst verfassten Textes aussagen zu können, ob eine Person etwa intro- oder extrovertiert ist.

Auch wenn Precire hier Korrelationen erkannt haben mag, gab es daher Zweifel an der Kausalität. 2019 wurde das System dann wissenschaftlich von erfahrenen Psychologen untersucht und die Resultate waren katastrophal(öffnet im neuen Fenster) . Precire erhielt zudem für seine "wissenschaftlich zweifelhafte, wahrscheinlich rechtswidrige und gefährliche Sprachanalyse" den Big-Brother-Award(öffnet im neuen Fenster) .

2021 meldete das Unternehmen Insolvenz an, wurde aber schließlich aufgekauft. Seine Technologie soll mittlerweile nicht mehr zur Bewerberauswahl eingesetzt werden, sondern dazu dienen, die Wirkung der eigenen Sprache zu reflektieren, um damit die eigene Kommunikation zu verbessern.

KI wird multimodal

Im Vergleich zu einigen Firmen in den USA war das aber noch harmlos. So führte das Unternehmen Hirevue, das automatisierte Jobvideointerviews für Arbeitgeber anbietet, 2013 KI-Funktionen ein. Sie analysierten neben den eigentlichen Aussagen der Kandidaten auch deren Gesicht, Mimik und Stimme, um vielfältige Charaktereigenschaften zu ermitteln und einen Gesamtscore der Kandidaten zu berechnen. Dieser kann dann als Entscheidungskriterium von Arbeitgebern genutzt werden.

Dass Menschen, die keine Muttersprachler sind, vielleicht sehr nervös im Jobinterview agieren oder eine ungewöhnliche Mimik zeigen, nicht die besten Voraussetzungen(öffnet im neuen Fenster) für dieses Videointerview trotz vielleicht bester fachlicher und überfachlicher Eignungen haben, kann sich jeder wahrscheinlich denken. Zudem war das System intransparent, denn Kandidaten erhielten keine Informationen über ihren Score und auch keine Verbesserungshinweise, was es zu einer Blackbox machte und die oft geäußerte Kritik, Hirevues System sei pseudowissenschaftlich, nur noch verstärkte.

Aber was ist eigentlich mit professionellen Schauspielern? Können sie so ein System austricksen?

Interessanterweise gab es von der Firma Retorio aus München eine Art Pendant zu Hirevues KI-Funktionen, das auch anhand von Videos Charaktereigenschaften ableiten wollte und das Recruiting unterstützen sollte.

Lieber Kopftuch als Brille

Der Bayerische Rundfunk hat auf seiner sehr lesenswerten Website(öffnet im neuen Fenster) die Ergebnisse eines Experiments mit einer Schauspielerin und der Retorio-KI zusammengefasst. Setzte die Schauspielerin eine Brille auf, so war sie nach Meinung der KI auf einmal zehn Bewertungspunkte weniger gewissenhaft.

Besser war es da schon, auf ein Kopftuch anstatt auf eine Brille zu setzen, wodurch sie für das System gleich viel offener, gewissenhafter und weniger neurotisch erschien. Ebenfalls ihre Chancen verbessern konnten Personen, wenn hinter ihnen ein Bücherregal zu sehen war.

Anscheinend spielte es sogar eine Rolle, wie gut das Kamerabild ausgeleuchtet war, da einfache Helligkeitsfilter die Bewertung schon stark beeinflussen konnten. Es scheint, als wenn einfach Massen an Daten genommen, irgendwie mittels maschinellen Lernens miteinander verknüpft und Kausalitäten nicht geprüft wurden.

Die gehörlose Bewerberin sollte "an ihrer Kommunikation arbeiten"

Auch Retorio propagiert diese KI-gestützte Eignungsdiagnostik nicht mehr für Bewerbungsverfahren, sondern konzentriert sich nun auf das KI-gestützte Coaching, etwa für Vertriebsmitarbeiter. Hirevue hat nach einer FTC-Beschwerde angeblich seine KI-gestützte Gesichtsanalyse abgeschaltet, nutzt aber weiterhin KI-Funktionen in der Analyse der Videointerviews.

Doch auch diese verbliebenen Funktionen verursachen bei Hirevue Probleme, weshalb es zusammen mit dem Unternehmen Intuit verklagt(öffnet im neuen Fenster) wurde. Eine gehörlose, indigene Data-Scientistin, die sich bei Intuit bewarb, musste Hirevues Videointerview nutzen, obwohl sie nur amerikanische Zeichensprache sowie Englisch mit Akzent beherrscht.

Sie wurde abgelehnt und erhielt als Rückmeldung, dass sie an effektiver Kommunikation arbeiten solle, um schlüssige und direkte Antworten zu geben. Auch solle sie ihren Kommunikationsstil an unterschiedliche Zuhörergruppen anpassen und aktives Zuhören üben.

Grenzen der KI-Nutzung in Europa

Der Wandel der KI-Nutzung beim Recruiting wie bei Precires Technik oder bei Retorio kommt bei in der EU ansässigen Unternehmen vermutlich nicht von ungefähr. Bereits mit der Datenschutz-Grundverordnung, genauer Artikel 22(öffnet im neuen Fenster) , wurden automatisierte Einzelfallentscheidungen deutlich erschwert, da dieser Artikel betroffenen Personen das Recht einräumt, einer automatisierten Verarbeitung, was auch für Profiling gilt, zu widersprechen.

Spätestens mit dem Inkrafttreten des EU AI Act (im Deutschen KI-Verordnung(öffnet im neuen Fenster) genannt) im August 2024 wurde aber wohl vielen Softwareanbietern klar, wie schwierig die Umsetzung von KI-Anwendungen für die Bewerberauswahl im Recruiting innerhalb der EU ist. So ist Emotionserkennung am Arbeitsplatz mittels KI verboten (Art. 5 des EU AI Act) und nach Anhang III zählt auch das Bewerberscreening und -filtern zu den Hochrisikoanwendungen und damit zur höchsten noch erlaubten Risikokategorie.

Hochrisikoanwendungen sind erlaubt, erfordern aber eine so umfassende Dokumentation, Monitoring und regelmäßige Kontrolle (PDF)(öffnet im neuen Fenster) , dass der Vorteil durch eine KI-Unterstützung für die Betreiber solcher Lösungen, also etwa Arbeitgeber, schon signifikant sein muss.

Wichtig zu beachten ist dabei, dass der EU AI Act nicht per se KI-Technologie reguliert, sondern die Anwendungen, die KI nutzen. So ist es Firmen wie Retorio möglich, ihre Technologie weiter anzubieten - aber eben für andere, weniger kritische Anwendungsfälle.

Ein großes Problem des AI Acts ist jedoch, dass die Haftungsfrage noch nicht komplett geklärt ist, weshalb die EU auch eine an den AI Act angepasste Haftungsrichtlinie einführen wollte, dies aber bisher nicht getan hat. Es gibt zwar gewisse Standardstrafsätze für Verstöße gegen den EU AI Act, die bis zu sieben Prozent des weltweiten Umsatzes betragen können.

Jedoch ist etwa bei einer Recruiting-KI unklar, ob hier der Anbieter, das heißt der Entwickler der Software, oder der Betreiber, etwa ein Arbeitgeber, für Schäden haften muss. Gerichtsurteile sind mir zu dieser Frage noch nicht bekannt, aber das Gesetz ist auch noch sehr jung.

Vermutlich wird in einem zukünftigen Gerichtsverfahren geklärt werden müssen, ob der Anbieter oder Betreiber seine Pflichten verletzt hat - sofern nicht sowieso am Anfang erstmal von den Beklagten angefochten wird, dass das System der schwammigen KI-Definition des EU AI Acts folgt und ihm daher gar nicht unterliegt.

Möglicher Präzedenzfall Workday

Spannend ist vor diesem Hintergrund gerade jetzt ein Blick in die USA. Workday ist der US-Marktführer für Human Capital Management Software (HCM) und deckt vielfältige Prozesse des HR-Bereichs ab. Nach seinen Aussagen sollen über 50 Prozent der Fortune-500-Unternehmen zu Workdays Kunden gehören.

Dabei integriert Workday in seine Plattform auch ein Bewerbermanagementsystem, das über 22 Prozent aller US-Stellenanzeigen verarbeitet, dicht gefolgt von Taleo und auf Platz 3 das mittlerweile zu SAP gehörende Successfactors. In Deutschland sollen etwa Siemens oder die Deutsche Bank auf Workday setzen, was deutlich macht, dass es sich um ein Schwergewicht der HR-Tech-Branche handelt.

Aufsehenerregende Klage

Aufsehen erregt derzeit eine Klage gegen Workday, die im Februar 2023 eingereicht wurde. Der Kläger ist Derek Mobley, ein rund 40 Jahre alter afroamerikanischer US-Bürger mit körperlichen Beeinträchtigungen. Er behauptet, dass Workdays Recruiting-KI systematisch diskriminiere, indem es Personen über 40 Jahre und/oder anderer Ethnien und/oder Personen mit Beeinträchtigungen automatisch ablehne. So soll er sich seit 2017 über 100-mal bei Unternehmen beworben haben, die auf Workdays Recruiting-KI setzen, und - trotz passender Qualifikationen - jedes Mal abgelehnt worden sein.

Seine erste Klage wurde abgelehnt, aber es fanden sich vier weitere Geschädigte, mit denen er sich zusammenschloss. Dabei zeigten sich bei den weiteren Geschädigten ähnliche Muster.

Absage zu verdächtigen Zeiten oder verdächtig schnell

Denn genau wie Derek Mobley erhielten auch sie oft Absagen mitten in der Nacht, etwa um 2:40 Uhr am Sonntagmorgen, wenn sehr wahrscheinlich kein Mensch arbeitet. Aber auch Absagen innerhalb weniger als einer Stunde nach Einreichung der Unterlagen mitten in der Nacht gab es.

Im Februar 2024 erfolgte dann eine wegweisende Überarbeitung der Klage. Da Workday als "Agent" der Arbeitgeber, im Sinne eines Dienstleisters, handle und die KI immer die gleiche sei, hafte hier nicht der Arbeitgeber, sondern Workday. Im Fall von Derek Mobley und den anderen Geschädigten ist diese Argumentation auch sehr gut nachvollziehbar.

Denn jedes Unternehmen, das Workdays Recruiting-KI einsetzt, scheint sie automatisch abzulehnen - und damit sehr viele Unternehmen der Fortune 500. Das Gericht folgte dieser Argumentation und genehmigte im Mai 2025 eine Sammelklage (PDF)(öffnet im neuen Fenster) gegen Workday.

Das ist eine Zäsur im US-amerikanischen HR-Markt. Denn obwohl es in den USA so etwas wie den EU AI Act nicht gibt, rücken nun auf einmal HR-Technologieanbieter in den Mittelpunkt und könnten für fehlerhafte und diskriminierende KI-Systeme allein haftbar gemacht werden.

Für Workday kann diese Sammelklage gefährlich werden, wie nachfolgende Zahlen belegen. Wie in den Gerichtsunterlagen ausgeführt wird, gab es im Mai 2023 in den USA 9,8 Millionen Stellenausschreibungen, wobei 2,2 Millionen davon mittels Workdays Software verarbeitet wurden.

Hochgerechnet auf das gesamte Jahr 2023 hat Workdays KI rund 24 Millionen Stellenausschreibungen verarbeitet und etwa 266 Millionen Kandidaten gesichtet. Das Potenzial einer hohen Zahl weiterer Geschädigter ist also da.

Und Workday könnte schlechte Karten haben, denn Derek Mobleys Anwälte forderten via Gericht (PDF)(öffnet im neuen Fenster) Informationen zu den Verteilungen verschiedener Personengruppen in den Evaluierungsdaten des KI-Systems an. Das wurde vom Gericht nach Workdays Rückmeldung abgelehnt. Der Grund für die Ablehnung könnte dabei vermutlich eines der größten Probleme von Workday in dieser Sammelklage werden: Workday hat keine solchen Evaluierungsdaten.

Fazit

KI im HR und insbesondere im Recruiting klingt nach einer sinnvollen Kombination, erweist sich in der Praxis aber als schwierig bis riskant. So schlagen Versuche, die menschliche Eigenschaften mittels KI beobachten und bewerten zu wollen, oft fehl.

Erstaunlich ist dabei, wie oft von Technologieanbietern Anfängerfehler gemacht werden, indem etwa beim Training auf bloße Korrelation in großen Datenmengen anstatt auf Kausalität geachtet wird. Wird dann, wie im Fall von Workday, die KI anscheinend noch nicht mal auf einen möglichen Bias hin evaluiert, ist eine diskriminierende Nutzung der KI nicht mehr weit entfernt.

Innerhalb der EU wird über den EU AI Act die Anwendung solcher Recruiting-KIs stark reguliert, und auch wenn dieses Gesetz oft als Überregulierung und Innovationsbremse angesehen wird, zeigen die vorgestellten Beispiele, dass seine Schöpfer hier einen wunden Punkt treffen. Es wird daher spannend zu sehen sein, wie der Fall Mobley vs. Workday ausgeht, ob die USA somit indirekt auch eine Art AI Act erhalten und ob es zukünftig verlässliche KI-Lösungen im Recruiting geben wird.

Andreas Meier beschäftigt sich seit über 20 Jahren mit künstlicher Intelligenz (KI) und verantwortet heute KI-Anwendungen bei einem Automobilhersteller.


Relevante Themen