Trainingsdaten mit Tendenz: Bundesamt für Migration hält an Sprachanalyse fest

Das Bundesamt für Migration und Flüchtlinge (BAMF) weitet die Verwendung von Software für Sprachanalyse aus. So wurde das System im Juli 2022 um die Sprachen Dari, Persisch und Paschto erweitert. Dies geht aus der Antwort einer Kleinen Anfrage der Linken-Abgeordneten Clara Bünger hervor, die Golem.de vorliegt. Netzpolitik.org hatte zuvor mit einer detaillierten Analyse der Problematik berichtet(öffnet im neuen Fenster) .
Das BAMF führt solche Dialekterkennungen durch, um Geflüchtete einem Herkunftsland zuordnen zu können. Das vermeintliche Herkunftsland ist entscheidend für einen möglichen Aufenthaltstitel eines Geflüchteten. Jedoch sind manche Sprachen in den Trainingsdaten teils überproportional vorhanden und das System wird somit fehleranfällig.
Vier Millionen Euro für ein fragliches System
Seit Beginn des Verwendung will das BAMF mehr als vier Millionen Euro für das System ausgegeben haben, unter anderem für die Lizenzierung der Software Nuance Speech Suite. Das BAMF hat die Spracherkennung im Jahr 2021 15.052 Mal durchgeführt, im ersten Halbjahr des Jahres 2022 bereits 7.808 Mal.
Clara Bünger sagt in einer Anmerkung zu der Antwort auf die Kleine Anfrage: "Ich habe große Zweifel daran, ob die Dialekterkennungssoftware des BAMF ein geeignetes Mittel ist, um valide Hinweise auf die Identität und Herkunft von Asylsuchenden zu bekommen. Auch die Bundesregierung scheint sich da nicht ganz sicher zu sein."
Anfechtung der Ergebnisse mit Tendenz schwer möglich
Die Bundesregierung argumentiert, dass die Erkennungssoftware keinen "Beweischarakter" hat, jedoch die Ergebnisse berücksichtigt werden sollten. Bünger sagt diesbezüglich: "Gerade bei hoher Arbeitsbelastung, unter Zeitdruck oder bei mangelnder Schulung besteht die Gefahr, dass BAMF-Mitarbeiter*innen die Ergebnisse der Software letztlich doch wie unumstößliche Fakten behandeln, um schnell eine Entscheidung treffen zu können." Asylsuchende könnten diese Entscheidungen nur schwer anfechten, so Bünger.
Die zugrundeliegenden Trainingsdaten können zu nicht eindeutig validen Ergebnissen führen, wie neben Bünger auch Netzpolitik.org argumentiert. In der Antwort der Bundesregierung zu den Trainingsdaten heißt es: "Der größte Teil der Trainingsdaten wurde vom Linguistic Data Consortium (LDC) bezogen. Ein kleiner Teil wurde über die Clickworker GmbH beschafft. Die arabischen Modelle sind darüber hinaus auch mit BAMF-eigenen anonymisierten Sprachproben trainiert worden." Zu der Fehlerquote äußert sich die Bundesregierung nicht.



