• IT-Karriere:
  • Services:

Machine Learning: MIT nimmt Datensatz mit rassistischen Begriffen offline

Die 80 Millionen kategorisierten Bilder sind automatisiert erstellt worden. KI-Systeme haben mit dem MIT-Datensatz Beleidigungen erlernt.

Artikel veröffentlicht am ,
Das Stata Center ist Sitz des CSAIL.
Das Stata Center ist Sitz des CSAIL. (Bild: Tony Webster, flickr.com/CC-BY 2.0)

Das prestigeträchtige Computer Science & Artificial Intelligence Lab (CSAIL) des MIT (Massachusetts Institute of Technology) hat seinen für Machine-Learning-Aufgaben gedachten Datensatz Tiny Images mit etwa 80 Millionen Einzelbildern in mehr als 75.000 Kategorien offline genommen. Wie das Institut auf der Tiny-Images-Webseite mitteilt, sei diese Entscheidung dauerhaft und der Datensatz damit künftig gar nicht mehr verfügbar. Als Grund dafür wird angegeben, dass der Datensatz "abfällige Begriffe als Kategorien und beleidigende Bilder" enthalte.

Stellenmarkt
  1. SP_Data GmbH & Co. KG, Herford
  2. Technische Informationsbibliothek (TIB), Hannover

Das MIT zieht damit die Konsequenzen aus Recherchen des Magazins The Register sowie einer Forschungsarbeit (PDF) von Vinay Prabhu, Forscher bei dem Startup UnifyID, sowie Abeba Birhane, die am University College Dublin promoviert. Die Untersuchung beschäftigt sich mit verschiedenen Datensätzen, die für Machine-Learning-Modelle und Forschungen genutzt werden. Der Fokus liegt dabei einerseits auf den enthaltenen Bildern selbst, die etwa pornografische Inhalte enthalten, sowie auf den Kategorien und den damit assoziierten Bildern.

Um Machine-Learning-Modelle zu trainieren und damit letztlich neue und unbekannte Inhalte zu erkennen, ist es wichtig, dass der zugrundeliegende Datensatz möglichst divers ist und vor allem eine gute Kategorisierung aufweist. In den vergangenen Jahren gab es aber immer wieder Fälle, bei denen derartige Systeme wohl wegen der schlechten Ausgangslage sehr schlecht funktioniert und Diskriminierung verfestigt haben. Im Zuge der aktuellen Black-Lives-Matter-Proteste haben deshalb Microsoft, IBM und Amazon ihre Arbeiten an solchen Systemen eingestellt oder zumindest ausgesetzt.

Abwertende Begriffe als Datengrundlage

Wie das Forscherteam nun zeigt, reproduziert auch der Tiny-Images-Datensatz des MIT bestehende Diskriminierungen wie Rassismus und Sexismus und verwendet etwa Ethnophaulismen als Kategorien, also abwertende Bezeichnungen für Menschengruppen. Laut dem MIT ist die Erstellung des Datensatzes im Jahr 2006 automatisiert umgesetzt worden, indem Worte aus der Wordnet-Sammlung als Kategorien kopiert worden waren und anschließend eine Online-Bildersuche mit diesen umgesetzt wurde.

Eine menschliche Prüfung der Kategorien oder damit assoziierter Bilder hat jedoch nicht stattgefunden. Machine-Learning-Modelle, die den Tiny-Image-Datensatz genutzt haben, haben damit auch dessen diskriminierende Kategorien erlernt. Der Datensatz ist aber sehr groß und die Bilder sind mit 32 x 32 Pixel sehr klein, "daher garantiert eine manuelle Überprüfung, selbst wenn dies möglich ist, nicht, dass anstößige Bilder vollständig entfernt werden können", heißt es auf der Webseite des MIT. Als Reaktion bleibe nur, den Datensatz nicht mehr anzubieten.

Die MIT-Forscher schreiben: "Vorurteile, beleidigende und nachteilige Bilder und abfällige Begriffe entfremden einen wichtigen Teil unserer Gemeinschaft - genau diejenigen, die wir einbeziehen wollen. Dies trägt auch zu schädlichen Verzerrungen in KI-Systemen bei, die auf solchen Daten trainiert werden. Darüber hinaus schadet das Vorhandensein solcher nachteiligen Bilder den Bemühungen, eine Kultur der Inklusivität in der Computer-Vision-Community zu fördern. Dies ist äußerst bedauerlich und widerspricht den Werten, die wir vertreten wollen."

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Top-Angebote
  1. 154,99€ (Vergleichspreis 185€)
  2. (u. a. Horizon: Zero Dawn - Complete Edition (PC) für 38,99€, Wreckfest für 12,99€, Sekiro...
  3. (u. a. Sandisk Extreme PRO NVMe 3D SSD 1TB M.2 PCIe 3.0 für 145,90€ (mit Rabattcode...
  4. (u. a. Edifier R1280DB PC-Lautsprecher für 99,90€, Acer X1626H DLP-Beamer für 449, Grundig VCH...

n0x30n 02. Jul 2020 / Themenstart

Es kommt immer darauf an, was man damit trainieren will. Will man zum Beispiel eine KI...

Palerider 02. Jul 2020 / Themenstart

Eine KI mit 'shit in' kann das perfekte Vorurteil werden... eine der großen Gefahren wenn...

jankapunkt 02. Jul 2020 / Themenstart

Am besten wir unterdrücken alle negativen emotionen dann gibt es auch keine...

Kommentieren


Folgen Sie uns
       


DLR Istar vorgestellt - Bericht

Die Falcon 2000LX des DLR hat weltweit einzigartige Eigenschaft: sie kann so tun, als wäre sie ein anderes Flugzeug.

DLR Istar vorgestellt - Bericht Video aufrufen
Coronavirus und Karaoke: Gesang mit Klang trotz Gesichtsvorhang
Coronavirus und Karaoke
Gesang mit Klang trotz Gesichtsvorhang

Karaokebars sind gefährliche Coronavirus-Infektionsherde. Damit den Menschen in Japan nicht ihr Hobby genommen wird, gibt es nun ein System, das auch mit Mundschutz gute Sounds produzieren soll.
Ein Bericht von Felix Lill

  1. Corona Gewerkschaft sieht Schulen schlecht digital ausgestattet
  2. Corona Telekom und SAP sollen europaweite Warn-Plattform bauen
  3. Universal Kinofilme kommen früher ins Netz

Threat-Actor-Expertin: Militärisch, stoisch, kontrolliert
Threat-Actor-Expertin
Militärisch, stoisch, kontrolliert

Sandra Joyces Fachgebiet sind Malware-Attacken. Sie ist Threat-Actor-Expertin - ein Job mit viel Stress und Verantwortung. Wenn sie eine Attacke einem Land zuschreibt, sollte sie besser sicher sein.
Ein Porträt von Maja Hoock

  1. Emotet Die Schadsoftware Trickbot warnt vor sich selbst
  2. Loveletter Autor des I-love-you-Virus wollte kostenlos surfen
  3. DNS Gehackte Router zeigen Coronavirus-Warnung mit Schadsoftware

Golem on Edge: Wo Nachbarn alles teilen - auch das Internet
Golem on Edge
Wo Nachbarn alles teilen - auch das Internet

Mehr schlecht als recht arbeiten zu können und auch nur dann, wenn die Nachbarn nicht telefonieren - das war keine Dauerlösung. Wie ich endlich Internet in meine Datsche bekommen habe.
Eine Kolumne von Sebastian Grüner

  1. Keine Glasfaser, keine IT-Kompetenz Schulen bemühen sich vergeblich um Geld aus dem Digitalpakt
  2. Kultusministerien Schulen rufen kaum Geld aus Digitalpakt ab
  3. Change-Management Wie man Mitarbeiter mitnimmt

    •  /