KI-Training: Nvidias verdeckte Video-Scraping-Operation aufgedeckt

Interne Dokumente von Nvidia sollen laut einem Bericht von 404 Media(öffnet im neuen Fenster) zeigen, dass das Unternehmen Videos von Youtube, Netflix und anderen Anbietern zum KI-Training genutzt habe. Die Operation habe den Codenamen Cosmos getragen.
Laut den durchgesickerten Slack-Nachrichten und E-Mails, die 404 Media erhielt, wurden Nvidia-Mitarbeiter angewiesen, Millionen von Videos mithilfe automatisierter Tools herunterzuladen. Das Ziel des Unternehmens sei es gewesen, "Trainingsdaten im Wert einer visuellen Erfahrung eines Menschenlebens pro Tag" zu sammeln. Wenn man von einer Lebensdauer von 80 Jahren ausgeht und einer Schlafdauer von einem Drittel der Zeit, wären dies 53 Jahre oder etwa 464.000 Stunden.
Die Dokumente zeigen, dass Nvidia eine Vielzahl von Inhalten verwendete, von Filmtrailern bis zu nutzergenerierten Videos. Die Mitarbeiter diskutierten über den Einsatz virtueller Maschinen, um die Downloadbeschränkungen Youtubes zu umgehen, und erwogen, Filmmaterial aus Videospielen zu erfassen.
Rechtliche und ethische Bedenken bei Nvidia-Mitarbeitern
Die durchgesickerten Unterhaltungen zeigen, dass einige Nvidia-Mitarbeiter Bedenken hinsichtlich der Rechtmäßigkeit und Ethik der Verwendung urheberrechtlich geschützter Inhalte für das KI-Training äußerten. Diese Bedenken wurden jedoch oft von Projektmanagern abgetan, die angaben, eine "umfassende Genehmigung" von Führungskräften zu haben, wie 404 Media zitierte.
Nvidia verteidigte seine Praktiken den Angaben zufolge gegenüber den Mitarbeitern und erklärte, diese stünden " in voller Übereinstimmung mit dem Wortlaut und dem Geist des Urheberrechts ". Das Unternehmen argumentierte, dass das Urheberrecht Ausdrucksformen, nicht aber Fakten oder Ideen schütze, und dass die Verwendung der Daten unter die faire Nutzung für transformative Zwecke falle.
Die Enthüllungen erscheinen zu einem Zeitpunkt, zu dem mehrere Klagen gegen KI-Unternehmen wegen angeblicher Urheberrechtsverletzungen anhängig sind, darunter auch KI-Musikgeneratoren .



